Data set tak seimbang

Di banyak kasus machine learning di dunia nyata, kelas positif yang kita pedulikan justru sangat sedikit jumlahnya. Contohnya:

  • Deteksi penipuan transaksi
  • Deteksi penyakit langka
  • Deteksi intrusi jaringan
  • Prediksi churn pelanggan premium

Secara kasat mata, akurasi bisa tampak tinggi, padahal model hampir tidak pernah mendeteksi kelas positif. Karena itu, komunitas riset beralih ke metrik lain seperti ROC AUC dan Precision–Recall (PR) dan AUC PR untuk mengevaluasi model di dataset tak seimbang. ResearchGate+1

Sejumlah studi terbaru di medis dan teknik menunjukkan bahwa pemilihan metrik yang salah bisa membuat kita “tertipu” mengira model sudah bagus, padahal sangat buruk untuk kelas minoritas yang penting. ScienceDirect+2SpringerLink+2

Sekilas tentang ROC AUC dan Precision–Recall

Kurva ROC dan AUC ROC

Kurva ROC memplot:

  • sumbu x: False Positive Rate (FPR) yaitu FP dibagi semua negatif
  • sumbu y: True Positive Rate (TPR) yaitu recall atau sensitivitas

AUC ROC adalah luas area di bawah kurva ini dan sering dibaca sebagai probabilitas model memberi skor lebih tinggi untuk satu contoh positif dibanding satu contoh negatif yang dipilih acak.PMC+1

Keunggulan:

  • Tidak tergantung threshold spesifik
  • Lumayan stabil ketika proporsi kelas berubah sedikit

Kelemahan di data sangat tidak seimbang:

  • FPR bisa tampak sangat kecil karena jumlah negatif sangat besar, sehingga ROC bisa terlihat “bagus” walaupun model gagal menangkap cukup banyak positif.ResearchGate+1

Kurva Precision–Recall dan AUC PR

Kurva Precision–Recall memplot:

  • sumbu x: recall
  • sumbu y: precision yaitu TP dibagi semua prediksi positif

AUC PR mengukur trade off antara “seberapa banyak yang berhasil kita tangkap” dan “seberapa bersih prediksi positif kita dari false positive”. PMC+1

Keunggulan:

  • Fokus hanya pada kelas positif, yang biasanya adalah kelas minoritas yang penting
  • Lebih sensitif terhadap perubahan performa di kelas minoritas

Kelemahan:

  • Nilai baseline bergantung pada prevalensi kelas positif
  • Lebih sulit dipahami oleh praktisi non teknis dibanding ROC AUC ScienceDirect+1

Studi klasik Davis dan Goadrich menunjukkan bahwa ada hubungan matematis erat antara ROC dan PR, dan algoritma yang mengoptimalkan ROC AUC belum tentu mengoptimalkan AUC PR, terutama di dataset tak seimbang. FTP Wisconsin+1

Kenapa ROC AUC Bisa Menipu di Dataset Tak Seimbang

Beberapa hasil riset penting:

  • Saito dan Rehmsmeier menunjukkan bahwa kurva PR sering lebih informatif dibanding ROC ketika mengevaluasi klasifikator biner pada dataset sangat tidak seimbang, karena ROC “terlalu memanfaatkan” banyaknya true negative.ResearchGate
  • Ulasan besar tentang dataset medis tak seimbang oleh Salmi dan kolega menemukan bahwa ROC AUC masih paling sering digunakan, padahal AUC PR lebih sesuai untuk kasus di mana kelas positif sangat jarang.SpringerLink

Studi terbaru di bidang medis oleh Richardson dan kolega menyimpulkan:

  • ROC AUC tetap berguna, tetapi bisa meng-overestimate performa pada dataset sangat tidak seimbang
  • AUC PR lebih menggambarkan kemampuan model memprediksi kelas langka, walau interpretasinya lebih rumit bagi klinisiScienceDirect

Intinya: ROC AUC tidak salah, tetapi tidak boleh jadi satu satunya metrik untuk dataset sangat tidak seimbang.

Bukti Empiris dari Riset Terbaru

Deep learning di medis

Liu dan kolega membandingkan berbagai metrik untuk model deep learning pada data medis yang tidak seimbang. Mereka menunjukkan bahwa:ScienceDirect

  • ROC AUC beberapa model tampak hampir sama tinggi
  • Namun, ketika dilihat dengan kurva PR dan AUC PR, perbedaan kemampuan mendeteksi kasus positif menjadi jauh lebih jelas
  • Model yang terlihat “baik” di ROC AUC bisa berkinerja buruk pada AUC PR

Artinya, jika tujuan utama adalah tidak melewatkan kasus penyakit, PR dan AUC PR memberikan sinyal yang jauh lebih relevan.

Review data medis tak seimbang

Salmi dan kolega melakukan review sepuluh tahun penggunaan teknik pembelajaran mesin di data medis tak seimbang dan menemukan:SpringerLink

  • AUC ROC dipakai sangat dominan di literatur
  • AUC PR hanya dipakai beberapa kali, padahal sudah lama direkomendasikan sebagai metrik yang lebih cocok untuk kelas langka

Ini menunjukkan adanya “gap” antara rekomendasi teoretis dan praktik di lapangan.

Optimasi model di data tidak seimbang

Zou dan kolega mempelajari optimasi parameter CNN pada data multiclass yang tidak seimbang dengan pendekatan one vs rest, dan mengevaluasi model menggunakan berbagai metrik termasuk ROC dan PR.MDPI

Mereka menekankan bahwa:

  • Ketika kelas target jarang, fokus evaluasi harus bergeser ke metrik yang menitikberatkan pada kelas tersebut
  • Pendekatan one vs rest dengan kurva PR per kelas membantu mengidentifikasi kelas mana yang benar benar sudah terlayani dengan baik oleh model

Benchmark lintas metrik

Canbek dan kolega mengusulkan kerangka benchmarking metrik klasifikasi biner dan menganalisis konsistensi beberapa metrik termasuk akurasi, ROC AUC, F1, dan metrik lain pada skenario seimbang dan tidak seimbang.PMC+1

Temuan kunci:

  • Tidak ada satu metrik yang selalu unggul
  • Kombinasi metrik diperlukan untuk menilai model secara adil
  • Perbedaan urutan model menurut ROC AUC dan AUC PR bisa signifikan di dataset tidak seimbang

Contoh Intuisi di Dataset Tak Seimbang

Bayangkan dataset deteksi penipuan:

  • 9.900 transaksi normal
  • 100 transaksi penipuan

Model A

  • Menandai 80 transaksi sebagai penipuan
  • 70 benar penipuan, 10 salah (false positive)

Precision = 70 dibagi 80 = 0,875
Recall = 70 dibagi 100 = 0,7

Model B

  • Menandai 200 transaksi sebagai penipuan
  • 90 benar penipuan, 110 salah

Precision = 90 dibagi 200 = 0,45
Recall = 90 dibagi 100 = 0,9

Jika dilihat ROC (TPR vs FPR), keduanya bisa sama sama tampak cukup baik, karena:

  • True negative sangat banyak, sehingga FPR di kedua model rendah
  • ROC tidak peduli seberapa kotor prediksi positif selama FPR kecil

Namun di ruang PR:

  • Model A lebih “rapi” (precision tinggi, recall sedang)
  • Model B lebih “agresif” (recall tinggi, precision turun banyak)

Pilihan tergantung konteks:

  • Jika biaya false positive besar (misalnya tiap transaksi dicurigai perlu investigasi manual yang mahal), kita mungkin pilih model A
  • Jika yang penting hampir tidak ada penipuan yang lolos, model B lebih menarik

Kurva PR membuat trade off ini terlihat jelas.

Panduan Praktis Memilih Metrik

Berikut panduan ringkas berdasarkan literatur terbaru. Neliti+4ScienceDirect+4SpringerLink+4

Skenario utama Fokus utama Metrik yang disarankan
Dataset relatif seimbang Performa global ROC AUC, akurasi, F1
Dataset sangat tidak seimbang, kelas positif langka Deteksi kelas positif Precision, recall, kurva PR, AUC PR
Domain medis dengan kasus langka Mengurangi false negative Recall tinggi, AUC PR, ditambah ROC AUC sebagai pelengkap
Sistem di mana false positive sangat mahal Menjaga precision tinggi Precision, AUC PR, kurva PR untuk memilih threshold
Pelaporan ke pemangku kepentingan non teknis Ringkasan mudah dipahami Kombinasi ROC AUC, AUC PR, dan confusion matrix di threshold tertentu

Beberapa prinsip praktis:

  1. Selalu lihat confusion matrix di threshold yang relevan, agar tidak terjebak satu angka ringkasan.
  2. Laporkan lebih dari satu metrik untuk dataset tidak seimbang, minimal ROC AUC dan AUC PR.
  3. Diskusikan bersama domain expert
    • Apakah lebih penting mengurangi kasus lolos (false negative) atau mengurangi alarm palsu (false positive).
    • Dari situ baru pilih metrik yang selaras.

Riset terbaru di berbagai domain menegaskan bahwa:

  • ROC AUC tetap berguna, tetapi bisa terlalu optimistis pada dataset sangat tidak seimbang.ScienceDirect+1
  • Precision–Recall dan AUC PR lebih fokus pada kelas minoritas yang penting, sehingga lebih informatif untuk masalah seperti deteksi penyakit langka, penipuan, dan anomali.SpringerLink+1
  • Tidak ada satu metrik yang sempurna. Kombinasi ROC AUC, AUC PR, precision, recall, dan F1, plus analisis confusion matrix, memberi gambaran paling adil.ScienceDirect+1

Pada akhirnya, pemilihan metrik adalah keputusan bisnis dan sains sekaligus. Metrik yang tepat adalah metrik yang selaras dengan konsekuensi nyata dari salah deteksi di dunia nyata, bukan sekadar angka yang terlihat bagus di laporan.

Daftar Referensi

Saito, T., & Rehmsmeier, M. (2015). The precision–recall plot is more informative than the ROC plot when evaluating binary classifiers on imbalanced datasets. PLOS ONE, 10(3), e0118432. PLOS+1

Salmi, M., et al. (2024). Handling imbalanced medical datasets: review of a decade of progress. Artificial Intelligence Review. SpringerLink

Richardson, E., et al. (2024). The receiver operating characteristic curve accurately reflects performance for imbalanced datasets – or does it? (open-access review yang membahas bias ROC-AUC dan keunggulan PR-AUC pada data tak seimbang). PMC

Liu, S., et al. (2023). Comparison of evaluation metrics of deep learning for medical image classification on imbalanced data. Computerized Medical Imaging and Graphics. ScienceDirect+1

McDermott, M. B. A., et al. (2024). A Closer Look at AUROC and AUPRC under Class Imbalance. (preprint / conference paper yang menganalisis perilaku AUROC vs AUPRC saat rasio kelas berubah). OpenReview

Leave a Reply

Your email address will not be published. Required fields are marked *

Secret Link