
Di banyak kasus machine learning di dunia nyata, kelas positif yang kita pedulikan justru sangat sedikit jumlahnya. Contohnya:
- Deteksi penipuan transaksi
- Deteksi penyakit langka
- Deteksi intrusi jaringan
- Prediksi churn pelanggan premium
Secara kasat mata, akurasi bisa tampak tinggi, padahal model hampir tidak pernah mendeteksi kelas positif. Karena itu, komunitas riset beralih ke metrik lain seperti ROC AUC dan Precision–Recall (PR) dan AUC PR untuk mengevaluasi model di dataset tak seimbang. ResearchGate+1
Sejumlah studi terbaru di medis dan teknik menunjukkan bahwa pemilihan metrik yang salah bisa membuat kita “tertipu” mengira model sudah bagus, padahal sangat buruk untuk kelas minoritas yang penting. ScienceDirect+2SpringerLink+2
Sekilas tentang ROC AUC dan Precision–Recall
Kurva ROC dan AUC ROC
Kurva ROC memplot:
- sumbu x: False Positive Rate (FPR) yaitu FP dibagi semua negatif
- sumbu y: True Positive Rate (TPR) yaitu recall atau sensitivitas
AUC ROC adalah luas area di bawah kurva ini dan sering dibaca sebagai probabilitas model memberi skor lebih tinggi untuk satu contoh positif dibanding satu contoh negatif yang dipilih acak.PMC+1
Keunggulan:
- Tidak tergantung threshold spesifik
- Lumayan stabil ketika proporsi kelas berubah sedikit
Kelemahan di data sangat tidak seimbang:
- FPR bisa tampak sangat kecil karena jumlah negatif sangat besar, sehingga ROC bisa terlihat “bagus” walaupun model gagal menangkap cukup banyak positif.ResearchGate+1
Kurva Precision–Recall dan AUC PR
Kurva Precision–Recall memplot:
- sumbu x: recall
- sumbu y: precision yaitu TP dibagi semua prediksi positif
AUC PR mengukur trade off antara “seberapa banyak yang berhasil kita tangkap” dan “seberapa bersih prediksi positif kita dari false positive”. PMC+1
Keunggulan:
- Fokus hanya pada kelas positif, yang biasanya adalah kelas minoritas yang penting
- Lebih sensitif terhadap perubahan performa di kelas minoritas
Kelemahan:
- Nilai baseline bergantung pada prevalensi kelas positif
- Lebih sulit dipahami oleh praktisi non teknis dibanding ROC AUC ScienceDirect+1
Studi klasik Davis dan Goadrich menunjukkan bahwa ada hubungan matematis erat antara ROC dan PR, dan algoritma yang mengoptimalkan ROC AUC belum tentu mengoptimalkan AUC PR, terutama di dataset tak seimbang. FTP Wisconsin+1
Kenapa ROC AUC Bisa Menipu di Dataset Tak Seimbang
Beberapa hasil riset penting:
- Saito dan Rehmsmeier menunjukkan bahwa kurva PR sering lebih informatif dibanding ROC ketika mengevaluasi klasifikator biner pada dataset sangat tidak seimbang, karena ROC “terlalu memanfaatkan” banyaknya true negative.ResearchGate
- Ulasan besar tentang dataset medis tak seimbang oleh Salmi dan kolega menemukan bahwa ROC AUC masih paling sering digunakan, padahal AUC PR lebih sesuai untuk kasus di mana kelas positif sangat jarang.SpringerLink
Studi terbaru di bidang medis oleh Richardson dan kolega menyimpulkan:
- ROC AUC tetap berguna, tetapi bisa meng-overestimate performa pada dataset sangat tidak seimbang
- AUC PR lebih menggambarkan kemampuan model memprediksi kelas langka, walau interpretasinya lebih rumit bagi klinisiScienceDirect
Intinya: ROC AUC tidak salah, tetapi tidak boleh jadi satu satunya metrik untuk dataset sangat tidak seimbang.
Bukti Empiris dari Riset Terbaru
Deep learning di medis
Liu dan kolega membandingkan berbagai metrik untuk model deep learning pada data medis yang tidak seimbang. Mereka menunjukkan bahwa:ScienceDirect
- ROC AUC beberapa model tampak hampir sama tinggi
- Namun, ketika dilihat dengan kurva PR dan AUC PR, perbedaan kemampuan mendeteksi kasus positif menjadi jauh lebih jelas
- Model yang terlihat “baik” di ROC AUC bisa berkinerja buruk pada AUC PR
Artinya, jika tujuan utama adalah tidak melewatkan kasus penyakit, PR dan AUC PR memberikan sinyal yang jauh lebih relevan.
Review data medis tak seimbang
Salmi dan kolega melakukan review sepuluh tahun penggunaan teknik pembelajaran mesin di data medis tak seimbang dan menemukan:SpringerLink
- AUC ROC dipakai sangat dominan di literatur
- AUC PR hanya dipakai beberapa kali, padahal sudah lama direkomendasikan sebagai metrik yang lebih cocok untuk kelas langka
Ini menunjukkan adanya “gap” antara rekomendasi teoretis dan praktik di lapangan.
Optimasi model di data tidak seimbang
Zou dan kolega mempelajari optimasi parameter CNN pada data multiclass yang tidak seimbang dengan pendekatan one vs rest, dan mengevaluasi model menggunakan berbagai metrik termasuk ROC dan PR.MDPI
Mereka menekankan bahwa:
- Ketika kelas target jarang, fokus evaluasi harus bergeser ke metrik yang menitikberatkan pada kelas tersebut
- Pendekatan one vs rest dengan kurva PR per kelas membantu mengidentifikasi kelas mana yang benar benar sudah terlayani dengan baik oleh model
Benchmark lintas metrik
Canbek dan kolega mengusulkan kerangka benchmarking metrik klasifikasi biner dan menganalisis konsistensi beberapa metrik termasuk akurasi, ROC AUC, F1, dan metrik lain pada skenario seimbang dan tidak seimbang.PMC+1
Temuan kunci:
- Tidak ada satu metrik yang selalu unggul
- Kombinasi metrik diperlukan untuk menilai model secara adil
- Perbedaan urutan model menurut ROC AUC dan AUC PR bisa signifikan di dataset tidak seimbang
Contoh Intuisi di Dataset Tak Seimbang
Bayangkan dataset deteksi penipuan:
- 9.900 transaksi normal
- 100 transaksi penipuan
Model A
- Menandai 80 transaksi sebagai penipuan
- 70 benar penipuan, 10 salah (false positive)
Precision = 70 dibagi 80 = 0,875
Recall = 70 dibagi 100 = 0,7
Model B
- Menandai 200 transaksi sebagai penipuan
- 90 benar penipuan, 110 salah
Precision = 90 dibagi 200 = 0,45
Recall = 90 dibagi 100 = 0,9
Jika dilihat ROC (TPR vs FPR), keduanya bisa sama sama tampak cukup baik, karena:
- True negative sangat banyak, sehingga FPR di kedua model rendah
- ROC tidak peduli seberapa kotor prediksi positif selama FPR kecil
Namun di ruang PR:
- Model A lebih “rapi” (precision tinggi, recall sedang)
- Model B lebih “agresif” (recall tinggi, precision turun banyak)
Pilihan tergantung konteks:
- Jika biaya false positive besar (misalnya tiap transaksi dicurigai perlu investigasi manual yang mahal), kita mungkin pilih model A
- Jika yang penting hampir tidak ada penipuan yang lolos, model B lebih menarik
Kurva PR membuat trade off ini terlihat jelas.
Panduan Praktis Memilih Metrik
Berikut panduan ringkas berdasarkan literatur terbaru. Neliti+4ScienceDirect+4SpringerLink+4
| Skenario utama | Fokus utama | Metrik yang disarankan |
|---|---|---|
| Dataset relatif seimbang | Performa global | ROC AUC, akurasi, F1 |
| Dataset sangat tidak seimbang, kelas positif langka | Deteksi kelas positif | Precision, recall, kurva PR, AUC PR |
| Domain medis dengan kasus langka | Mengurangi false negative | Recall tinggi, AUC PR, ditambah ROC AUC sebagai pelengkap |
| Sistem di mana false positive sangat mahal | Menjaga precision tinggi | Precision, AUC PR, kurva PR untuk memilih threshold |
| Pelaporan ke pemangku kepentingan non teknis | Ringkasan mudah dipahami | Kombinasi ROC AUC, AUC PR, dan confusion matrix di threshold tertentu |
Beberapa prinsip praktis:
- Selalu lihat confusion matrix di threshold yang relevan, agar tidak terjebak satu angka ringkasan.
- Laporkan lebih dari satu metrik untuk dataset tidak seimbang, minimal ROC AUC dan AUC PR.
- Diskusikan bersama domain expert
- Apakah lebih penting mengurangi kasus lolos (false negative) atau mengurangi alarm palsu (false positive).
- Dari situ baru pilih metrik yang selaras.
Riset terbaru di berbagai domain menegaskan bahwa:
- ROC AUC tetap berguna, tetapi bisa terlalu optimistis pada dataset sangat tidak seimbang.ScienceDirect+1
- Precision–Recall dan AUC PR lebih fokus pada kelas minoritas yang penting, sehingga lebih informatif untuk masalah seperti deteksi penyakit langka, penipuan, dan anomali.SpringerLink+1
- Tidak ada satu metrik yang sempurna. Kombinasi ROC AUC, AUC PR, precision, recall, dan F1, plus analisis confusion matrix, memberi gambaran paling adil.ScienceDirect+1
Pada akhirnya, pemilihan metrik adalah keputusan bisnis dan sains sekaligus. Metrik yang tepat adalah metrik yang selaras dengan konsekuensi nyata dari salah deteksi di dunia nyata, bukan sekadar angka yang terlihat bagus di laporan.
Daftar Referensi
Saito, T., & Rehmsmeier, M. (2015). The precision–recall plot is more informative than the ROC plot when evaluating binary classifiers on imbalanced datasets. PLOS ONE, 10(3), e0118432. PLOS+1
Salmi, M., et al. (2024). Handling imbalanced medical datasets: review of a decade of progress. Artificial Intelligence Review. SpringerLink
Richardson, E., et al. (2024). The receiver operating characteristic curve accurately reflects performance for imbalanced datasets – or does it? (open-access review yang membahas bias ROC-AUC dan keunggulan PR-AUC pada data tak seimbang). PMC
Liu, S., et al. (2023). Comparison of evaluation metrics of deep learning for medical image classification on imbalanced data. Computerized Medical Imaging and Graphics. ScienceDirect+1
McDermott, M. B. A., et al. (2024). A Closer Look at AUROC and AUPRC under Class Imbalance. (preprint / conference paper yang menganalisis perilaku AUROC vs AUPRC saat rasio kelas berubah). OpenReview