Halo Sobat Data!

Selamat datang pada sesi #IDEA (Insight Data Eksplorasi Akademik). Di sini, Sobat Data akan diajak menjelajahi jurnal-jurnal penelitian menarik untuk menggali insight, metode, dan dampak nyatanya di dunia sains data. Yuk, simak sampai akhir supaya tidak ketinggalan pengetahuan baru yang bisa jadi inspirasi penelitianmu berikutnya!

Pada edisi kali ini, kita akan membahas jurnal berjudul “Multilabel Classification for Keyword Determination of Scientific Articles” yang ditulis oleh Bapak Sulthan Rafif, S.Tr.Kom., M.Kom dan Tim. Jurnal ini diterbitkan di Journal of Information Technology and Computer Science (JITeCS) Volume 8 Nomor 2 Tahun 2023.

Penelitian ini berangkat dari masalah klasik dalam dunia publikasi ilmiah, yaitu penentuan kata kunci (keywords). Banyak penulis yang masih menentukan kata kunci secara manual, sehingga sering kali tidak sesuai dengan tema spesifik artikel. Akibatnya, artikel tersebut menjadi sulit ditemukan oleh pembaca melalui mesin pencari akademik. Nah, di sinilah kecerdasan buatan mulai berperan!

Bapak Sulthan dan Tim mengusulkan pendekatan multi-label classification berbasis Contextualized Word Embedding menggunakan model BERT (Bidirectional Encoder Representations from Transformers). Singkatnya, BERT membantu memahami konteks kata dalam kalimat, sehingga bisa menafsirkan makna secara lebih akurat dibanding metode konvensional seperti TF-IDF.

Dataset yang digunakan terdiri dari 2.304 artikel ilmiah bidang ilmu komputer dari ACM Digital Library, yang masing-masing memiliki abstrak dan kumpulan kata kunci. Dengan pendekatan ini, proses klasifikasi dilakukan secara otomatis untuk memprediksi beberapa kata kunci yang relevan dari teks abstrak.

Menariknya, hasil evaluasi menunjukkan performa yang cukup solid. Model BERT yang diterapkan menghasilkan akurasi 71%, precision 71%, recall 71%, dan f1-score 0.83. Nilai tersebut menandakan bahwa model mampu menebak kata kunci dengan tingkat kesesuaian yang tinggi, sekaligus menjaga keseimbangan antara akurasi dan generalisasi.

Lebih lanjut, Bapak Sulthan dan Tim juga menggunakan SciBERT, varian BERT yang telah dilatih secara khusus pada teks ilmiah dari Semantic Scholar. Penggunaan model ini membuat proses pelatihan lebih efisien dan hasil klasifikasi menjadi lebih kontekstual terhadap bahasa penelitian.

Dampak dari penelitian ini cukup besar. Otomatisasi penentuan kata kunci dapat mempercepat proses publikasi, meningkatkan keterjangkauan artikel di mesin pencari akademik, dan meminimalkan kesalahan manusia. Di masa depan, sistem seperti ini bisa dikembangkan untuk menilai topic relevance atau bahkan menyarankan reviewer otomatis berdasarkan tema penelitian.

Bagi Sobat Data yang tertarik pada bidang Natural Language Processing (NLP) dan text classification, jurnal ini bisa jadi referensi menarik. Selain menampilkan penerapan langsung BERT di dunia akademik, riset ini juga menunjukkan bahwa inovasi sederhana dalam pengolahan teks bisa memberi dampak besar bagi komunitas ilmiah.

Jadi, dari jurnal ini kita belajar bahwa automation meets academia bukan sekadar slogan, melainkan arah baru dalam pengelolaan pengetahuan ilmiah. Siapa tahu, penelitianmu berikutnya bisa jadi langkah lanjutan dari karya ini.

Buat kamu yang penasaran dan pengen baca jurnal aslinya, bisa langsung cek di bawah ini ya Sobat Data!

https://jitecs.ub.ac.id/index.php/jitecs/article/download/560/208

Terus ikuti sesi #IDEA untuk mengeksplorasi lebih banyak penelitian menarik di bidang sains data dan aplikasinya di dunia nyata!

Yuk segera daftarkan diri kamu di Data Science Telkom University Surabaya dan wujudkan impianmu!

Playing with Data, Winning the Era.

More info :

-Website : https://bds-sby.telkomuniversity.ac.id/

-Instagram : https://www.instagram.com/ds.telkomsurabaya/

Leave a Reply

Your email address will not be published. Required fields are marked *

Secret Link