Efriizoni, Lusiana and Defit, Sarjon and Tajuddin, Muhammad and Anggarawan, Anthony (2022) Komparasi Ekstraksi Fitur dalam Klasifikasi Teks Multilabel Menggunakan Algoritma Machine Learning Comparison of Feature Extraction in Multilabel Text Classification Using Machine Learning Algorithm. Matrik: Jurnal Manajemen Teknik Informatika, dan Rekayasa komputer, 21 (3). pp. 653-666. ISSN 2476-9843 (Submitted)
Text (Matrik: Jurnal Manajemen Teknik Informatika, dan Rekayasa komputer)
2-2022-Bumigora-vol21no3.pdf Download (939kB) |
Abstract
ABSTRAK Ektraksi fitur dan algoritma klasifikasi teks merupakan bagian penting dari pekerjaan klasifikasi teks, yang memiliki dampak langsung pada efek klasifikasi teks. Algoritma machine learning tradisional seperti Na¨ıve Bayes, Support Vector Machines, Decision Tree, K-Nearest Neighbors, Random Forest, Logistic Regression telah berhasil dalam melakukan klasifikasi teks dengan ektraksi fitur i.e. Bag of Word (BoW), Term Frequency-Inverse Document Frequency (TF-IDF), Documents to Vector (Doc2Vec), Word to Vector (word2Vec). Namun, bagaimana menggunakan vektor kata untuk merepresentasikan teks pada klasifikasi teks menggunakan algoritma machine learning dengan lebih baik selalu menjadi poin yang sulit dalam pekerjaan Natural Language Processing saat ini. Makalah ini bertujuan untuk membandingkan kinerja dari ekstraksi fitur seperti BoW, TF-IDF, Doc2Vec dan Word2Vec dalam melakukan klasifikasi teks dengan menggunakan algoritma machine learning. Dataset yang digunakan sebanyak 1000 sample yang berasal dari tribunnews.com dengan split data 50:50, 70:30, 80:20 dan 90:10. Hasil dari percobaan menunjukkan bahwa algoritma Na¨ıve Bayes memiliki akurasi tertinggi dengan menggunakan ekstraksi fitur TF-IDF sebesar 87% dan BoW sebesar 83%. Untuk ekstraksi fitur Doc2Vec, akurasi tertinggi pada algoritma SVM sebesar 81%. Sedangkan ekstraksi fitur Word2Vec dengan algoritma machine learning (i.e. i.e. Na¨ıve Bayes, Support Vector Machines, Decision Tree, K-Nearest Neighbors, Random Forest, Logistic Regression) memiliki akurasi model dibawah 50%. Hal ini menyatakan, bahwa Word2Vec kurang optimal digunakan bersama algoritma machine learning, khususnya pada dataset tribunnews.com.
Item Type: | Article |
---|---|
Subjects: | 0 Research > Ilmu Komputer |
Divisions/ Fakultas/ Prodi: | Fakultas Ilmu Komputer |
Depositing User: | Ryan Ariadi A.Md |
Date Deposited: | 23 Oct 2023 07:44 |
Last Modified: | 23 Oct 2023 07:57 |
URI: | http://repository.upiyptk.ac.id/id/eprint/7900 |
Actions (login required)
View Item |