Penerapan Algoritma Safe-Level-SMOTE Untuk Peningkatan Nilai G-Mean Dalam Klasifikasi Data Tidak Seimbang

Penulis

  • Resianta Perangin-angin Universitas Methodist Indonesia

Abstrak

Klasifikasi data yang tidak seimbang merupakan masalah yang krusial pada bidang machine learning dan data mining. Ketidakseimbangan data memberikan dampak yang buruk pada hasil klasifikasi dimana kelas minoritas sering disalah klasifikasikan sebagai kelas mayoritas. Dimana kelompok kelas minoritas (minority) adalah kelompok kelas yang memiliki data lebih sedikit, dan kelompok kelas mayoritas (mayority) adalah kelompok kelas yang memilik jumlah data lebih banyak. Data tidak seimbang adalah suatu kondisi dimana jumlah contoh dari salah satu kelas jauh lebih banyak dari kelas yang lain. Alasan buruknya kinerja metode klasifikasi biasa yang digunakan pada data tidak seimbang adalah bahwa tujuan metode klasifikasi dalam meminimumkan galat secara keseluruhan tidak dapat tercapai karena kelas minoritas hanya sedikit memberikan kontribusi, selain itu keputusan akhir yang dihasilkan tidak tepat karena terjadinya bias. Hal ini disebabkan oleh salah satu kelas mendominasi dalam hal jumlah. Dalam penelitian ini akan berfokus pada peningkatan nilai G-Mean dari dataset yang digunakan, dengan menerapkan algoritma Safe-Level-SMOTE. Dari hasil ujicoba yang dilakukan terhadap dua dataset yakni Abalon dan Vowel, untuk skema Smote + k-NN nilai G-Mean yang didapat yakni 0,47 untuk dataset Abalon dan 0.94 untuk dataset Vowel. Seletah dilakukan ujicoba terhadap dataset yang sama menggunakan skema Safe-Level-Smote menggunakan algoritma klasifikasi k-NN didapat hasil G-Mean 0,59  untuk dataset Abalon dan 1.00 Untuk dataset Vowel, rerata dari kenaikan nilai G-Mean terhadap algoritma SMOTE sebesar 12,68%. Hal ini membuktikan bahwasanya algoritma Safe-Level-Smote dapat meningkatkan nilai G-Mean pada klasifikasi data tidak seimbang menggunakan algoritma klasifikasi k-Nearst Neighbors.

Biografi Penulis

Resianta Perangin-angin, Universitas Methodist Indonesia

Departemen Komputerisasi Akuntansi

 

Referensi

[1] C. A. Sugianto, “ANALISIS KOMPARASI ALGORITMA KLASIFIKASI UNTUK MENANGANI DATA TIDAK SEIMBANG PADA DATA KEBAKARAN HUTAN,” vol. 14, no. 4, p. 7.
[2] R. Siringoringo, “KLASIFIKASI DATA TIDAK SEIMBANG MENGGUNAKAN ALGORITMA SMOTE DAN k-NEAREST NEIGHBOR,” p. 6, 2018.
[3] Q. Meidianingsih, “KAJIAN METODE SAFE-LEVEL SMOTE PADA KASUS KLASIFIKASI DATA TIDAK SEIMBANG,” p. 80.
[4] Department of Biological Sciences, BITS PILANI K K Birla Goa Campus, Zuarinagar, Vasco Da Gama, India and R. Kothandan, “Handling class imbalance problem in miRNA dataset associated with cancer,” Bioinformation, vol. 11, no. 1, pp. 6–10, Jan. 2015.
[5] Q. Wu, Y. Ye, H. Zhang, M. K. Ng, and S.-S. Ho, “ForesTexter: An efficient random forest algorithm for imbalanced text categorization,” Knowl.-Based Syst., vol. 67, pp. 105–116, Sep. 2014.
[6] C. Li and S. Liu, “A comparative study of the class imbalance problem in Twitter spam detection,” Concurr. Comput. Pract. Exp., vol. 30, no. 5, p. e4281, 2018.
[7] G. Qiong, “An Improved SMOTE Algorithm Based on Genetic Algorithm for Imbalanced,” vol. 14, no. 2, p. 12, 2016.
[8] N. V. Chawla, K. W. Bowyer, L. O. Hall, and W. P. Kegelmeyer, “SMOTE: Synthetic Minority Over-sampling Technique,” J. Artif. Intell. Res., vol. 16, pp. 321–357, Jun. 2002.
[9] C. Bunkhumpornpat, K. Sinapiromsaran, and C. Lursinsap, “Safe-Level-SMOTE: Safe-Level-Synthetic Minority Over-Sampling TEchnique for Handling the Class Imbalanced Problem,” in Advances in Knowledge Discovery and Data Mining, vol. 5476, T. Theeramunkong, B. Kijsirikul, N. Cercone, and T.-B. Ho, Eds. Berlin, Heidelberg: Springer Berlin Heidelberg, 2009, pp. 475–482.
[10] Keller. JM,Gray. MR, JR. James A.G "A Fuzzy ΛΓ-Nearest Neighbor Algorithm". IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS, VOL. SMC-15, NO. 4, 1985..
[11] S. K. Lidya, O. S. Sitompul, and S. Efendi, “SENTIMENT ANALYSIS PADA TEKS BAHASA INDONESIA MENGGUNAKAN SUPPORT VECTOR MACHINE (SVM) DAN K-NEAREST NEIGHBOR (K-NN),” p. 8, 2015.

Diterbitkan

2020-06-29