KOMPARASI TINGKAT AKURASI RANDOM FOREST DAN KNN UNTUK MENDIAGNOSIS PENYAKIT KANKER PAYUDARA

Authors

  • Jefri Junifer Pangaribuan Universitas Pelita Harapan
  • Vincent Angkasa Universitas Pelita Harapan

Abstract

Abstract – Breast cancer is a cancer that is formed on breast cells. According to Observatory, breast cancer contributed 30.8% for death in all-ages woman that is caused by cancer in 2020. This research uses breast cancer data set to increase awareness and knowledge about breast cancer because the awareness of breast cancer should be public knowledge. KNN is often used for classification. Random Forest is versatile and can be used without tuning to give good result. Previous research indicates SVM has 96.47% of accuracy, Neural Network 97.06%, Naive Bayes 91.18%. The data set is from Kaggle. With the diagnosis of ‘M’ for malignant and ‘B’ for benign. The data set consists of 569 data and 33 columns in which 31 columns are used. Seventy-five percent of the data is the training data. This research concludes that KNN achieves a ROC score of 0.9959 while Random Forest produces 0.9951.

Keywords: Breast Cancer, KNN, Random Forest                          

Abstrak – Kanker payudara adalah kanker yang terbentuk di sel-sel bagian payudara. Menurut data dari Observatory kanker payudara berkontribusi sebanyak 30,8% untuk kematian penyakit kanker pada wanita untuk semua usia pada tahun 2020. Penelitian ini memakai data set kanker payudara untuk menambah kesadaran, karena, kesadaran akan kanker payudara itu penting dan seharusnya menjadi ilmu pengetahuan umum. Algoritma KNN sering digunakan untuk kasus klasifikasi dan Random Forest memiliki sifat versatile dan tanpa di-tune dapat memberikan akurasi yang bagus dalam klasifikasi. Dari penelitian sebelumnya, SVM memiliki 96.47% accuracy, Neural Network sebanyak 97,06%, dan Naive Bayes 91,18% accuracy. Ppenelitian ini peneliti memiliki ketertarikan untuk membandingkan kedua algoritma dengan ROC curve. Sumber data berasal dari Kaggle. Diagnosis ‘M’ (malignant) dan ‘B’ (benign). Terdiri dari 569 data dan 33 kolom. Data training sebesar 75% dan memakai 31 kolom. Dari penelitian ini dapat disimpulkan nilai ROC yang dimiliki oleh KNN adalah sebesar 0.9959 dan Random Forest sebesar 0.9951.

Kata Kunci: Kanker Payudara, KNN, Random Forest

Published

2022-01-28