Pengaruh Prediksi Missing Value pada Klasifikasi Decision Tree C4.5

Pendekatan klasifikasi data bersifat supervised learning menuntut adanya dataset yang lengkap. Permasalahan yang muncul adanya missing value yaitu hilangnya nilai suatu atribut yang diakibatkan kesalahan dalam pengumpulan data, kesalahan saat memasukkan data, dan ketidakmampuan responden untuk membe...

Full description

Saved in:
Bibliographic Details
Published inJurnal teknologi informasi dan ilmu komputer (Online) Vol. 9; no. 4; pp. 779 - 786
Main Authors Arifianto, Aji Seto, Dewi Safitri, Kursita, Agustianto, Khafidurrohman, Wiryawan, I Gede
Format Journal Article
LanguageEnglish
Indonesian
Published University of Brawijaya 31.08.2022
Online AccessGet full text

Cover

Loading…
More Information
Summary:Pendekatan klasifikasi data bersifat supervised learning menuntut adanya dataset yang lengkap. Permasalahan yang muncul adanya missing value yaitu hilangnya nilai suatu atribut yang diakibatkan kesalahan dalam pengumpulan data, kesalahan saat memasukkan data, dan ketidakmampuan responden untuk memberikan jawaban yang akurat. Penelitian ini melakukan uji coba pengembangan rule decision tree C4.5 untuk data penyakit ginjal kronis. Dataset terdiri dari 400 record, 24 atribut dan 1 kelas target. Karakteristik data yang digunakan meliputi 11 data bertipe numerik dan 14 data bertipe nominal. Jumlah data kelas positif penyakit ginjal kronis 250, sedangkan negatif ginjal kronis 150. Total data yang tidak lengkap (missing value) 1012 records. Perlakuan pertama dibangun rule dengan menghitung entropy dan gain pada 360 data training yang terdapat missing value diperoleh 21 rules. Kemudian pada perlakuan kedua diterapkan prediksi missing value menggunakan rumus mean dan modus sebelum pembetukan rule tree, didapatkan 24 rules. Mengukur akurasi kedua rules tree C4.5 dilakukan menguji 40 data test, hasilnya 90% untuk rule dengan missing value dan 95% untuk dataset yang telah diprediksi nilainya. AbstractThe supervised learning approach to data classification requires a complete dataset. The problem that arises was the existence of missing value, namely the loss of the value of an attribute due to errors in data collection, errors when entering data, and the inability of respondents to provide accurate answers. This study conducted a trial on the development of the C4.5 rule decision tree for chronic kidney disease data. The dataset consisted of 400 records, 24 attributes and 1 target class. The data characteristics included 11 numeric data and 14 nominal data types. The number of positive data for kidney disease was 250, while the number of negative for kidney disease was 150 and the total of missing value was 1012 records. The first treatment was building a rule by calculating the entropy and gain on 360 training data where missing value was obtained, it was 21 rules. Then in the second treatment, the prediction of missing value was applied using the mean and mode formula before the formation of the rule tree, obtained 24 rules. Researcher was measuring the accuracy of the two rules tree C4.5 is done by using 40 data-testing, the result is 90% for rules with missing value and 95% for datasets whose value has been predicted.
ISSN:2355-7699
2528-6579
DOI:10.25126/jtiik.2022944778