BUDI KARYADI
Klasifikasi merupakan suatu proses pengkategorian yang digunakan untuk menentukan kelas dari data yang tidak di ketahui label class nya. Memprediksi label kelas adalah tujuan utama dari klasifikasi ini.
Klasifikasi merupakan suatu proses pengkategorian yang digunakan untuk menentukan kelas dari data yang tidak di ketahui label class nya. Memprediksi label kelas adalah tujuan utama dari klasifikasi ini.
Decision tree adalah metode klasifikasifikasi machine learning yang menggunakan seperangkat aturan untuk membuat keputusan dengan struktur seperti pohon yang memodelkan kemungkinan hasil, biaya sumber daya, utilitas dan kemungkinan konsekuensi atau resiko. Konsepnya adalah dengan cara menyajikan algoritma dengan pernyataan bersyarat, yang meliputi cabang untuk mewakili langkah-langkah pengambilan keputusan yang dapat mengarah pada hasil yang menguntungkan. ada tiga elemen dalam satu decision tree, yaitu:
Decision Tree akan menjadi salah satu model algoritma yang akan dijadikan untuk prediksi kemungkinan penyakit jantung. Langkah yang pertama dilakukan adalah melakukan connect data antara google colab dengan google drive agar dapat mengakses data.
Selanjutnya lakukan import library pandas dan juga dataset yang akan dilakukan analisa, dalam hal ini dataset yang digunakan adalah heart.csv
Dataset heart terdiri dari 303 baris data dan 14 variable. Lakukan pengecekan jumlah kolom dan baris data menggunakan perintah df.shape
Gunakan perintah “iloc” untuk menentukan mana yang akan dijadikan sebagai variable independent atau variable dependent. Dalam hal ini akan diambil seluruh baris data dan kolom 0 sampai 13 sebagai variable dependent dan juga seluruh kolom 13 dijadikan sebagai variable independent
Selanjutnya lakukan import library train_test_split dari modul sklearn.model_selection agar dapat lakukan partitioning data yang akan dilatih maupun diuji. Dalam hal ini an dilakukan partitioning data sebesar 30% untuk data testing dan 70% untuk data training pada masing-masing variable independent maupun dependent.
permodelan yang akan digunakan pada prediksi heart kali adalah decision tree, import library decision tree pada modul sklearn menggunakan perintah sklearn import tree. Panggil fungsi atau model yang dengan perintah tree.DecisionTreeClassifier. Lakukan latih model pada data yang telah di partitioning sebelumnya dengan perintah “.fit” setelahnya lakukan pengujian data test dengan menggunakan perintah “.predict”
Setelah testing dan pengujian prediksi pada data heart lakukan pengecekan akurasi dengan menggunakan modul sklearn.metrics dengan mengunakan accuracy_score, confusion_matrix dan classification_report. Accuracy_score akan menampilkan nilai yang bernilai 0 sampai 1 yang mana nilai 1 merupakan nilai yang cukup akurat. Sedangkan confusion matriks akan melihat akurasi dalam bentuk 4 kombinasi berbeda dari nilai prediksi dan nilai actual. Dan classification_report merupakan pengecekan akurasi yang cukup detil karena akan melakukan scoring baik dalam precision, recall, f1-score dan juga support.
Selanjutnya kita lakukan pengecekan dengan menggunakan model Random Forest. Lakukan import library Random Forest Classifier dengan perintah “from sklearn.ensemble import Random Forest Classifier”. Setelah itu laukan latih atas data yang telah dilakukan partitioning.
setelahnya lakukan uji prediksi atas data yang telah dilatih dengan data tes yang telah di partitioning.
Summary
Secara keseluruhan dengan menggunakan 30% data test dan 70% data training menggunakan model Decision Tree menghasilkan nilai akurasi 0,7 sedangkan jika menggunakan model Random Forest menghasilkan nilai akurasi lebih besar yaitu 0.8. Hasil ini digunakan untuk menguji data terbatas dan pemodelan terbatas, perlu diuji dan akselerasi lebih dalam untuk penggunaan teknik yang lebih optimal.