Ali Imran Nasution
Salah satu cara untuk mempelajari stroke yaitu dengan ilmu data science yang diolah dengan metode machine learning dengan pemanfaatannya dilakukan suatu tindakan pendeteksian terhadap kemungkinan seseorang terkena penyakit stroke agar dapat segera diatasi sesuai dengan tingkat risikonya dengan berbagai parameter berdasarkan dataset yang diambil dari Kaggle. Setiap baris dalam dataset memberikan informasi yang relevan tentang pasien seperti usia, status merokok, jenis kelamin, penyakit jantung, bmi, jenis pekerjaan dan pada akhirnya apakah pasien menderita stroke. Parameter terakhir ini akan menjadi target, yang akan dilakukan diagnosa penyakit stroke dengan klasifikasi menggunakan algoritma Decision Tree.
Dataset yang digunakan terdiri dari beberapa variabel berikut:
'id' : ID pasien 'gender' : Jenis kelamin pasien 'age' : Umur pasien 'hypertension' : Apakah pasien memiliki hipertensi? 'heart_disease' : Apakah pasien memiliki penyakit jantung? 'ever_married' : Apakah pasien pernah menikah? 'work_type' : Jenis pekerjaan pasien 'Residence_type': Tempat tinggal pasien 'avg_glucose_level' : Level glukosa rata-rata pasien 'bmi' : index masa tubuh 'smoking_status' : Apakah pasien merokok? 'stroke' : Status stroke pasien
Import Library dan Membaca Dataset
Hasil Pengamatan :
Hal yang dilakukan:
Statistical Summary
Hasil Pengamatan :
Hal yang dilakukan :
Cek Outlier
Hasil Pengamatan :
Korelasi Antar Kolom
Feature Encoding
Mengubah data kategorikal menjadi bernilai numerik dengan melakukan Label Encoder terhadap kolom yang memiliki nilai berbentuk binary
Split Data
Memisahkan kolom yang menjadi label dan target serta memisahkan data training dan data testing yang digunakan untuk proses melatih model
Menangani Outliers dengan menggunakan Z-Score
Modeling
Membuat dan melatih model
Evaluasi Performa
Mengukur tingkat ke akurasian model
Kesimpulan
Berdasarkan pengujian diperoleh akurasi menggunakan model decision tree sebesar 95%.