PENERAPAN ALGORITMA REGRESI LOGISTIK

Ta'fif Lukman Afandi

Sosial Media


0 orang menyukai ini
Suka

Summary

Data Science merupakan salah satu disiplin ilmu yang mempelajari data dan diproses melalui serangkaian metodologi, teknik, dan tools tertentu. Salah satu tools yang dapat digunakan yaitu Python sedangkan metodologi atau teknik yang dapat digunakan yaitu supervised learning. Supervised learning terdapat 2 tugas yaitu klasifikasi dan regresi. Pada portofolio ini dibahas metode klasifikasi yaitu Regresi Logistik. Metode Regresi Logistik digunakan untuk memprediksi penyakit jantung dengan dataset yang diambil dari website Kaggle. Metode Regresi Logistik memiliki parameter yaitu C dan Penalty, oleh karena itu dalam menentukan parameter optimal dilakukan tuning hyperparameter menggunakan metode GridSearchCV. Sebelum dilakukan pemodelan data memiliki outlier, pemodelan yang dilakukan yaitu membandingan data dengan outlier dan tanpa outlier. Berdasarkan hasil dengan pembagian data 85% data training dan 15% data testing didapatkan bahwa data dengan outlier parameter optimal C = 0.01 dan Penalty = L2 dengan akurasi 85% sedangkan data tanpa outlier parameter optimal C = 1 dan Penalty = L2 dengan akurasi 89%. 

Description

DESKRIPSI DATA

Dataset bersumber dari database Cleveland tentang penyakit jantung. Hal tersebut dikarenakan penyebab utama kematian di negara maju adalah penyakit jantung. Oleh karena itu diperlukan bantuan mencegah risiko mengalami serangan jantung atau stroke. Dataset terdiri dari 14 atribut.

Sumber: https://www.kaggle.com/datasets/rishidamarla/heart-disease-prediction 

DATA PREPROCESSING

Data preprocessing dilakukan untuk mempersiapkan data agar siap dimodelkan. Data preprocessing yang dilakukan yaitu data duplicated, identifikasi kolom, data missing value, outlier, transformasi data, normalisasi data, dan spliting data. Dalam data preprocessing diketahui bahwa data memiliki outlier akan tetapi pada penelitian ini akan dilakukan dua jenis yaitu data yang melibatkan outlier atau tanpa outlier. Setelah dilakukan pengecekan outlier kemudian atribut Heart Disease dilakukan transformasi merubah tipe data kategori menjadi numeric, untuk atribut lainnya dilakukan normalisasi menggunakan standarisasi karena satuan atribut berbeda. Langkah terakhir yaitu membagi data menjadi 85:15. Data training 85% dan data testing 15%.

EKSPLORASI DATA ANALYSIS

Berdasarkan hasil plot tersebut dapat diketahui bahwa pasien yang berstatus Absence memiliki presentasi yang lebih banyak dibandingkan status Precence. Selain proporsi kedua relative seimbang sehingga tidak perlu dilakukan resampling.

Berdasarkan hasil plot tersebut dapat diketahui bahwa data relatif tidak tersebar merata sehingga dapat diasumsikan data tidak berdistribusi normal. Serta pada scatterplot menyebar secara acak sehingg korelasi pada masing-masing variabel rendah.

Berdasarkan hasil plot tersebut dapat diketahui bahwa hanya variabel Thallium yang memiliki korelasi > 0.5. Selain itu terdapat variabel yang memiliki korelasi negatif yaitu FBS over 120 dan Max HR.

Berdasarkan plot atas dapat kita simpulkan bahwa Thallium 3 menjadi pasien terbanyak dengan pasien diprediksi Absence dengan 78.3% total pasien Thallium 3. Selain itu untuk kategori pasien presence terbanyak pada pasien kategori Thallium 7.

MODELING

Sebelum melakukan pemodelan menentukan parameter-parameter yang akan diuji untuk mendapatkan kombinasi parameter-parameter optimal.

Berdasarkan parameter-parameter tersebut kemudian dilakukan pemodelan pada data dengan outlier dan data tanpa outlier. Adapun hasilnya parameter optimal, sebagai berikut:

  1. Data dengan outlier : C = 0.01 dan Penalty = L2
  2. Data tanpa outlier : C = 1 dan Penalty = L2

EVALUASI

Berdasarkan parameter-parameter optimal diatas maka dilakukan pemodelan menggunakan Logistic Regresi didapatkan hasil sebagai berikut:

Data dengan outlier

Data tanpa outlier

Berdasarkan kedua hasil tersebut dapat disimpulkan bahwa model tanpa data outlier lebih baik. Hal tersebut dikarenakan memiliki akurasi lebih tinggi yaitu 89%. Selain itu hasil akurasi data training dan data testing memiliki selisih yang sedikit atau relatif sama.

Link Code: https://gitlab.com/tafif5880/python/-/tree/main/RegLog 

Informasi Course Terkait
  Kategori: Data Science / Big Data
  Course: Python Data Science untuk Pemula