Water Quality dengan Naive Bayes

Mohamad Arif Muharam

Sosial Media


0 orang menyukai ini
Suka

Summary

Pada portofolio kali ini akan membuat model klasifikasi dengan menggunakan algoritma naive bayes. Algoritma naive bayes merupakan algoritma supervised learning sehingga terdapat label atau target yang diketahui yang akan diprediksi dengan melihat variebel - variabel yang ada. Kasus yang diambil, yaitu mengklasifikasikan kualitas air yang dapat diminum dan tidak dapat diminum dari variabel yang ada. Adapun dataset didapatkan dari platform kaggle https://www.kaggle.com/datasets/adityakadiwal/water-potability.

Description

Berikut merupakan proses dalam membuat model menggunakan naive bayes :

  • Pertama, lakukan import dataset terlebih dahulu yang sudah di download sebelumnya menggunakan library pandas.
  • Lakukan EDA (Exploratory Data Analysis) pada dataset untuk lebih memahami data seperti ukurannya, nilai minimal, rata - rata dan sebagainya.
  • Masuk pada tahap preprocessing dimana dilakukan pengecekan missing value atau nilai yang hilang pada dataset. Seperti yang dapat dilihat pada gambar terdapat nilai yang hilang pada tiga variabel atau feature.
  • Kemudian dapat melihat jumlah dari nilai target atau yang akan diprediksi (0 dan 1). Untuk mengatasi missing value salah satu caranya dapat mengisi nilai yang kosong dengan nilai rata - rata (mean). Dapat di cek kembali untuk memastikan nilai yang kosong sudah terisi semua.
  • Selanjutnya, pisahkan label atau target dengan variabel lainnya dengan memasukkan ke dalam suatu variabel. Lalu atur data test atau train yang akan dipakai dan paramater lainnya.
  • Kemudian train model dengan algoritma naive bayes dan cetak classification report nya untuk mengevaluasi model sudah baik atau belum. Dari hasilnya model mendapatkan akurasi sebesar 64 persen. Kemudian terdapat nilai 0 (air tidak dapat diminum) dan 1 (air dapat diminum), dalam memprediksi nilai 1 model masih kurang dibandingkan dengan nilai 0. Sehingga memungkinkan untuk melakukan konfigurasi kembali terhadap proses EDA, preprocessing atau tahap lainnya agar mendapatkan hasil yang lebih baik.
     

Informasi Course Terkait
  Kategori: Data Science / Big Data
  Course: Algoritma Data Mining