Muhammad Putra Fauzan
Portofolio ini membahas mengenai implementasi Algoritma Naive Bayes dalam Klasifikasi Kualitas Susu. Klasifikasi merupakan metode untuk mengelompokkan data ke dalam kategori atau kelas tertentu berdasarkan atribut-atribut tertentu. Algoritma Naive Bayes merupakan salah satu metode klasifikasi yang umum digunakan, yaitu metode statistik klasifikasi data berdasarkan probabilitas. Dalam konteks ini, algoritma Naive Bayes digunakan untuk menentukan kualitas susu berdasarkan sejumlah atribut yang diukur selama proses pengujian.
Algoritma Naive Bayes dipilih karena kemampuan untuk menangani data dengan fitur banyak dan kompleks. Kelebihan algoritma ini termasuk kecepatan pelatihan yang tinggi dan kinerja yang baik meskipun asumsi "naif"nya. Proses pengembangan melibatkan langkah-langkah seperti pengunggahan dataset, pemrosesan data, dan pelatihan model Naive Bayes. Hasilnya dievaluasi dengan menggunakan metrik kinerja, yaitu akurasi.
Klasifikasi/Classification
Merupakan salah satu proses penting dalam Machine Learning, yang digunakan untuk kategorisasi atau pemberian label pada data ke dalam kelas atau kelompok tertentu. Klasifikasi umumnya melibatkan penggunaan algoritma seperti Support Vector Machines (SVM), Decision Tree, dan Naive Bayes. Tujuan utama klasifikasi yakni membuat model yang dapat mempelajari pola dari data latih (training data), yang kemudian dapat memprediksi kelas atau label yang sesuai untuk data baru yang belum pernah dilihat sebelumnya.
Algoritma Naive Bayes
Yakni sebuah metode yang umumnya digunakan pada proses klasifikasi dan didasarkan pada teorema Bayes. Algoritma ini disebut "naive" karena mengasumsikan bahwa semua fitur (features) yang digunakan untuk melakukan prediksi adalah independen satu sama lain, meskipun asumsi ini mungkin tidak selalu terpenuhi. Meskipun sederhana, Naive Bayes sering memberikan hasil yang baik, terutama pada dataset dengan dimensi tinggi. Beberapa variasi Naive Bayes yang umum digunakan melibatkan Gaussian Naive Bayes untuk data kontinu dan Multinomial Naive Bayes untuk data diskrit, seperti teks.
Metrik Kinerja: Akurasi/Accuracy
Suatu metrik kinerja yang umum digunakan dalam mengevaluasi model klasifikasi. Akurasi mengukur sejauh mana model mampu membuat prediksi yang benar dari total prediksi yang dilakukan. Dalam konteks klasifikasi, akurasi dihitung dengan membagi jumlah prediksi yang benar (true predictions) dengan total jumlah prediksi. Meskipun akurasi memberikan gambaran keseluruhan tentang performa model, perlu diingat bahwa pada dataset yang tidak seimbang, di mana jumlah sampel dalam setiap kelas tidak sepadan, metrik evaluasi tambahan seperti precision, recall, dan F1-score perlu diperhatikan.
Implementasi Naive Bayes dalam Klasifikasi Dataset Kualitas Susu
1. Overview Informasi Dataset
Dalam proses memprediksi kualitas susu menggunakan metode klasifikasi Naive Bayes, dataset yang digunakan bersumber dari platform Kaggle.com dengan nama dataset nya yaitu “Milk Quality Prediction” (Link Dataset: Milk Quality Prediction (kaggle.com). Terdapat tujuh variabel independen pada dataset ini, yaitu pH, Temperatur, Rasa (Taste), Bau (Odor), Lemak (Fat), Kekeruhan (Turbidity), dan Warna (Color).
Adapun variabel target dataset ini adalah Grade atau Kualitas Susu, yang dibagi menjadi tiga kategori: Low (Buruk), Medium (Sedang), dan High (Baik). Jika rasa, bau, lemak, dan kekeruhan memenuhi kondisi optimal, maka akan diberikan nilai 1; sebaliknya, akan diberikan nilai 0. Temperatur dan pH memiliki nilai aktual dalam dataset. Dengan memanfaatkan dataset ini, dapat dilakukan analisis untuk mengidentifikasi pola dan tren yang membantu memahami faktor-faktor yang berkontribusi terhadap kualitas susu.
2. Langkah-langkah
a) Import Library: Memasukkan modul dan fungsi yang diperlukan dari pustaka Python, seperti Scikit-Learn, untuk pengembangan model klasifikasi.
b) Unggah Dataset: Memuat dataset “Milk Quality Prediction” yang didapatkan dari Kaggle dalam bentuk CSV ke dalam workspace pengembangan.
c) Preprocessing: Menyiapkan data sebelum pemodelan dengan melakukan pra-pemrosesan, termasuk penanganan nilai-nilai yang hilang, konversi variabel kategorikal, dan normalisasi data.
d) Modeling: Membangun model klasifikasi menggunakan algoritma Naive Bayes dengan memanfaatkan variabel independen pada dataset yakni pH, Temperatur, Rasa, Bau, Lemak, Kekeruhan, dan Warna untuk memprediksi Grade kualitas susu.
e) Predict (Prediksi Hasil): Melakukan proses prediksi kualitas susu berdasarkan model yang telah dibangun terhadap data baru atau pengamatan.
f) Evaluasi Kinerja (Akurasi) dan Perbandingan dengan Algoritma Lain: Mengukur akurasi model Naive Bayes dalam memprediksi kualitas susu dan membandingkan dengan hasil yang mungkin dicapai menggunakan algoritma klasifikasi lainnya, yaitu SVM (Support Vector Machines) dan Decision Tree.
Kesimpulan:
Dalam implementasi Algoritma Naive Bayes untuk klasifikasi kualitas susu, langkah-langkah telah dilakukan secara rinci, mencakup pengunggahan dataset, pemrosesan data, dan pelatihan model. Adapun berdasarkan prediksi kualitas susu menggunakan model Gaussian Naive Bayes dengan nilai fitur pH=4, Temperature=1, Taste=0, Odor=1, Fat=1, Turbidity=1, dan Color=7, hasil klasifikasi menunjukkan bahwa kualitas susu dapat dikategorikan sebagai Low/rendah.
Meskipun Naive Bayes memberikan prediksi yang positif dan performa yang baik, evaluasi kinerja model menunjukkan nilai akurasi hanya sebesar 88. Terlihat perbandingan dengan dua algoritma lainnya, SVM dan Decision Tree, yang menunjukkan hasil nilai akurasi yang lebih tinggi, masing-masing sebesar 92,8 dan 99,4. Oleh karena itu, sementara Naive Bayes dapat memberikan prediksi yang baik, pemilihan model tergantung pada kebutuhan spesifik dan karakteristik dataset, dengan mempertimbangkan trade-off antara kecepatan dan akurasi. Selanjutnya, berdasarkan nilai akurasi, Decision Tree menjadi pilihan yang lebih unggul dalam memprediksi kualitas susu pada dataset ini dibandingkan dengan model Naive Bayes dan SVM.