RAHMAT AMIN BADALI
Summary
Data mining adalah proses pengumpulan dan pengolahan data yang bertujuan untuk mengekstrak informasi penting pada data. Proses pengumpulan dan ekstraksi informasi tersebut dapat dilakukan menggunakan perangkat lunak dengan bantuan perhitungan statistika, matematika, ataupun teknologi Artificial Intelligence (AI). Data mining sering disebut juga Knowledge Discovery in Database (KDD). Klasifikasi adalah salah satu task pada data science yang bertujuan untuk pengelompokan data dimana data yang digunakan tersebut mempunyai kelas label atau target.
Description
Dataset yang digunakan adalah adalah data depresi. Dataset ini berisikan paramater paramater yang mempengaruhi seseorang untuk menjadi depresi atau tidak depresi. Dataset ini diambil pada kaggel.com dengan link sebagai berikut:
https://www.kaggle.com/datasets/diegobabativa/depression
Pengklasifikasian menggunakan algoritma machine learning yaitu K-Nearest Neighbors (KNN). Penulisan kode program dan running code menggunakan tools Google Colaboraroty
1. Load dan menampilkan dataset yang digunakan
2. Data di bersihkan dengan menghilangkan dari data null dan Nan atau missing value. Selain itu dilakukan penghilangan pada paramater atau atribut yang dianggap tidak mempengaruhi seseorang mengalami depresi.
3. Melakukan visualisasi data dengan menggunakan diagram batang. Sebagai contoh dapat dilihat bahwa seseorang yang sudah menikah memiliki tingkat kemungkinan depresi yang lebih tinggi dari pada yang belum menikah.
4. Memisahkan feature dan target/label, pisahkan juga antara data untuk training dan testing disini perbandingannya adalah 80% data training dan 20% data testing.
5. Lakukan normalisasi data untuk menyeragamkan nilai-nilai data.
6. Selanjutnya dilakukan klasifikasi dengan menggunakan algoritma K-Nearest Neighbors (KNN)
7. Hasil dari klasifikasi tersebut berikutnya dievaluasi dengan menggunakan evaluasi model sebagai berikut :
Berdasarkan hasil percobaan klasifikasi dengan menggunakan algoritma KNN tersebut didapatkan akurasi yang cukup baik yaitu 0.77 .