BUDI KARYADI
Data scientist bertugas untuk menemukan dan mengobservasi hal-hal yang dapat meningkatkan pemahaman kita terhadap dunia, orang-orang, dan melakukan prediksi dengan lebih baik. Perlu berhati-hati dalam melakukan analisis terhadap data agar hasil analisis tersebut tidak menimbulkan kesalahpahaman. Selain kemampuan dalam bidang hardskill, etika juga sangat diperlukan oleh semua orang tidak hanya pada ahli teknologi saja. Oleh karena itu, ada beberapa etika data science tertentu yang perlu diikuti. Kode etik data science tersebut diciptakan agar orang-orang yang bekerja dengan data dapat memperlakukan data yang didapat dengan hati-hati.
Jantung adalah organ vital yang berfungsi sebagai pemompa darah untuk memenuhi kebutuhan oksigen dan nutrisi ke seluruh tubuh. Apabila jantung mengalami gangguan, peredaran darah dalam tubuh dapat terganggu sehingga menjaga kesehatan jantung sangatlah penting agar terhindar dari berbagai jenis penyakit jantung.
DESCRIPTION
Klasifikasi merupakan suatu proses pengkategorian yang digunakan untuk menentukan kelas dari data yang tidak di ketahui label class nya. Memprediksi label kelas adalah tujuan utama dari klasifikasi ini.
Decision tree adalah metode klasifikasifikasi machine learning yang menggunakan seperangkat aturan untuk membuat keputusan dengan struktur seperti pohon yang memodelkan kemungkinan hasil, biaya sumber daya, utilitas dan kemungkinan konsekuensi atau resiko. Konsepnya adalah dengan cara menyajikan algoritma dengan pernyataan bersyarat, yang meliputi cabang untuk mewakili langkah-langkah pengambilan keputusan yang dapat mengarah pada hasil yang menguntungkan. ada tiga elemen dalam satu decision tree, yaitu:
Decision Tree akan menjadi salah satu model algoritma yang akan dijadikan untuk prediksi kemungkinan penyakit jantung. Langkag yang pertama dilakukan adalah melakukan connect data antara google colab dengan google drive agar dapat mengakses data.
Selanjutnya lakukan import library pandas dan juga dataset yang akan dilakukan analisa, dalam hal ini dataset yang digunakan adalah heart.csv
Dataset heart terdiri dari 303 baris data dan 14 variable yaitu age, sex, cp, treestbps, chol, fbs, restecg, thalach, exang, oldpeak, slope, ca, thal dan target. Lakukan pengecekan jumlah kolom dan baris data menggunakan perintah df.shape.
Gunakan perintah “iloc” untuk menentukan mana yang akan dijadikan sebagai variable independent atau variable dependent. Dalam hal ini akan diambil seluruh baris data dan kolom 0 sampai 13 sebagai variable independent dan juga seluruh kolom 13 dijadikan sebagai variable independent
Selanjutnya lakukan import library train_test_split dari modul sklearn.model_selection agar dapat dilakukan partitioning data yang akan dilatih maupun diuji. Dalam hal ini an dilakukan partitioning data sebesar 30% untuk data testing dan 70% untuk data training pada masing-masing variable independent maupun dependent.
permodelan yang akan digunakan pada prediksi heart kali adalah decision tree, import library decision tree pada modul sklearn menggunakan perintah sklearn import tree. Panggil fungsi atau model yang dengan perintah tree.DecisionTreeClassifier. Lakukan latih model pada data yang telah di partitioning sebelumnya dengan perintah “.fit” setelahnya lakukan pengujian data test dengan menggunakan perintah “.predict”
Setelah testing dan pengujian prediksi pada data heart lakukan pengecekan akurasi dengan menggunakan modul sklearn.metrics dengan mengunakan accuracy_score, confusion_matrix dan classification_report. Accuracy_score akan menampilkan nilai yang bernilai 0 sampai 1 yang mana nilai 1 merupakan nilai yang cukup akurat. Sedangkan confusion matriks akan melihat akurasi dalam bentuk 4 kombinasi berbeda dari nilai prediksi dan nilai actual. Dan classification_report merupakan pengecekan akurasi yang cukup detil karena akan melakukan scoring baik dalam precision, recall, f1-score dan juga support.
Dalam penerapan data science, penting untuk menerapkan etika atau kode etik, dengan tujuan agar dapat memperlakukan data yang didapat dan dianalisa secara hati-hati. Berikut beberapa hal yang harus diperhatikan dalam data science, yaitu :
Summary
Secara keseluruhan hasil prediksi dengan menggunakan model decision tree pada dataset heart menghasilkan nilai 0.7 dengan menggunakan 30% data test dan 70% data training. Hasil ini digunakan untuk menguji data terbatas dan pemodelan terbatas, perlu diuji dan akseleerasi lebih dalam untuk penggunaan teknik yang lebih optimal guna menghasilkan desain atau pemodelan dan solusi yang optimal. Dalam proses Analisa dan pengambilan keputusan perlu diutamakan etika data science agar dapat menghasilkan keputusan dan kesimpulan yng tepat.