fadillah dwi utama
Pada pembelajaran ini saya menggunakan Google Collabolaory sebagai pemrogram bahasa python untuk mengerjakan tugas akhir pada course data science. Saya disini akan memberitahukan cara pengolahan data menggunakan metode Support Vector Machine (SVM) dengan dataset yang saya ambil dari website kaggle.com bernama “Breast Cancer (Kanker Payudara)” https://www.kaggle.com/datasets/yasserh/breast-cancer-dataset
Disini saya akan memberikan langkah-langkah dalam pengolahan data menggunakan metode SVM.
Sebelum memulai pengolahan data maka kita harus upload ke google drive dataset “breast cancer” yang telah di download.
1. Langkah pertama dimulai dengan melakukan Import library dari python yang dibutuhkan dalam klasifikasi menggunakan metode SVM:
2. Selanjutnya hubungkan google collab dengan google drive dengan cara berikut:
3. Selanjutnya kita akan menampilkan atribut dari dataset yang telah diupload ke google drive yang bernama cancer.csv serta saya akan menampilkan 5 data teratas:
4. Selanjutnya kita akan melihat ada berapa banyak data atribut dan kolom yang ada pada dataset ini dengan keyword df.shape dan df.columns untuk jumlah kolom:
5. Selanjutnya kita akan menghilangkan 2 atribut dengan keyword df.droop(nama file), axis=1, inplace=true
6. Lalu kita akan melihat kolom yang sudah dihapus dengn keyword df.head dan sudah terdapat 569 data dan 30 kolom
7. Selanjutnya kita akan mengkodekan kategori nya dengan keyword berikut, yang tadinya diagnosis (M & B) dengan data yang telah dikategorikan kita mengubah M=1 dan B=0 untuk mendapatkan statistik dari dataset breast cancer.
8. Langkah berikutnya akan mengetahui statistik dengan keyword df.describe().T
9. Selanjutnya kita akan menghasilkan array dahulu dengan cara berikut:
10. Langkah selanjutnya kita akan memvisualisasikan data dengan beberapa variabel data yang akan ditampilkan dengan keyword :
sns.pairplot(df,vars=['radius_mean', 'texture_mean', 'perimeter_mean', 'area_mean', 'smoothness_mean'], hue = 'diagnosis')
plt.ioff
11. Langkah terakhir kita akan membuat sebuah visualisasi data hanya diagnosis, berikut data yang telah didapatkan dalam percobaan klasifikasi data menggunakan SVM
Kesimpulan dari pengolahan data yang telah didapat yaitu dari kasus tumor jinak bening (B=0) lebih banyak dari pada tumor ganas (M=1), terdapat 350 kasus dengan tumor jinak sedangkan yang ganas sekitar 200 berdasarkan diagnosis. Dengan demikian klasifikasi dataset kanker payudara menggunakan metode SVM dapat mempermudah dalam memperoleh suatu data yang dibutuhkan.