Ta'fif Lukman Afandi
Support Vector Machine (SVM) merupakan salah satu algoritma machine learning dengan pendekatan berbasis supervised learning yang dapat digunakan untuk masalah klasifikasi dan regresi dengan menentukan optimal hyperplane (fungsi pemisah) yang memisahkan dua buah class. SVM memiliki beberapa parameter sehingga untuk menentukan parameter optimal diperlukan tuning hyperparameter. Pada portofolio ini tuning hyperparameter yang digunakan yaitu GridSearchCV. Adapun hasil yang didapat tuning hyperparameter untuk mengklasifikasi Breast Cancer Wisconsin dengan pembagian 80:20 didapat parameter optimal C = 5 dan Kernel = "Linear" pada data dengan feature selection dan parameter optimal C = 0.1 dan Kernel = "Linear" pada data tanpa feature selection. Berdasarkan dua hal tersebut model tanpa feature selection memiliki akurasi 98%.
Deskripsi Dataset
Dataset mengenai kanker payudara yang ada didapat melalui perhitungan terhadap gambar digital dari uji Fine Needle Aspirate (FNA) dari massa payudara. Data ini menggambarkan karakteristik dari inti sel yang ada dalam gambar.
Sumber: https://www.kaggle.com/datasets/uciml/breast-cancer-wisconsin-data
Data Preprocessing
Data preprocessing yang dilakukan antara lain data cleaning, transformasi data, dan feature selection.
1. Data Cleaning : Penghapusan column “id” dan “Unnamed: 32” sehingga data menjadi 569 row dan 31 column.
2. Transformasi Data : Satuan pada setiap feature berbeda sehingga dilakukan normalisasi yaitu menggunakan standarisasi serta pada variabel diagnosis dilakukan transformasi labelEncoder (Benign menjadi 0 dan Malign menjadi 1).
3. Feature Selection : Metode feature selection yang digunakan yaitu Recursive Feature Elimination (RFE) dengan tujuan meningkatkan akurasi algoritma SVM dalam mencari akurasi prediksi.
Modeling
Sebelum dilakukan modeling pada data dengan feature selection dan tanpa feature selection dilakukan pencarian parameter optimal menggunakan GridSearchCV dengan CV = 10 dengan pembagian data 80% traning dan 20% testing. Adapun hasil yang didapat tuning hyperparameter untuk mengklasifikasi Breast Cancer Wisconsin dengan pembagian 80:20 didapat parameter optimal C = 5 dan Kernel = "Linear" pada data dengan feature selection dan parameter optimal C = 0.1 dan Kernel = "Linear" pada data tanpa feature selection.
Evaluasi Model
1. Dengan Feature Selection
2. Tanpa Feature Selection
Link code: https://gitlab.com/tafif5880/python/-/blob/main/SVM/Tugas_DS.ipynb