OPTIMALISASI GRIDSEARCHCV PADA ALGORITMA SVM

Ta'fif Lukman Afandi

Sosial Media


3 orang menyukai ini
Suka

Summary

Support Vector Machine (SVM) merupakan salah satu algoritma machine learning dengan pendekatan berbasis supervised learning yang dapat digunakan untuk masalah klasifikasi dan regresi dengan menentukan optimal hyperplane (fungsi pemisah) yang memisahkan dua buah class. SVM memiliki beberapa parameter sehingga untuk menentukan parameter optimal diperlukan tuning hyperparameter. Pada portofolio ini tuning hyperparameter yang digunakan yaitu GridSearchCV. Adapun hasil yang didapat tuning hyperparameter untuk mengklasifikasi Breast Cancer Wisconsin dengan pembagian 80:20 didapat parameter optimal C = 5 dan Kernel = "Linear" pada data dengan feature selection dan parameter optimal C = 0.1 dan Kernel = "Linear" pada data tanpa feature selection. Berdasarkan dua hal tersebut model tanpa feature selection memiliki akurasi 98%.

Description

Deskripsi Dataset

Dataset mengenai kanker payudara yang ada didapat melalui perhitungan terhadap gambar digital dari uji Fine Needle Aspirate (FNA) dari massa payudara. Data ini menggambarkan karakteristik dari inti sel yang ada dalam gambar.

Sumber: https://www.kaggle.com/datasets/uciml/breast-cancer-wisconsin-data

Data Preprocessing

Data preprocessing yang dilakukan antara lain data cleaning, transformasi data, dan feature selection.

1. Data Cleaning : Penghapusan column “id” dan “Unnamed: 32” sehingga data menjadi 569 row dan 31 column.

2. Transformasi Data : Satuan pada setiap feature berbeda sehingga dilakukan normalisasi yaitu menggunakan standarisasi serta pada variabel diagnosis dilakukan transformasi labelEncoder (Benign menjadi 0 dan Malign menjadi 1).

3. Feature Selection : Metode feature selection yang digunakan yaitu Recursive Feature Elimination (RFE) dengan tujuan meningkatkan akurasi algoritma SVM dalam mencari akurasi prediksi.

Modeling

Sebelum dilakukan modeling pada data dengan feature selection dan tanpa feature selection dilakukan pencarian parameter optimal menggunakan GridSearchCV dengan CV = 10 dengan pembagian data 80% traning dan 20% testing. Adapun hasil yang didapat tuning hyperparameter untuk mengklasifikasi Breast Cancer Wisconsin dengan pembagian 80:20 didapat parameter optimal C = 5 dan Kernel = "Linear" pada data dengan feature selection dan parameter optimal C = 0.1 dan Kernel = "Linear" pada data tanpa feature selection.

Evaluasi Model

1. Dengan Feature Selection

  • Modeling dengan menggunakan feature selection memiliki tingkat akurasi 98%.
  • Berdasarkan 20% testing dari 569 data yaitu 114 data diketahui bahwa hanya 2 data yang klasifikasi salah baik kanker jinak (Benign) maupun ganas (Malign).
  • Berdasarkan akurasi training dan testing didapatkan hasil yang hampir sama sehingga model sudah bagus.

2. Tanpa Feature Selection

  • Modeling dengan menggunakan feature selection memiliki tingkat akurasi 98%.
  • Berdasarkan 20% testing dari 569 data yaitu 114 data diketahui bahwa hanya 2 data yang klasifikasi salah pada mengklasifikasi kanker ganas (Malign).
  • Berdasarkan akurasi training dan testing didapatkan hasil yang hampir sama sehingga model sudah bagus.

Link code: https://gitlab.com/tafif5880/python/-/blob/main/SVM/Tugas_DS.ipynb 

Informasi Course Terkait
  Kategori: Data Science / Big Data
  Course: Data Science