Felina Khasanah
Pada portofolio ini membahas berkaitan dengan klasifikasi email spam yaitu sebuah teknik untuk mengklasifikasi jenis email apakah email tersebut masuk kategori spam atau bukan spam (ham), menggunakan dataset dari link ini. Dalam klasifikasi ini menggunakan model Decision tree untuk menguji keakuratannya.
Exploratory Data Analysis
Pada baris kode diatas berfungsi untuk menghubungkan projek Google Colab untuk dapat mengakses data yang tersimpan dalam Google Drive.
Pada tahap ini mendefinisikan main library yang dibutuhkan dalam analisis yang dilakukan.
Dari Kode diatas df = pd.read_csv berfungsi untuk membaca data yang tersimpan dalam google drive.
Dengan fugsi df.describe() kita dapat mengetahui statistik dari DataFrame yang kita miliki seperti rata-rata, standar deviasi dsb.
Dengan fungsi df.isnull().sum() kita dapat mengidentifikasi jika adanya missing value dari tiap kolom, dan saat running kode untuk setiap label menunjukan angka 0 sehingga kita dapat melanjutkan ketahap berikutnya.
Dengan kode diatas kita membagi data train dengan data test.
Dari Model Decision Tree yang dibangun kita dapat melihat nilai precision, recall f1-score dan suport dsb.
Dari baris kode diatas kita dapat mengetahui nilai akurasi dari model yang dibangun 0.89 %.