Nova Enjelina Pakpahan
Exploratory dan Visualisasi Data Sederhana Dataset Breast Cancer Menggunakan MATLAB
Exploratory Data
Hal pertama yang perlu dilakukan adalah mengimport dataset yang akan digunakan. Dalam hal ini, saya menggunakan dataset Breast Cancer yang diambil dari kaggle.com. Karena saya menggunakan MATLAB Online, maka dataset yang saya gunakan diupload pada MATLAB Drive yang sudah disediakan pada akun MATLAB kita.
Kemudian menggunakan fungsi readtable untuk membaca dataset dari file CSV. data adalah nama variabel yang saya berikan untuk menampung dataset. Sebelumnya, kita harus memastikan path ke dataset diatur dengan benar, agar terhindar dari error (path/to/your/dataset.csv) dengan path yang sesuai dengan lokasi dataset yang akan digunakan.
Selanjutnya, jika ingin menampilkan data beberapa baris pertama dari dataset, maka fungsi yang digunakan adalah:
Selain itu, jika ingin melihat ringkasan statistik deskriptif dari dataset, termasuk jumlah, rata-rata, median, dan lain-lain, dapat menggunakan fungsi Summary. Fungsi ini membantu kita memahami distribusi dan karakteristik umum dari variabel dalam dataset.
Visualisasi Data
Visualisasi pertama yang saya lakukan adalah membuat histogram dari variabel mean_radius. Saya menggunakan fungsi seperti pada gambar di bawah:
Fungsi ini dapat digunakan untuk memberikan gambaran tentang distribusi nilai dalam variabel tersebut. Misalnya, apakah sebagian besar nilai berpusat di sekitar titik tertentu atau apakah ada kecenderungan tertentu.
Selain itu, visualiasi data kedua yang dilakukan adalah membuat scatter antara 2 variabel, yaitu variabel mean_radius, dan mean_texture.
Penggunaan scatter plot memungkinkan kita melihat pola hubungan antara 'mean_radius' dan 'mean_texture'. Titik-titik yang tersebar di seluruh plot dapat memberikan petunjuk tentang hubungan antara kedua variabel tersebut.
Kemudian, visualisasi yang dibuat juga menggunakan boxplot, dengan syntax seperti di bawah:
Box plot ini membantu melihat distribusi 'mean_radius', termasuk nilai-nilai ekstrim atau potensi outlier. Median dan kuartil juga dapat diidentifikasi dari plot ini.