Fadli Rizaldy
Microsoft Excel adalah salah satu dari sekian banyak Program Aplikasi yang terdapat dalam paket aplikasi perkantoran Microsoft Office yang dikhususkan untuk pengolahan angka. Formula dan fungsi pada Microsoft Excel dapat digunakan untuk membantu dalam mengerjakan beragam proses perhitungan dan pengolahan data secara cepat, tepat dan semi otomatis. Formula excel bisa digunakan dalam perhitungan yang sederhana sampai kalkulasi yang kompleks, baik untuk data berbentuk angka, data teks, data tanggal, data waktu, atau kombinasi dari data-data tersebut. Pada kesempatan kali ini, penulis berusaha untuk mengolah data dan mencari korelasi dari suatu dataset menggunakan Microsoft Excel.
A. SIMPLE CLEANING
Penulis menggunakan dataset automobil dimana data tersebut berisi data dari spesifikasi mobil dengan harga tertentu. Langkah pertama yang dilakukan adalah membuka dataset tersebut.
Dilihat dari dataset tersebut, data masih berbentuk CSV (comma seperated value) dimana tiap kolom dipisahkan oleh tanda koma. Untuk memproses data tersebut, penulis membuat data tersebut berbentuk tabular seperti biasa agar mudah dilakukan pemrosesan data. Fitur yang digunakan dalam pemisahan data menggunakan fitur Text to Columns yang berada di tab Data → Text to Columns.
Setelah berhasil membuat data menjadi tabular, kita dapat melihat terdapat sebuah tanda tanya ("?") yang menandakan sebuah missing value atau nilai yang tentunya tidak diinginkan. Untuk melihat keberadaan missing value yang terdapat ditiap kolom, kita dapat menggunakan rumus countif untuk mencari jumlah missing value tiap kolom.
Dapat dilihat bahwa missing value berupa tanda tanya terdapat di sejumlah kolom, terutama kolom normalized-losses. Pembersihan data dapat dilakukan menggunakan pengisian atau penggantian nilai missing value dengan rata rata nilai dari kolom tersebut atau dengan mengisi dengan nilai paling banyak (jika data kategorikal). Setelah pembersihan, penulis dapat menganalisis dan memvisualisasi korelasi dari suatu kolom.
B. ANALISIS KORELASI
Pertama, menganalisa kolom engine sized dan harga menggunakan formula corr dan visualisasi scatter plot. Scatter plot yang dibuat menunjukkan bahwa tren yang dibuat menunjukkan tren positif antara data engine size dan price. Hal tersebut dapat kita nyatakan hanya dari kualitatif, untuk lebih meyakinkan kita dapat mencari angka korelasi sehingga analisis secara kuantitatif juga didapat. Dengan menggunakan formula Correl, kita akan mendapatkan angka korelasi sebesar 0.862. Angka tersebut merupakan angka yang menunjukkan korelasi positif, yang berarti ketika engine size semakin besar, harga pun semakin besar (mahal).
Selanjutnya, kita menganalisis korelasi antara data highway-mp dengan price. Menggunakan cara yang sama seperti di atas, kita dapat langsung membuat sheet baru dan membuat scatter plot.
Dapat dilihat dari angka korelasi yang didapat, highway-mpg memiliki korelasi yang sangat kecil dengan price. Korelasi antar data akan dikatakan semakin kecil jika nilai angka korelasi semakin mendekati nol, sebaliknya korelasi akan semakin besar jika nilai korelasi mendekati angka 1.
KESIMPULAN
Dari percobaan ini kita dapat menyimpulkan bahwa tahapan-tahapan data preparation sangat penting ketika kita ingin menganalisis data, mulai dari missing value, data impute, dan analisa korelasi. Setelah mendapatkan korelasi antar kolom tersebut, kita dapat melanjutkan ke tahap pemodelan machine learning untuk prediksi harga dengan menggunakan kolom-kolom (feature) yang memiliki korelasi tinggi saja dengan target (kolom price).