Muhammad Sofiyan Hadi
Exploratory Data Analysis atau biasa disingkat EDA merupakan suatu proses uji investigasi awal yang bertujuan untuk mengidentifikasi pola, menemukan anomali, menguji hipotesis dan memeriksa asumsi. EDA dapat membantu untuk mengetahui hubungan antar data serta dapat menggali faktor-faktor penting dari data. EDA merupakan salah satu proses penting dalam analisis data dikarenakan dengan melakukan EDA akan dapat lebih menghemat waktu dalam proses analisis data, dapat mengetahui beberapa kesalahan dalam data seperti adanya missing value, outliers, duplikasi, encodings, data noisy, data tidak lengkap, dll. Pada studi kasus kali ini, saya mencoba untuk mencari korelasi antar data dari dataset yang diambil dari kaggle yaitu Automobile menggunakan tools Microsoft Excel.
Langkah awal sebelum melakukan EDA menggunakan Microsoft Excel adalah membuka file dataset Automobile yang menggunakan format CSV.
Dalam format CSV data masih belum rapi karena hanya terdapat pada satu kolom dan data dipisahkan dengan comma sehingga perlu dirapikan agar data mudah dibaca dan dapat disimpan dalam format excel. Untuk melakukannya dapat menggunakan fitur Text to Columns yang disediakan oleh Excel.
Setelah data dirapikan maka dapat dilakukan Exploratory Data Analysis.
Pada lembar ke-2 dari workbook merupakan proses untuk mengetahui korelasi dari data Engine-size dan Price menggunakan bantuan visualisasi Scatterplot dan rumus Excel Correl. Tren pada Scatterplot memperlihatkan jika data memiliki korelasi positif. Namun hal tersebut baru hipotesis sehingga perlu dibuktikan menggunakan rumus Correl. Hasilnya adalah nilai korelasi mendekati 1 dengan nilai 0,86 yang artinya berhubungan positif. Sehingga dapat disimpulkan bahwa semakin besar ukuran mesin maka semakin tinggi pula harga dari kendaraan tersebut.
Pada lembar ke-3 dari workbook merupakan proses untuk mengetahui korelasi dari data Highway-mpg dan Price menggunakan bantuan visualisasi Scatterplot dan rumus Excel Correl. Tren pada Scatterplot memperlihatkan jika data memiliki korelasi negatif. Namun hal tersebut baru hipotesis sehingga perlu dibuktikan menggunakan rumus Correl. Hasilnya adalah nilai korelasi mendekati -1 dengan nilai -0,69 yang artinya berhubungan negatif. Sehingga dapat disimpulkan bahwa semakin rendah penggunaan bahan bakar (mil per galon) maka semakin tinggi harga dari kendaraan tersebut.
Dari hasil uji coba diatas dapat disimpulkan bahwa data Engine-size dan Highway-mpg mempengaruhi data Price. Sehingga dengan adanya informasi tersebut maka dapat mempermudah langkah selanjutnya dalam data science yaitu proses data preparation.