Jafar Fathoni
Analisa data dalam artikel ini adalah tentang korelasi antara Engine-size, highway-mpg, dan price dari dataset automobile menggunakan fungsi korelasi dan scaterplot pada google sheet.
Korelasi digunakan untuk menganalisa hubungan antara variabel bebas dan terikat. Sedangkan scatterplot adalah grafik untuk menganalisa persebaran data pada dataset.
Pada kesempatan kali ini, Saya akan menganalisa hubungan antara ukuran mesin (engine-size), highway-mpg, dan harga dari suatu dataset automobile dengan menggunakan Google sheet. Anda juga bisa mengikuti perhitungan dan analisa yang Saya lakukan melalui Tools lain seperti Microsoft Excel.
Untuk dapat menganalisa dataset tersebut, langkah pertama yang Saya lakukan adalah:
A. Data Preparation
Dataset yang Saya dapatkan berasal dari https://www.kaggle.com/datasets/toramky/automobile-dataset
dalam menyiapkan data disini kita perlu merapikan data tersebut menjadi beberapa kolom seperti contoh berikut
Setelah itu pada artikel kali ini data yang kita fokuskan adalah engine-size, highway-mpg, dan price. untuk itu kita perlu memisahkan menjadi beberapa lembar worksheet antara lain worksheet satu yang berisi tentang Engine-size dan price, dan worksheet dua yang berisi tentang Highway-mpg dan Price.
Pada worksheet pertama cukup kita copy kolom Engine-Size dan Price seperti dibawah
langkah selanjutnya kita lakukan screening terhadap data yang hilang. Pada dataset ini data yang hilang atau rusak ditandai dengan tanda tanya “?”. Yang perlu kita lakukan adalah melakukan screening cells yang memiliki tanda “?” dengan menggunakanrumus =COUNTIF("?") sehingga didapatkan data sebagai berikut
diketahui terdapat 4 data yang hilang pada kolom price. untuk itu agar perhitungan dapat berjalan baik yang perlu kita lakukan adalah memperbaiki data tersebut. Ada berbagai macam metode dalam memperbaiki data salah satunya adalah mencari rata-rata dari total data yang bisa dihitung. Sehingga kita mencari nilai rataan dari price dengan rumus =AVERAGE(..) hingga didapatkan hasil
dari hasil rataan tersebut kita rubah simbol “?” menjadi $13.207 menggunakan replace.
Pada worksheet kedua kita lakukan hal yang sama pada Highway dan Price. Hanya saja karena kita sudah mendapatkan kolom Price yang discreening, kita cukup meng-copy kolom price yang datanya sudah benar tersebut.
B. Data Processing
Setelah kita berhasil menyiapkan data, langkah selanjutnya yang perlu kita ambil adalah menghitung data untuk nantinya kita melakukan analisa terhadap hasil perhitungan data tersebut.
Pada kasus ini dikarenakan fokus kita hanya untuk menganalisa hubungan dan persebaran data dari Engine-Size, Highway-mpg, dan Price maka yang perlu kita lakukan adalah menggambar grafik scatterplot untuk melihat persebaran datanya dan melakukan uji korelasi.
Langkah pertama kita membuat grafik scatterplot terlebih dahulu dengan ketentuan variabel sebagai berikut.
Dalam hal ini “Price” atau harga adalah Variabel terikat sedangkan Engine-Size dan Highway-mpg adalah variabel bebas.
Cara untuk membuat grafik scatterplot pada google sheet adalah klik insert → Diagram → Pilih Scatterplot → sesuaikan grafiknya
Setelah selesai membuat grafik langkah selanjutnya adalah menghitung korelasi dari data kita. Karena Price adalah variabel terikat kita lambangkan “Y” dan untuk Engine-Size dan Highway-mpg kita lambangkan “X”.
Untuk menghitung korelasi kita gunakan rumus =Correl(Y_data; X_data) dimana Y adalah variabel terikat dan X adalah variabel bebas. Kita masukkan semuanya.
C. Analyze
Dalam menganalisa hasil perhitungan uji korelasi data kita perlu menentukan hipotesis dari hasil perhitungan data yang akan kita analisa tersebut. Berikut hipotesis yang Saya rumuskan:
berdasarkan hasil perhitungan uji korelasi antara variabel “engine-size” dan “price” didapatkan hasil nilai uji korelasi sebesar 0,8617522314.
berdasarkan hipotesis yang telah dirumuskan dapat disimpulkan bahwa terdapat hubungan antara Engine-Size dengan Price atau harga. untuk melihat kondisi yang terjadi secara lebih detail, kita perlu melihat scatterplot untuk melihat persebaran datanya.
Terlihat trend pada scatterplot menunjukkan semakin besar ukuran mesinnya, semakin mahal pula harga yang didapatkan. Sehingga bisa dikatakan terdapat hubungan antara ukuran mesin dengan harga dimana semakin besar mesin semakin besar pula harga dari mobil tersebut.
2. Korelasi antara Highway-mpg dan Price
berdasarkan hasil perhitungan uji korelasi antara variabel “Highway-mpg” dan “price” didapatkan hasil nilai uji korelasi sebesar -0,6905258862.
berdasarkan hipotesis yang telah dirumuskan dapat disimpulkan bahwa terdapat hubungan berbalik arah antara Highway-mpg dengan Price atau harga. untuk melihat kondisi yang terjadi secara lebih detail, kita perlu melihat scatterplot untuk melihat persebaran datanya.
Terlihat trend pada scatterplot menunjukkan semakin besar highway-mpg, semakin murah harga yang didapatkan.
Highway-mpg sendiri adalah rasio yang menunjukkan konsumsi bahan bakar dari mesin tersebut. semakin besar highway-mpg menunjukkan semakin borosnya konsumsi bahan bakar dari mesin yang bersangkutan.
Sehingga bisa dikatakan terdapat hubungan antara highway-mpg dengan harga dimana semakin besar highway-mpg dimana artinya semakin boros semakin murah pula harga dari mobil tersebut.