Analisa data Automobile menggunakan sheet

Jafar Fathoni

Sosial Media


0 orang menyukai ini
Suka

Summary

Analisa data dalam artikel ini adalah tentang korelasi antara Engine-size, highway-mpg, dan price dari dataset automobile menggunakan fungsi korelasi dan scaterplot pada google sheet.

Korelasi digunakan untuk menganalisa hubungan antara variabel bebas dan terikat. Sedangkan scatterplot adalah grafik untuk menganalisa persebaran data pada dataset.

Description

Pada kesempatan kali ini, Saya akan menganalisa hubungan antara ukuran mesin (engine-size), highway-mpg, dan harga dari suatu dataset automobile dengan menggunakan Google sheet. Anda juga bisa mengikuti perhitungan dan analisa yang Saya lakukan melalui Tools lain seperti Microsoft Excel.

Untuk dapat menganalisa dataset tersebut, langkah pertama yang Saya lakukan adalah:

A. Data Preparation

Dataset yang Saya dapatkan berasal dari https://www.kaggle.com/datasets/toramky/automobile-dataset 

dalam menyiapkan data disini kita perlu merapikan data tersebut menjadi beberapa kolom seperti contoh berikut

Setelah itu pada artikel kali ini data yang kita fokuskan adalah engine-size, highway-mpg, dan price. untuk itu kita perlu memisahkan menjadi beberapa lembar worksheet antara lain worksheet satu yang berisi tentang Engine-size dan price, dan worksheet dua yang berisi tentang Highway-mpg dan Price.

Pada worksheet pertama cukup kita copy kolom Engine-Size dan Price seperti dibawah

langkah selanjutnya kita lakukan screening terhadap data yang hilang. Pada dataset ini data yang hilang atau rusak ditandai dengan tanda tanya “?”. Yang perlu kita lakukan adalah melakukan screening cells yang memiliki tanda “?” dengan menggunakanrumus =COUNTIF("?") sehingga didapatkan data sebagai berikut

diketahui terdapat 4 data yang hilang pada kolom price. untuk itu agar perhitungan dapat berjalan baik yang perlu kita lakukan adalah memperbaiki data tersebut. Ada berbagai macam metode dalam memperbaiki data salah satunya adalah mencari rata-rata dari total data yang bisa dihitung. Sehingga kita mencari nilai rataan dari price dengan rumus =AVERAGE(..) hingga didapatkan hasil

dari hasil rataan tersebut kita rubah simbol “?” menjadi $13.207 menggunakan replace.

Pada worksheet kedua kita lakukan hal yang sama pada Highway dan Price. Hanya saja karena kita sudah mendapatkan kolom Price yang discreening, kita cukup meng-copy kolom price yang datanya sudah benar tersebut.

B. Data Processing

Setelah kita berhasil menyiapkan data, langkah selanjutnya yang perlu kita ambil adalah menghitung data untuk nantinya kita melakukan analisa terhadap hasil perhitungan data tersebut.

Pada kasus ini dikarenakan fokus kita hanya untuk menganalisa hubungan dan persebaran data dari Engine-Size, Highway-mpg, dan Price maka yang perlu kita lakukan adalah menggambar grafik scatterplot untuk melihat persebaran datanya dan melakukan uji korelasi.

Langkah pertama kita membuat grafik scatterplot terlebih dahulu dengan ketentuan variabel sebagai berikut.

  • Scatterplot 1 untuk variabel Engine-Size dan Price
  • Scatterplot 2 untuk variabel HIghway-mpg dan Price

Dalam hal ini “Price” atau harga adalah Variabel terikat sedangkan Engine-Size dan Highway-mpg adalah variabel bebas. 

Cara untuk membuat grafik scatterplot pada google sheet adalah klik insert → Diagram → Pilih Scatterplot → sesuaikan grafiknya

Setelah selesai membuat grafik langkah selanjutnya adalah menghitung korelasi dari data kita. Karena Price adalah variabel terikat kita lambangkan “Y” dan untuk Engine-Size dan Highway-mpg kita lambangkan “X”. 

Untuk menghitung korelasi kita gunakan rumus =Correl(Y_data; X_data) dimana Y adalah variabel terikat dan X adalah variabel bebas. Kita masukkan semuanya.


C. Analyze

Dalam menganalisa hasil perhitungan uji korelasi data kita perlu menentukan hipotesis dari hasil perhitungan data yang akan kita analisa tersebut. Berikut hipotesis yang Saya rumuskan:

  • Jika nilai korelasi diatas 0,5 dan mendekati 1, kedua variabel saling berkorelasi
  • Jika nilai korelasi dibawah 0,5 dan mendekati 0, kedua variabel tidak saling berkorelasi.
  • Jika nilai korelasi positif, terdapat hubungan antar variabel
  • Jika nilai korelasi negatif, terdapat hubungan berbalik arah antar variabel
  1. Korelasi antara Engine-Size dan Price  

berdasarkan hasil perhitungan uji korelasi antara variabel “engine-size” dan “price” didapatkan hasil nilai uji korelasi sebesar 0,8617522314.

 

berdasarkan hipotesis yang telah dirumuskan dapat disimpulkan bahwa terdapat hubungan antara Engine-Size dengan Price atau harga. untuk melihat kondisi yang terjadi secara lebih detail, kita perlu melihat scatterplot untuk melihat persebaran datanya.

Terlihat trend pada scatterplot menunjukkan semakin besar ukuran mesinnya, semakin mahal pula harga yang didapatkan. Sehingga bisa dikatakan terdapat hubungan antara ukuran mesin dengan harga dimana semakin besar mesin semakin besar pula harga dari mobil tersebut.

   2. Korelasi antara Highway-mpg dan Price

berdasarkan hasil perhitungan uji korelasi antara variabel “Highway-mpg” dan “price” didapatkan hasil nilai uji korelasi sebesar -0,6905258862.

berdasarkan hipotesis yang telah dirumuskan dapat disimpulkan bahwa terdapat hubungan berbalik arah antara Highway-mpg dengan Price atau harga. untuk melihat kondisi yang terjadi secara lebih detail, kita perlu melihat scatterplot untuk melihat persebaran datanya.

Terlihat trend pada scatterplot menunjukkan semakin besar highway-mpg, semakin murah harga yang didapatkan. 

Highway-mpg sendiri adalah rasio yang menunjukkan konsumsi bahan bakar dari mesin tersebut. semakin besar highway-mpg menunjukkan semakin borosnya konsumsi bahan bakar dari mesin yang bersangkutan.

Sehingga bisa dikatakan terdapat hubungan antara highway-mpg dengan harga dimana semakin besar highway-mpg dimana artinya semakin boros semakin murah pula harga dari mobil tersebut.










 

Informasi Course Terkait
  Kategori: Data Science / Big Data
  Course: Basic Excel