Scatter Plot and Correlation of Automobile Dataset

Aurelya Vazila Mirajani

Sosial Media


0 orang menyukai ini
Suka

Summary

Portofolio ini merupakan bukti pencapaian saya setelah menyelesaikan course Basic Excel. Portofolio ini berfokus pada tugas akhir dari kursus tersebut, dimana saya berhasil membuat scatter plot dan menghitung korelasi pada sebuah dataset Automobile. Dalam tugas akhir ini, saya mempraktikkan pemahaman dasar yang saya peroleh dari course Basic Excel, termasuk penggunaan Microsoft Excel untuk mengelola data dan membuat visualisasi data. Dilakukan analisis dataset Automobile dengan membuat scatter plot yang memvisualisasikan hubungan antara variabel-variabel tertentu. Selain itu, dilakukan perhitungan korelasi untuk memahami tingkat keterkaitan antar variabel dalam dataset. Portofolio ini mencerminkan kompetensi saya dalam mengaplikasikan konsep-konsep dasar Excel dalam situasi nyata. Saya berharap bahwa portofolio ini dapat menjadi bukti kemampuan saya dalam mengolah data dan membuat visualisasi yang informatif menggunakan Microsoft Excel.

Description

Download terlebih dahulu dataset dari link berikut: https://www.kaggle.com/datasets/toramky/automobile-dataset 

Setelah itu akan terdownload sebuah file zip. Lakukan extract pada file zip tersebut sehingga muncul sebuah file csv seperti di bawah ini.

 

 

Buatlah formatting dan rapihkan data yang sudah anda unduh 

  • Isi dari file Automobile_data.csv masih seperti ini:
  • Oleh karena itu, untuk merapikan datanya, klik “Data” > “From text/csv” > pilih file Automobile_data.csv > klik “import”. Lalu, akan muncul tampilan berikut:
  • Klik “Load”, lalu akan muncul hasil data yang sudah berbentuk tabel yang rapi.

 

Buat lembar ke-2, copy-kan kolom Engine-size dan Price dari lembar ke-1, buatlah visualisasi dengan Scatterplot. Gunakan Rumus excel Correl untuk melihat korelasi antara Engine-size dan price. Jelaskan apa yang telah anda dapatkan. 

  • Setelah dilakukan copy paste kolom Engine-size dan Price ke lembar ke-2, hasilnya seperti di bawah ini:

 

 

  • Pada kolom price, cells yang berisi tanda tanya dapat dihapus, namun harus dihapus 1 baris agar tetap sesuai antara data pada kolom engine-size dan price. Caranya dengan mengklik cell yang berisi tanda tanya > klik kanan > “Delete” > “Entire row”. Lakukan hal ini untuk semua cell yang berisi tanda tanya.
  • Selanjutnya, untuk membuat scatter plot, select kolom engine-size dan price lalu klik “Insert”. Pada bagian “Charts” terlihat ada icon gambar scatter plot. Klik icon tersebut, lalu akan muncul beberapa pilihan scatter plot. Disini saya menggunakan scatter plot biasa tanpa ada tambahan garis.

 

Hasilnya, scatter plot menjadi seperti di bawah ini.

  • Setelah itu, dengan rumus excel correl, dapat dilihat korelasi antara engine size dan price. Rumusnya adalah =CORREL(array1,array2). Pada kasus ini, array1 adalah engine-size, dan array2 adalah price, sehingga rumusnya menjadi =CORREL(A:A;B:B). Hasil perhitungan rumus tersebut adalah 0,872335.

 

Hasil perhitungan korelasi tersebut (0,872335) menunjukkan bahwa terdapat korelasi positif yang kuat antara engine size dan price. Semakin tinggi engine-size, maka semakin tinggi price.

 

Buat lembar ke-3, copy-kan kolom highway-mpg dan  Price dari lembar ke-1, buatlah visualisasi dengan Scatterplot. Gunakan Rumus excel Correl untuk melihat korelasi antara highway MPG dan price. Jelaskan apa yang telah anda dapatkan 

  • Copy paste kolom highway-mpg dan price ke lembar ke-3. Pastikan pula bahwa cells pada kolom price yang berisi tanda tanya telah dihapus.
  • Buat scatter plot dengan cara yang sama seperti pada lembar ke-2.

Didapatkan hasil scatter plot seperti di bawah ini:

 

  • Hitung korelasi highway-mpg dengan price menggunakan rumus correl, yaitu =CORREL(A:A;B:B)

 

Didapatkan hasil korelasi adalah -0,70469. Hal ini berarti terdapat korelasi negatif yang kuat antara highway-mpg dan price. Semakin tinggi highway-mpg, semakin rendah price.

 

Cetak average dari nilai lembar ke-2 dan lembar ke-3 

Disini saya menghitung average dari tiap variable dan juga average dari kedua nilai korelasi yang telah didapat.

  • Average dari engine size

Dihitung dengan rumus =AVERAGE(A:A) pada lembar ke-2. Hasilnya adalah 126,8756.

  • Average dari price

Dihitung dengan rumus =AVERAGE(B:B) pada lembar ke-2. Hasilnya adalah 13207,13.

 

  • Average dari highway-mpg

Dihitung dengan rumus =AVERAGE(A:A) pada lembar ke-3. Hasilnya adalah 30,68657.

  • Average dari price (sama dengan yang di lembar ke-2 tadi). Hasilnya adalah 13207,13.

 

  • Average dari korelasi pertama dan kedua

Disini saya membuat lembar kerja baru, lalu average dihitung dengan rumus =AVERAGE(B1;B2). Hasilnya adalah 0,083821.

 

 

Informasi Course Terkait
  Kategori: Data Science / Big Data
  Course: Basic Excel