Exploratory Dataset Automobile dengan Excel

Sulistiani Basyiah

Sosial Media


0 orang menyukai ini
Suka

Summary

Summary

Exploratory Data Analysis adalah suatu proses uji investigasi awal yang bertujuan untuk mengidentifikasi pola, menemukan anomali, menguji hipotesis dan memeriksa asumsi. Dengan melakukan EDA, pengguna akan sangat terbantu dalam mendeteksi kesalahan dari awal, dapat mengidentifikasi outlier, mengetahui hubungan antar data serta dapat menggali faktor-faktor penting dari data. Proses EDA ini sangat bermanfaat dalam proses analisis statistik. Dengan demikian tidak heran jika para praktisi data profesional sudah sangat sering menggunakan EDA agar hasil analisis menjadi lebih valid dan relevan dengan tujuan bisnis. Secara umum terdapat beberapa teknik exploratory data analysis yaitu dengan menggunakan statistik deskriptif, univariat analysis, dan multivariat analysis. 

Description

 

Description

 

Formating Data 

Conditional formatting merupakan fitur yang digunakan untuk memberikan format khusus pada sel-sel yang memenuhi aturan tertentu pada suatu range atau tabel Microsoft Excel. Dengan menggunakan conditional formatting pada Excel, memungkinkan pengguna lebih efektif untuk melakukan analisis data dalam jumlah besar. Karena data yang memenuhi kriteria/aturan menjadi lebih mudah untuk dilihat visualisasinya. 

 

Perhitungan Deskriptive Statistics

Statistika deskriptif itu lebih mengarah pada proses pengumpulan, analisis dan penyajian data yang bisa berupa mean, median, standar deviasi, range, dan lain sebagainya. Sedangkan, statistika inferensi itu lebih mengarah pada pengambilan kesimpulan, korelasi, dan dugaan berdasarkan analisis data yang ada dan untuk mendapatkan data yang nantinya diolah dengan statistika.

 

Uji Korelasi dengan Scatterplot

Analisis Korelasi merupakan sebuah analisis yang digunakan untuk mengetahui keeratan hubungan antara beberapa variabel. Biasanya uji korelasi ini akan sangat berhubungan dengan uji regresi yang menunjukkan apakah masing-masing variabel saling mempengaruhi. Meskipun variabel tersebut saling berhubungan erat atau berkorelasi, belum tentu variabel tersebut saling mempengaruhi. Dalam analisis korelasi ini, output yang dihasilkan hanya dalam rentang -1 sampai 1 dan terbagi menjadi korelasi positif (hasil positif), korelasi negatif (hasil negatif), dan tidak berkorelasi sama sekali (0).

Excel menyediakan berbagai pilihan untuk mencari korelasi. Mari kita coba praktekkan dengan menggunakan function "CORREL" yang diawali dengan tanda sama dengan (=). Rumus umum dari function CORREL adalah: = CORREL(array 1, array 2).

 

Korelasi Engine Size dan Price 

Jika disesuaikan dengan data yang dimiliki akan menjadi:  =CORREL(A2:A206,B2:B206)

 

 

 

Jadi, korelasi antara engine size dengan price adalah sebesar 0.87 yang artinya tingkat hubungan diantara keduanya masuk kategori sangat kuat positif. Hasil R-squared nya pun menunjukkan pengaruh dikedua variabel tersebut sebesar 76%. Grafik scatter plot diatas menunjukkan korelasi positif dengan adanya kenaikan secara teratur ke arah yang sama. Terlihat juga bahwa variabel x yaitu nilai dari engine size mengalami penambahan nilai dan diikuti juga dengan penambahan nilai pada variabel y yaitu nilai price.  

 

Korelasi Highway MPG dan Price

Jika disesuaikan dengan data yang dimiliki akan menjadi:  =CORREL(A2:A206,B2:B206)

 

jljjdsdJadi, korelasi antara engine size dengan p

 

Jadi, korelasi antara highway MPG dengan price adalah sebesar -0.70 yang artinya tingkat hubungan diantara keduanya masuk kategori kuat negatif. Hasil R-squared nya pun menunjukkan pengaruh dikedua variabel tersebut sebesar 49%. Grafik scatter plot diatas menunjukkan korelasi negatif dengan adanya penurunan secara teratur ke arah yang sama. Terlihat juga bahwa variabel x yaitu nilai dari highway MPG mengalami pengurangan nilai dan diikuti juga dengan pengurangan nilai pada variabel y yaitu nilai price. 

 

Uji Ranking pada Data

Pada microsoft excel fungsi RANK adalah rumus yang digunakan untuk menentukan ranking atau membuat peringkat sebuah nilai pada sekelompok daftar nilai tertentu dengan menambahkan rata-rata jumlah. Jadi, jika ada nilai yang sama, maka Excel akan menghasilkan rata-rata peringkat di kelompok tersebut. Berikut bagaimana hasil ranking dari data Point dengan data Engine Size.

 

   

 

Grafik diatas menunjukkan kedudukan dari masing-masing nilai engine size. Mengingat data ini cukup banyak, diambil 15 data untuk dilakukan visualiasi ranking yang sebelumnya sudah melalui tahap analisis dan sudah menjadi urutan yang tersusun mulai dari rangking teratas sampai terbawah. 

 

ce adalah sebesar 0.87 yang artinya tingkat

Informasi Course Terkait
  Kategori: Data Science / Big Data
  Course: Excel for Analytics And Optimization