Sulistiani Basyiah
Exploratory Data Analysis adalah suatu proses uji investigasi awal yang bertujuan untuk mengidentifikasi pola, menemukan anomali, menguji hipotesis dan memeriksa asumsi. Dengan melakukan EDA, pengguna akan sangat terbantu dalam mendeteksi kesalahan dari awal, dapat mengidentifikasi outlier, mengetahui hubungan antar data serta dapat menggali faktor-faktor penting dari data. Proses EDA ini sangat bermanfaat dalam proses analisis statistik. Dengan demikian tidak heran jika para praktisi data profesional sudah sangat sering menggunakan EDA agar hasil analisis menjadi lebih valid dan relevan dengan tujuan bisnis. Secara umum terdapat beberapa teknik exploratory data analysis yaitu dengan menggunakan statistik deskriptif, univariat analysis, dan multivariat analysis.
Conditional formatting merupakan fitur yang digunakan untuk memberikan format khusus pada sel-sel yang memenuhi aturan tertentu pada suatu range atau tabel Microsoft Excel. Dengan menggunakan conditional formatting pada Excel, memungkinkan pengguna lebih efektif untuk melakukan analisis data dalam jumlah besar. Karena data yang memenuhi kriteria/aturan menjadi lebih mudah untuk dilihat visualisasinya.
Statistika deskriptif itu lebih mengarah pada proses pengumpulan, analisis dan penyajian data yang bisa berupa mean, median, standar deviasi, range, dan lain sebagainya. Sedangkan, statistika inferensi itu lebih mengarah pada pengambilan kesimpulan, korelasi, dan dugaan berdasarkan analisis data yang ada dan untuk mendapatkan data yang nantinya diolah dengan statistika.
Analisis Korelasi merupakan sebuah analisis yang digunakan untuk mengetahui keeratan hubungan antara beberapa variabel. Biasanya uji korelasi ini akan sangat berhubungan dengan uji regresi yang menunjukkan apakah masing-masing variabel saling mempengaruhi. Meskipun variabel tersebut saling berhubungan erat atau berkorelasi, belum tentu variabel tersebut saling mempengaruhi. Dalam analisis korelasi ini, output yang dihasilkan hanya dalam rentang -1 sampai 1 dan terbagi menjadi korelasi positif (hasil positif), korelasi negatif (hasil negatif), dan tidak berkorelasi sama sekali (0).
Excel menyediakan berbagai pilihan untuk mencari korelasi. Mari kita coba praktekkan dengan menggunakan function "CORREL" yang diawali dengan tanda sama dengan (=). Rumus umum dari function CORREL adalah: = CORREL(array 1, array 2).
Jika disesuaikan dengan data yang dimiliki akan menjadi: =CORREL(A2:A206,B2:B206)
Jadi, korelasi antara engine size dengan price adalah sebesar 0.87 yang artinya tingkat hubungan diantara keduanya masuk kategori sangat kuat positif. Hasil R-squared nya pun menunjukkan pengaruh dikedua variabel tersebut sebesar 76%. Grafik scatter plot diatas menunjukkan korelasi positif dengan adanya kenaikan secara teratur ke arah yang sama. Terlihat juga bahwa variabel x yaitu nilai dari engine size mengalami penambahan nilai dan diikuti juga dengan penambahan nilai pada variabel y yaitu nilai price.
Jika disesuaikan dengan data yang dimiliki akan menjadi: =CORREL(A2:A206,B2:B206)
jljjdsdJadi, korelasi antara engine size dengan p
Jadi, korelasi antara highway MPG dengan price adalah sebesar -0.70 yang artinya tingkat hubungan diantara keduanya masuk kategori kuat negatif. Hasil R-squared nya pun menunjukkan pengaruh dikedua variabel tersebut sebesar 49%. Grafik scatter plot diatas menunjukkan korelasi negatif dengan adanya penurunan secara teratur ke arah yang sama. Terlihat juga bahwa variabel x yaitu nilai dari highway MPG mengalami pengurangan nilai dan diikuti juga dengan pengurangan nilai pada variabel y yaitu nilai price.
Pada microsoft excel fungsi RANK adalah rumus yang digunakan untuk menentukan ranking atau membuat peringkat sebuah nilai pada sekelompok daftar nilai tertentu dengan menambahkan rata-rata jumlah. Jadi, jika ada nilai yang sama, maka Excel akan menghasilkan rata-rata peringkat di kelompok tersebut. Berikut bagaimana hasil ranking dari data Point dengan data Engine Size.
Grafik diatas menunjukkan kedudukan dari masing-masing nilai engine size. Mengingat data ini cukup banyak, diambil 15 data untuk dilakukan visualiasi ranking yang sebelumnya sudah melalui tahap analisis dan sudah menjadi urutan yang tersusun mulai dari rangking teratas sampai terbawah.
ce adalah sebesar 0.87 yang artinya tingkat