Hazanal Bahri
EDA pada dataset house price ini merupakan tahapan dalam menganalisa suatu pola/hubungan antara harga rumah dengan data independent lain yang ada di dataset. Tahapan ini juga penting untuk mengidentifikasi lebih awal kesalahan/anomali/outlier dari dataset yang ada sehingga akan membantu proses analisa yang lebih valid.
Dataset yang digunakan dalam portofolio ini merupakan dataset penjualan rumah yang dapat didownload melalui https://www.kaggle.com/datasets/shree1992/housedata
Tujuannya adalah untuk menguji atau menganalisa pola/hubungan antara harga rumah dengan variabel independent yang ada di dalam dataset.
Dari 17 variabel independent yanga ada, kita mengambil 3 variabel saja untuk melakukan pengujian yaitu bedrooms, sqft_living dan sqft_lot. Lakukan anlalisa data menggunakan excel dengan langkah - langkah sebagai berikut :
3. Visualisasi Data, lakukan visualisasi data untuk melihat sebaran hubungan dari tiap variabel terhadap harga penjualan rumah.
Dari visualisasi ini terlihat yang paling berkorelasi dengan harga penjualan rumahdiantara 3 variabel yang kita uji adalah sqft_living
4. Untuk pembuktian lebih lanjut kita gunakan metode pearson correlation untuk menentukan nilai korelasinya. Didapatkan untuk variabel sqft_living paling tinggi dengan nilai 0.4454937085, bedrooms bernilai 0.2102275919, dan sqft_lot bernilai 0.05134733007. Sehingga dapat disimpulkan benar sqft_living adalah yang paling berkorelasi (low positive correlation).