BISA AI - AI For Everyone
Exploratory Data Analysis (House Price Dataset)

Hazanal Bahri

Sosial Media


0 orang menyukai ini
Suka

Summary

EDA pada dataset house price ini merupakan tahapan dalam menganalisa suatu pola/hubungan antara harga rumah dengan data independent lain yang ada di dataset. Tahapan ini juga penting untuk mengidentifikasi lebih awal kesalahan/anomali/outlier dari dataset yang ada sehingga akan membantu proses analisa yang lebih valid.

Description

Dataset yang digunakan dalam portofolio ini merupakan dataset penjualan rumah yang dapat didownload melalui https://www.kaggle.com/datasets/shree1992/housedata

Tujuannya adalah untuk menguji atau menganalisa pola/hubungan antara harga rumah dengan variabel independent yang ada di dalam dataset. 

Dari 17 variabel independent yanga ada, kita mengambil 3 variabel saja untuk melakukan pengujian yaitu bedrooms, sqft_living dan sqft_lot. Lakukan anlalisa data menggunakan  excel dengan langkah - langkah sebagai berikut :

  1. Cleansing Missing Value, lakukan pengecekan data null/missing value yang akan mempengaruhi hasil pengujian ini. Hapus keseluruhan baris atau replace missing value dengan nilai rata2, median atau mean.
  2. Normalisasi Data, lakukan normalisasi data pada variabel yang diperlukan untuk optimalisasi keakuratan hasil pengujian. Normalisasi data dapat menggunakan teknik simple feature scaling atau min max scaling. Dalam hal ini kita melakukan normalisasi data pada variabel bedrooms dikarenakan perbedaan skala nilai yang cukup jauh dengan menggunakan teknik simple feature scaling.

    3. Visualisasi Data, lakukan visualisasi data untuk melihat sebaran hubungan dari tiap variabel terhadap harga penjualan rumah.

Dari visualisasi ini terlihat yang paling berkorelasi dengan harga penjualan rumahdiantara 3 variabel yang kita uji adalah  sqft_living

       4. Untuk pembuktian lebih lanjut kita gunakan metode pearson correlation untuk menentukan nilai korelasinya. Didapatkan untuk  variabel sqft_living paling tinggi dengan nilai 0.4454937085, bedrooms bernilai 0.2102275919, dan sqft_lot bernilai 0.05134733007.  Sehingga dapat disimpulkan benar sqft_living adalah yang paling berkorelasi (low positive correlation).

 

 

 

Informasi Course Terkait
  Kategori: Data Science / Big Data
  Course: Persiapan Ujian Sertifikasi Internasional DSBIZ - AIBIZ