Exploratory Data Analysis - House Price Prediction

BUDI KARYADI

Sosial Media


0 orang menyukai ini
Suka

Summary

Korelasi merupakan salah satu Teknik statistika yang digunakan untuk mencari hubungan antara dua variable yang bersifat kuantitatif. Data dikatakan memiliki keterhubungan apabila nilai korelasi mendekati -1 atau 1. Jika nilai korelasi mendekati 0 maka kedua variable tersebut kurang memiliki keterhubungan, namun jika nilai korelasi mendekati 1 maka data tersebut dikatakan positif korelasi dan jika nilai korelasi -1 maka dikatakan negative korelasi.

Description

DESCRIPTION

Data set yang akan disajikan terkait dengan “House Price Prediction” yang bersumber dari https://www.kaggle.com/datasets/shree1992/housedata. Variable pada dataset tersebut berjumlah 18 yaitu date, price, bedrooms, bathrooms, sqft_living, sqft_lot, floors, waterfront, view, condition, sqft_above, sqft_basement, yr_built, yt_renovated, street, city, statezip, country. Dalam variable-variable tersebut dibagi menjadi 2 jenis yaitu variable independent dan variable dependent. Variable dependent adalah variable yang saling ketergantungan yang terdiri dari date, bedrooms, bathrooms, sqft_living, sqft_lot, floors, waterfront, view, condition, sqft_above, sqft_basement, yr_built, yt_renovated, street, city, statezip, country. Sedangkan variable independent adalah variable yang tidak ketergantungan atau dapat dikatakan variable yang akan dilakukan prediksi yaitu variable price. Pada Analisa ini akan dilakukan pemilihan 3 variable dependent bedrooms, bathrooms, sqft_living dan sqft_above.

  1. Sebelum melakukan prediksi lebih lanjut pada aplikasi excel, perlu dilakukan pengecekan dataset terlebih dahulu apakah dataset tersebut memiliki “?” atau 0 jika terdapat nilai tersebut maka harus dilakukan cleansing data terlebih dahulu dengan menghapus data tersebut.
  2. Selanjutnya akan dilakukan normalisasi data dengan tujuan agar nilai data antara variable independent dan dependent tidak memiliki perbedaan skala nilai yang terlalu jauh. Normalisasi akan membuat data akan berada di range nilai 0 – 1 sehingga akan mempermudah untuk dilakukan prediksi. Dalam hal ini variable yang akan dilakukan normalisasi adalah price bedrooms, bathrooms, sqt_living, sqt_above.

  1. Setelah data dilakukan normalisasi selanjutnya dilakukan perhitungan korelasi dengan menggunakan metode pearson correlation dan juga visualisasi pada diagram untuk melihat sebaran hubungan antara variable independent dan dependent.

                      

Pada pengujian korelasi antara variable price dan bedrooms didapatkan korelasi senilai 0,2003362894 yang berarti Positive Correlation.

 

Pada pengujian korelasi antara variable price dan bathrooms didapatkan korelasi senilai 0,3271099183 yang berarti Positive Correlation.

 

Pada pengujian korelasi antara variable price dan sqt_living didapatkan korelasi senilai 0,4304100254 yang berarti Positive Correlation.

Pada pengujian korelasi antara variable price dan sqt_above didapatkan korelasi senilai 0,3675696016 yang berarti Positive Correlation.

 

Kesimpulan 

Berdasarkan pengujian yang telah dilakukan terhadap 4 variable dependent dapat disimpulkan bahwa sqt_living memiliki nilai 0,4304100254 yang memperlihatkan nilai korelasi kuat positif, artinya semakin luas living room maka harga jual rumah tersebut juga akan tinggi. Korelasi kedua variable tersebut bagus meskipun dengan tingkatan rendah atau dikategorikan sebagai low positive correlation

Informasi Course Terkait
  Kategori: Data Science / Big Data
  Course: Persiapan Ujian Sertifikasi Internasional DSBIZ - AIBIZ