Foto User
Analisis Harga Rumah Perth berbasis Data

Junia Zahra Raeni

Sosial Media


2 orang menyukai ini
Suka

Summary

Proyek ini bertujuan untuk menganalisis dan memprediksi harga rumah di Perth, Australia, dengan menggunakan model regresi linear berbasis Python di Google Colab. Data dieksplorasi terlebih dahulu melalui Google Sheets untuk memahami hubungan awal antar fitur, seperti hubungan harga rumah dengan luas tanah dan jarak ke pusat kota. Setelah setelah itu data dianalisis dan diprediksi menggunakan pendekatan machine learning dengan model regresi linear. Data dibersihkan dan dipisahkan, lalu data diolah di Google Colab yang terhubung ke Google Drive, dan dianalisis menggunakan bahasa pemrograman Python. Fokus utama analisis adalah memahami pengaruh fitur seperti jumlah kamar, luas tanah dan bangunan, serta jarak ke pusat kota terhadap harga rumah. Model dilatih dan dievaluasi menggunakan metrik MSE dan R-squared. Hasil menunjukkan bahwa model mampu menjelaskan lebih dari 50% variasi harga rumah. Proyek ini memberikan gambaran awal mengenai bagaimana data properti dapat dimanfaatkan untuk membuat estimasi harga secara prediktif.

Description

Latar Belakang

Properti merupakan salah satu sektor yang sangat dipengaruhi oleh banyak faktor, baik secara fisik seperti ukuran bangunan dan lokasi, maupun secara ekonomi seperti permintaan pasar dan kondisi geografis. Di kota seperti Perth, Australia, harga rumah bisa sangat bervariasi tergantung pada karakteristik properti dan aksesibilitasnya. Oleh karena itu, penting untuk memiliki pemahaman yang lebih dalam tentang apa saja yang memengaruhi harga rumah, serta bagaimana data dapat dimanfaatkan untuk membangun model prediktif yang berguna bagi pembeli, penjual, maupun analis properti.

Proyek ini dibangun atas dasar kebutuhan tersebut. Dengan memanfaatkan data real estat dari Perth, saya mencoba untuk melakukan analisis eksploratif serta membangun model prediksi harga rumah berbasis regresi linear. Selain bertujuan untuk memperkirakan harga rumah, proyek ini juga ditujukan sebagai media pembelajaran dalam menerapkan proses data science end-to-end, mulai dari EDA, data preprocessing, hingga model building dan evaluation.

 

Tujuan Proyek

  1. Menganalisis hubungan antara fitur numerik properti dengan harga rumah di Perth.
  2. Mengidentifikasi pola dan tren awal melalui analisis eksploratif (EDA).
  3. Membangun model regresi linear untuk memprediksi harga rumah berdasarkan fitur yang tersedia.
  4. Mengevaluasi performa model menggunakan metrik statistik.
  5. Menyampaikan insight yang relevan untuk digunakan dalam pengambilan keputusan berbasis data.

 

Platform dan Tools yang Digunakan

  1. Google Sheets: digunakan sebagai alat bantu eksplorasi awal (EDA) untuk memahami korelasi antar fitur secara visual dan numerik. 
  2. Google Colab sebagai lingkungan pemrograman berbasis cloud, yang memungkinkan integrasi dengan Google Drive dan mendukung eksperimen data science secara fleksibel.
  3. Google Drive digunakan untuk menyimpan dan mengakses dataset dalam format .csv.
  4. Python sebagai bahasa pemrograman utama, dibantu oleh:
  • Pandas untuk manipulasi dan pembersihan data,
  • Matplotlib dan seaborn untuk visualisasi data,
  • Scikit-learn untuk membangun dan mengevaluasi model regresi linear.

 

Metodologi

Exploratory Data Analysis (EDA)

EDA dilakukan di Google Sheets untuk memperoleh gambaran awal tentang hubungan antar fitur, khususnya antara PRICE dengan LAND_AREA dan CBD_DIST (jarak ke pusat kota).

Hasil korelasi:

  • LAND_AREA vs PRICE: r = 0.0569 (sangat lemah) Artinya luas tanah nyaris tidak memengaruhi harga rumah secara linier dalam data ini. Terdapat kemungkinan bahwa fitur lain seperti lokasi, kondisi, atau tipe rumah lebih dominan.
  • CBD_DIST vs PRICE: r = -0.3543 (negatif sedang) Artinya semakin jauh dari pusat kota, harga cenderung lebih rendah. Ini konsisten dengan prinsip pasar bahwa properti di pusat kota umumnya lebih bernilai tinggi karena aksesibilitas.

 


Visualisasi scatter plot memperlihatkan bahwa rumah dengan jarak lebih dekat ke pusat kota cenderung memiliki harga lebih tinggi, sesuai ekspektasi pasar.

EDA ini menunjukkan bahwa:

  1. Luas tanah bukanlah satu-satunya penentu harga rumah di Perth.
  2. Jarak ke pusat kota memiliki pengaruh lebih signifikan, namun tidak cukup kuat untuk menjadi satu-satunya acuan.
  3. EDA sederhana dengan Google Sheets dapat memberikan insight awal yang berharga sebelum melanjutkan ke pemodelan lebih kompleks menggunakan machine learning.

 

Praprocessing Data

Menghubungkan Google Colab dengan Google Drive untuk membaca dataset. Koneksi Google Colab ke Google Drive agar file dataset perth house.csv dapat diakses secara langsung.

 


Menghapus fitur-fitur non-prediktif seperti nama sekolah, tanggal jual, dan lainnya.

 

 

Split Data

Pembagian dataset menjadi dua bagian: data pelatihan (70%) dan data pengujian (30%), dengan memisahkan fitur (X) dan target harga rumah (y).

 

 


Pembangunan Model Regresi Linear

Model dilatih menggunakan data pelatihan (X_train, y_train). Prediksi dilakukan pada data uji (X_test).

Evaluasi model dilakukan menggunakan metrik:

  • Mean Squared Error (MSE): 60629336384.39888
  • R-squared (R²): 0.5266220294264707

 

 

Visualisasi Hasil

Scatter plot dibuat antara harga aktual dan harga prediksi. Garis referensi (ideal prediction line) ditambahkan untuk melihat seberapa dekat prediksi terhadap kenyataan.

 


 

Evaluasi Hasil Model

1. Mean Squared Error (MSE):
Nilai MSE yang diperoleh adalah 60629336384.39888 yang merepresentasikan rata-rata kuadrat selisih antara harga rumah aktual dan hasil prediksi. Karena harga rumah memiliki skala yang besar, MSE dalam jutaan bahkan milyaran masih tergolong wajar. Meski begitu, nilai ini menunjukkan bahwa prediksi masih memiliki deviasi yang cukup besar dan bisa ditingkatkan lagi.


2. R-squared (R²):
Nilai R² sebesar 0.5266220294264707 menunjukkan bahwa model mampu menjelaskan sekitar 52,66% variasi harga rumah berdasarkan fitur-fitur yang tersedia dalam dataset. Ini menandakan bahwa meskipun model menangkap sebagian besar pola dalam data, masih terdapat hampir setengah variasi harga yang belum bisa dijelaskan oleh model, kemungkinan karena adanya faktor eksternal lain yang tidak dimasukkan, seperti kondisi rumah, tren pasar, atau fasilitas lingkungan sekitar.

 

3. Analisis Koefisien Fitur

Beberapa koefisien regresi menunjukkan hubungan yang logis dengan harga rumah:

FLOOR_AREA: memiliki pengaruh positif kuat terhadap harga, artinya rumah dengan bangunan lebih luas cenderung lebih mahal.

CBD_DIST: berpengaruh negatif, artinya rumah yang lebih jauh dari pusat kota memiliki kecenderungan harga lebih rendah.

BATHROOMS: juga menunjukkan kontribusi positif terhadap nilai rumah, artinya semakin banyak kamar mandi cenderung harganya lebih mahal.


Namun, terdapat beberapa hal yang perlu dicermati:

BEDROOMS memiliki koefisien negatif, yang bertentangan dengan asumsi umum. Hal ini bisa jadi disebabkan oleh multikolinearitas (misalnya, rumah besar namun  kamar kecil banyak) atau adanya data outlier.

 

Insight

1. Lokasi sebagai Faktor Penentu Harga

Fitur CBD_DIST (jarak ke pusat kota) secara konsisten menunjukkan korelasi negatif terhadap harga rumah. Semakin dekat rumah ke pusat kota, harga cenderung semakin tinggi. Hal ini sejalan dengan kondisi nyata pasar properti, di mana akses ke pusat bisnis dan fasilitas umum sangat memengaruhi nilai jual properti.

 

2. Luas Bangunan Lebih Dominan daripada Luas Tanah

Meskipun LAND_AREA sering diasumsikan sebagai penentu harga, hasil korelasi dan pemodelan justru menunjukkan bahwa FLOOR_AREA (luas bangunan) jauh lebih berpengaruh terhadap harga rumah. Ini menandakan bahwa fungsi dan kenyamanan bangunan lebih dihargai oleh pembeli dibanding sekadar ukuran lahan.

 

3. Koefisien Negatif pada Jumlah Kamar

Fitur BEDROOMS memiliki koefisien negatif dalam model, yang bertentangan dengan asumsi umum. Ini dapat disebabkan oleh multikolinearitas antar variabel atau adanya outlier. Misalnya, rumah dengan banyak kamar namun bangunan sempit atau di lokasi kurang strategis. Insight ini menekankan pentingnya eksplorasi lebih mendalam.

 

4. Model Regresi Linear Memberi Dasar yang Stabil

Dengan R² sebesar 0.5266, model dapat menjelaskan sekitar 52% variasi harga rumah dari fitur numerik. Meskipun belum sempurna, model ini cukup baik sebagai baseline model sebelum digunakan model yang lebih kompleks.

 

5. Scatter Plot dari Google Colab Menunjukkan Pola Umum yang Valid

Visualisasi scatter plot antara harga aktual (y_test) dan harga prediksi (y_pred) yang dibuat di Google Colab memperlihatkan sebaran data yang mengarah ke pola linier. Meskipun titik-titik data masih tersebar (berarti masih ada error dalam prediksi), sebagian besar mengikuti garis diagonal (y = x), menunjukkan bahwa model mampu menangkap tren umum dengan cukup baik. Garis referensi merah putus-putus menunjukkan prediksi ideal. Titik-titik yang berada di sekitar garis ini menandakan prediksi yang akurat, sementara yang jauh dari garis menunjukkan penyimpangan yang masih bisa diperbaiki di model berikutnya.

 

6. EDA Sederhana Tetap Relevan dan Memberi Arah Awal

Meski dilakukan dengan alat sederhana seperti Google Sheets, EDA awal terbukti membantu mengidentifikasi fitur penting dan mendukung temuan dalam model. Korelasi yang rendah antara LAND AREA dan PRICE serta korelasi negatif antara CBD_DIST dan PRICE memberi sinyal awal bahwa tidak semua asumsi pasar berlaku universal.

 

Kesimpulan dan Pembelajaran

Proyek ini membuktikan bahwa regresi linear dapat digunakan sebagai baseline untuk memprediksi harga rumah di Perth dengan tingkat akurasi sedang (R² = 0.5266). Fitur lokasi dan luas bangunan berpengaruh signifikan terhadap harga, sementara luas tanah terbukti kurang relevan secara linier.

Melalui proyek ini, saya belajar pentingnya proses end-to-end dalam data science, mulai dari EDA, pemilahan fitur, hingga evaluasi dan visualisasi hasil. Saya juga memahami bahwa insight yang kuat tidak hanya berasal dari angka, tapi juga dari interpretasi yang tepat dan konteks pasar yang dipahami secara menyeluruh.

 

LINK GOOGLE COLAB : https://colab.research.google.com/drive/1sq7fCBjGvy7GXniaBxZH4wu7xQHeD4C2?usp=sharing

LINK PDF : https://drive.google.com/file/d/10gsQgYkRhKxziiKn-NDpFxpCdMRzosof/view?usp=sharing

 

Informasi Course Terkait
  Kategori: Algoritma dan Pemrograman
  Course: Machine Learning For Beginner