Junia Zahra Raeni
Proyek ini bertujuan untuk menganalisis dan memprediksi harga rumah di Perth, Australia, dengan menggunakan model regresi linear berbasis Python di Google Colab. Data dieksplorasi terlebih dahulu melalui Google Sheets untuk memahami hubungan awal antar fitur, seperti hubungan harga rumah dengan luas tanah dan jarak ke pusat kota. Setelah setelah itu data dianalisis dan diprediksi menggunakan pendekatan machine learning dengan model regresi linear. Data dibersihkan dan dipisahkan, lalu data diolah di Google Colab yang terhubung ke Google Drive, dan dianalisis menggunakan bahasa pemrograman Python. Fokus utama analisis adalah memahami pengaruh fitur seperti jumlah kamar, luas tanah dan bangunan, serta jarak ke pusat kota terhadap harga rumah. Model dilatih dan dievaluasi menggunakan metrik MSE dan R-squared. Hasil menunjukkan bahwa model mampu menjelaskan lebih dari 50% variasi harga rumah. Proyek ini memberikan gambaran awal mengenai bagaimana data properti dapat dimanfaatkan untuk membuat estimasi harga secara prediktif.
Latar Belakang
Properti merupakan salah satu sektor yang sangat dipengaruhi oleh banyak faktor, baik secara fisik seperti ukuran bangunan dan lokasi, maupun secara ekonomi seperti permintaan pasar dan kondisi geografis. Di kota seperti Perth, Australia, harga rumah bisa sangat bervariasi tergantung pada karakteristik properti dan aksesibilitasnya. Oleh karena itu, penting untuk memiliki pemahaman yang lebih dalam tentang apa saja yang memengaruhi harga rumah, serta bagaimana data dapat dimanfaatkan untuk membangun model prediktif yang berguna bagi pembeli, penjual, maupun analis properti.
Proyek ini dibangun atas dasar kebutuhan tersebut. Dengan memanfaatkan data real estat dari Perth, saya mencoba untuk melakukan analisis eksploratif serta membangun model prediksi harga rumah berbasis regresi linear. Selain bertujuan untuk memperkirakan harga rumah, proyek ini juga ditujukan sebagai media pembelajaran dalam menerapkan proses data science end-to-end, mulai dari EDA, data preprocessing, hingga model building dan evaluation.
Tujuan Proyek
Platform dan Tools yang Digunakan
Metodologi
Exploratory Data Analysis (EDA)
EDA dilakukan di Google Sheets untuk memperoleh gambaran awal tentang hubungan antar fitur, khususnya antara PRICE dengan LAND_AREA dan CBD_DIST (jarak ke pusat kota).
Hasil korelasi:
Visualisasi scatter plot memperlihatkan bahwa rumah dengan jarak lebih dekat ke pusat kota cenderung memiliki harga lebih tinggi, sesuai ekspektasi pasar.
EDA ini menunjukkan bahwa:
Praprocessing Data
Menghubungkan Google Colab dengan Google Drive untuk membaca dataset. Koneksi Google Colab ke Google Drive agar file dataset perth house.csv dapat diakses secara langsung.
Menghapus fitur-fitur non-prediktif seperti nama sekolah, tanggal jual, dan lainnya.
Split Data
Pembagian dataset menjadi dua bagian: data pelatihan (70%) dan data pengujian (30%), dengan memisahkan fitur (X) dan target harga rumah (y).
Pembangunan Model Regresi Linear
Model dilatih menggunakan data pelatihan (X_train, y_train). Prediksi dilakukan pada data uji (X_test).
Evaluasi model dilakukan menggunakan metrik:
Visualisasi Hasil
Scatter plot dibuat antara harga aktual dan harga prediksi. Garis referensi (ideal prediction line) ditambahkan untuk melihat seberapa dekat prediksi terhadap kenyataan.
Evaluasi Hasil Model
1. Mean Squared Error (MSE):
Nilai MSE yang diperoleh adalah 60629336384.39888 yang merepresentasikan rata-rata kuadrat selisih antara harga rumah aktual dan hasil prediksi. Karena harga rumah memiliki skala yang besar, MSE dalam jutaan bahkan milyaran masih tergolong wajar. Meski begitu, nilai ini menunjukkan bahwa prediksi masih memiliki deviasi yang cukup besar dan bisa ditingkatkan lagi.
2. R-squared (R²):
Nilai R² sebesar 0.5266220294264707 menunjukkan bahwa model mampu menjelaskan sekitar 52,66% variasi harga rumah berdasarkan fitur-fitur yang tersedia dalam dataset. Ini menandakan bahwa meskipun model menangkap sebagian besar pola dalam data, masih terdapat hampir setengah variasi harga yang belum bisa dijelaskan oleh model, kemungkinan karena adanya faktor eksternal lain yang tidak dimasukkan, seperti kondisi rumah, tren pasar, atau fasilitas lingkungan sekitar.
3. Analisis Koefisien Fitur
Beberapa koefisien regresi menunjukkan hubungan yang logis dengan harga rumah:
FLOOR_AREA: memiliki pengaruh positif kuat terhadap harga, artinya rumah dengan bangunan lebih luas cenderung lebih mahal.
CBD_DIST: berpengaruh negatif, artinya rumah yang lebih jauh dari pusat kota memiliki kecenderungan harga lebih rendah.
BATHROOMS: juga menunjukkan kontribusi positif terhadap nilai rumah, artinya semakin banyak kamar mandi cenderung harganya lebih mahal.
Namun, terdapat beberapa hal yang perlu dicermati:
BEDROOMS memiliki koefisien negatif, yang bertentangan dengan asumsi umum. Hal ini bisa jadi disebabkan oleh multikolinearitas (misalnya, rumah besar namun kamar kecil banyak) atau adanya data outlier.
Insight
1. Lokasi sebagai Faktor Penentu Harga
Fitur CBD_DIST (jarak ke pusat kota) secara konsisten menunjukkan korelasi negatif terhadap harga rumah. Semakin dekat rumah ke pusat kota, harga cenderung semakin tinggi. Hal ini sejalan dengan kondisi nyata pasar properti, di mana akses ke pusat bisnis dan fasilitas umum sangat memengaruhi nilai jual properti.
2. Luas Bangunan Lebih Dominan daripada Luas Tanah
Meskipun LAND_AREA sering diasumsikan sebagai penentu harga, hasil korelasi dan pemodelan justru menunjukkan bahwa FLOOR_AREA (luas bangunan) jauh lebih berpengaruh terhadap harga rumah. Ini menandakan bahwa fungsi dan kenyamanan bangunan lebih dihargai oleh pembeli dibanding sekadar ukuran lahan.
3. Koefisien Negatif pada Jumlah Kamar
Fitur BEDROOMS memiliki koefisien negatif dalam model, yang bertentangan dengan asumsi umum. Ini dapat disebabkan oleh multikolinearitas antar variabel atau adanya outlier. Misalnya, rumah dengan banyak kamar namun bangunan sempit atau di lokasi kurang strategis. Insight ini menekankan pentingnya eksplorasi lebih mendalam.
4. Model Regresi Linear Memberi Dasar yang Stabil
Dengan R² sebesar 0.5266, model dapat menjelaskan sekitar 52% variasi harga rumah dari fitur numerik. Meskipun belum sempurna, model ini cukup baik sebagai baseline model sebelum digunakan model yang lebih kompleks.
5. Scatter Plot dari Google Colab Menunjukkan Pola Umum yang Valid
Visualisasi scatter plot antara harga aktual (y_test) dan harga prediksi (y_pred) yang dibuat di Google Colab memperlihatkan sebaran data yang mengarah ke pola linier. Meskipun titik-titik data masih tersebar (berarti masih ada error dalam prediksi), sebagian besar mengikuti garis diagonal (y = x), menunjukkan bahwa model mampu menangkap tren umum dengan cukup baik. Garis referensi merah putus-putus menunjukkan prediksi ideal. Titik-titik yang berada di sekitar garis ini menandakan prediksi yang akurat, sementara yang jauh dari garis menunjukkan penyimpangan yang masih bisa diperbaiki di model berikutnya.
6. EDA Sederhana Tetap Relevan dan Memberi Arah Awal
Meski dilakukan dengan alat sederhana seperti Google Sheets, EDA awal terbukti membantu mengidentifikasi fitur penting dan mendukung temuan dalam model. Korelasi yang rendah antara LAND AREA dan PRICE serta korelasi negatif antara CBD_DIST dan PRICE memberi sinyal awal bahwa tidak semua asumsi pasar berlaku universal.
Kesimpulan dan Pembelajaran
Proyek ini membuktikan bahwa regresi linear dapat digunakan sebagai baseline untuk memprediksi harga rumah di Perth dengan tingkat akurasi sedang (R² = 0.5266). Fitur lokasi dan luas bangunan berpengaruh signifikan terhadap harga, sementara luas tanah terbukti kurang relevan secara linier.
Melalui proyek ini, saya belajar pentingnya proses end-to-end dalam data science, mulai dari EDA, pemilahan fitur, hingga evaluasi dan visualisasi hasil. Saya juga memahami bahwa insight yang kuat tidak hanya berasal dari angka, tapi juga dari interpretasi yang tepat dan konteks pasar yang dipahami secara menyeluruh.
LINK GOOGLE COLAB : https://colab.research.google.com/drive/1sq7fCBjGvy7GXniaBxZH4wu7xQHeD4C2?usp=sharing
LINK PDF : https://drive.google.com/file/d/10gsQgYkRhKxziiKn-NDpFxpCdMRzosof/view?usp=sharing