Foto User
Analisis Dataset Prediksi Harga Rumah

Fikri Faturrahman

Sosial Media


0 orang menyukai ini
Suka

Summary

Memprediksi Harga Rumah Menggunakan Regresi Linear

Proyek ini bertujuan untuk memprediksi harga rumah berdasarkan berbagai fitur seperti luas bangunan, jumlah kamar tidur, jumlah lantai, dan fasilitas lainnya menggunakan pendekatan machine learning berbasis regresi linier. Data diperoleh dari Kaggle dalam format CSV, kemudian dianalisis secara menyeluruh menggunakan Google Colab dengan bantuan pustaka Python seperti pandas, matplotlib, seaborn, dan scikit-learn.

Fokus utama proyek ini adalah membangun model prediktif yang mampu mengestimasi harga rumah dengan akurat berdasarkan karakteristik fisik bangunan. Proyek ini tidak hanya mencakup pembuatan model, tetapi juga eksplorasi data dan visualisasi untuk memahami hubungan antar variabel.

Platform dan Tools yang Digunakan

  • Google Colab – untuk pemrograman Python dan eksekusi notebook
  • Google Drive – sebagai media penyimpanan data
  • Python (pandas, seaborn, matplotlib, scikit-learn) – untuk pengolahan data, eksplorasi, visualisasi, dan pemodelan regresi

 

Langkah-langkah Analisis

  1. Mengimpor dataset harga rumah dari file CSV
  2. Mengeksplorasi data dan memeriksa korelasi antar fitur
  3. Melakukan visualisasi dengan scatter plot dan heatmap
  4. Membagi data menjadi set pelatihan dan pengujian
  5. Melatih model regresi linier untuk memprediksi harga rumah
  6. Mengevaluasi model menggunakan metrik Mean Squared Error (MSE) dan R-squared (R²)
  7. Menampilkan hasil prediksi dan membandingkan dengan nilai aktual
  8. Menginterpretasi hasil visualisasi dan memberikan insight
     

Hasil Evaluasi Model

Model: Regresi Linier

Mean Squared Error (MSE): 1.070.000.000.000

R-squared (R²): 0.679
(Artinya, sekitar 68% variasi harga rumah dapat dijelaskan oleh model yang dibangun.)
 

 

Description

Dalam proyek ini, saya memanfaatkan teknik machine learning sederhana untuk memahami bagaimana fitur-fitur fisik rumah dapat mempengaruhi harga jualnya. Ini merupakan topik yang sangat relevan di dunia nyata, khususnya dalam konteks perencanaan pembelian properti, penilaian aset, atau bahkan investasi.

Langkah awal dimulai dengan mengimpor data dari Kaggle yang berisi informasi rumah-rumah seperti luas bangunan (area), jumlah kamar tidur, jumlah lantai, jumlah kamar mandi, kapasitas parkir, dan harga rumah sebagai target variabel. File CSV ini saya unggah ke Google Drive, lalu diakses dari Google Colab untuk proses analisis.

Setelah data berhasil dimuat, saya melakukan eksplorasi awal untuk melihat distribusi dan korelasi antar fitur. Saya menggunakan heatmap dan pairplot untuk visualisasi hubungan antar variabel. Analisis ini penting untuk mengidentifikasi fitur yang paling mempengaruhi harga rumah.

Selanjutnya, data dibagi menjadi dua bagian: data pelatihan (train) dan data pengujian (test) dengan rasio 80:20. Saya menggunakan regresi linier sebagai model utama karena interpretasinya yang sederhana dan umum digunakan untuk permasalahan prediksi numerik.

Model dilatih pada data pelatihan, dan diuji pada data pengujian. Evaluasi performa dilakukan menggunakan dua metrik:

MSE untuk mengukur rata-rata kesalahan prediksi

R² Score untuk melihat seberapa besar variasi harga rumah yang bisa dijelaskan oleh fitur-fitur yang ada

Hasilnya, MSE berada pada angka sekitar 1.070 miliar, dan skor R² sebesar 0.679, menandakan model sudah cukup baik dalam menangkap tren, meskipun masih ada ruang perbaikan.

Saya juga membuat visualisasi untuk membandingkan harga aktual dengan harga prediksi, serta scatter plot antara fitur Area dan Price. Hasil visualisasi memperkuat temuan bahwa Area memiliki korelasi paling kuat terhadap harga rumah. Insight penting lainnya adalah bahwa fitur-fitur lain seperti jumlah kamar, kamar mandi, dan lantai juga memengaruhi harga, namun dengan pengaruh yang relatif lebih kecil.

Insight Visualisasi

Visualisasi scatter plot antara Area (luas rumah) dan Price menunjukkan hubungan positif yang kuat — semakin luas rumah, semakin tinggi harganya. Variabel lain seperti Bedroom, Bathroom, dan Stories juga memperlihatkan kontribusi terhadap nilai properti. Melalui grafik heatmap korelasi, fitur Area terbukti paling berpengaruh terhadap harga, sementara fitur lain menunjukkan korelasi sedang hingga rendah.

Informasi Course Terkait
  Kategori: Data Science / Big Data
  Course: Machine Learning For Beginner