Fikri Faturrahman
Memprediksi Harga Rumah Menggunakan Regresi Linear
Proyek ini bertujuan untuk memprediksi harga rumah berdasarkan berbagai fitur seperti luas bangunan, jumlah kamar tidur, jumlah lantai, dan fasilitas lainnya menggunakan pendekatan machine learning berbasis regresi linier. Data diperoleh dari Kaggle dalam format CSV, kemudian dianalisis secara menyeluruh menggunakan Google Colab dengan bantuan pustaka Python seperti pandas, matplotlib, seaborn, dan scikit-learn.
Fokus utama proyek ini adalah membangun model prediktif yang mampu mengestimasi harga rumah dengan akurat berdasarkan karakteristik fisik bangunan. Proyek ini tidak hanya mencakup pembuatan model, tetapi juga eksplorasi data dan visualisasi untuk memahami hubungan antar variabel.
Platform dan Tools yang Digunakan
Langkah-langkah Analisis
Hasil Evaluasi Model
Model: Regresi Linier
Mean Squared Error (MSE): 1.070.000.000.000
R-squared (R²): 0.679
(Artinya, sekitar 68% variasi harga rumah dapat dijelaskan oleh model yang dibangun.)
Dalam proyek ini, saya memanfaatkan teknik machine learning sederhana untuk memahami bagaimana fitur-fitur fisik rumah dapat mempengaruhi harga jualnya. Ini merupakan topik yang sangat relevan di dunia nyata, khususnya dalam konteks perencanaan pembelian properti, penilaian aset, atau bahkan investasi.
Langkah awal dimulai dengan mengimpor data dari Kaggle yang berisi informasi rumah-rumah seperti luas bangunan (area), jumlah kamar tidur, jumlah lantai, jumlah kamar mandi, kapasitas parkir, dan harga rumah sebagai target variabel. File CSV ini saya unggah ke Google Drive, lalu diakses dari Google Colab untuk proses analisis.
Setelah data berhasil dimuat, saya melakukan eksplorasi awal untuk melihat distribusi dan korelasi antar fitur. Saya menggunakan heatmap dan pairplot untuk visualisasi hubungan antar variabel. Analisis ini penting untuk mengidentifikasi fitur yang paling mempengaruhi harga rumah.
Selanjutnya, data dibagi menjadi dua bagian: data pelatihan (train) dan data pengujian (test) dengan rasio 80:20. Saya menggunakan regresi linier sebagai model utama karena interpretasinya yang sederhana dan umum digunakan untuk permasalahan prediksi numerik.
Model dilatih pada data pelatihan, dan diuji pada data pengujian. Evaluasi performa dilakukan menggunakan dua metrik:
MSE untuk mengukur rata-rata kesalahan prediksi
R² Score untuk melihat seberapa besar variasi harga rumah yang bisa dijelaskan oleh fitur-fitur yang ada
Hasilnya, MSE berada pada angka sekitar 1.070 miliar, dan skor R² sebesar 0.679, menandakan model sudah cukup baik dalam menangkap tren, meskipun masih ada ruang perbaikan.
Saya juga membuat visualisasi untuk membandingkan harga aktual dengan harga prediksi, serta scatter plot antara fitur Area dan Price. Hasil visualisasi memperkuat temuan bahwa Area memiliki korelasi paling kuat terhadap harga rumah. Insight penting lainnya adalah bahwa fitur-fitur lain seperti jumlah kamar, kamar mandi, dan lantai juga memengaruhi harga, namun dengan pengaruh yang relatif lebih kecil.
Insight Visualisasi
Visualisasi scatter plot antara Area (luas rumah) dan Price menunjukkan hubungan positif yang kuat — semakin luas rumah, semakin tinggi harganya. Variabel lain seperti Bedroom, Bathroom, dan Stories juga memperlihatkan kontribusi terhadap nilai properti. Melalui grafik heatmap korelasi, fitur Area terbukti paling berpengaruh terhadap harga, sementara fitur lain menunjukkan korelasi sedang hingga rendah.