Adhi Keris Surya Putra
Dalam proyek ini, saya menggunakan Google Colab untuk membangun model regresi linear guna memprediksi harga rumah berdasarkan data dari file Excel yang berisi fitur seperti jumlah kamar tidur, luas bangunan, luas tanah, dan lainnya. Setelah mengimpor dan memproses data, saya membagi data menjadi data pelatihan dan pengujian. Hasil evaluasi model menunjukkan R-Squared sebesar 0,546 dan MSE sebesar 2.292.721.545.725,36, yang menandakan model cukup mampu menjelaskan variasi harga rumah meskipun masih terdapat error cukup besar. Visualisasi scatter plot memperlihatkan bahwa prediksi harga cenderung mengikuti harga aktual, namun masih tersebar. Proyek ini menjadi langkah awal yang baik dan dapat dikembangkan lebih lanjut dengan model yang lebih kompleks.
Dalam proyek analisis data ini, saya memanfaatkan machine learning untuk memahami salah satu topik yang dekat dengan kehidupan sehari-hari yaitu harga rumah. Langkah ini dimulai dengan menggunakan Google Colab sebagai platform analisis. Google Colab dianggap cocok karena menyediakan lingkungan yang ideal untuk eksperimen data science, memungkinkan saya menulis kode Python, menjalankan skrip, serta menampilkan visualisasi secara kolaboratif langsung.
Data yang digunakan berasal dari file Excel (XLSX) yang berisi informasi lengkap mengenai harga rumah, seperti jumlah kamar tidur, luas bangunan, luas tanah, jumlah kamar mandi, tahun dibangun, dan fitur lainnya. File ini saya simpan terlebih dahulu di Google Drive untuk kemudahan akses dan pengolahan.
Langkah berikutnya adalah menghubungkan Google Colab dengan Google Drive. Kemudian file Excel berhasil diimpor ke Colab. Proses ini memungkinkan saya untuk memuat data terus diperbarui kapan pun dibutuhkan.
Setelah data berhasil dimuat, saya melakukan pra-pemrosesan dan pemisahan data menjadi dua bagian utama:
Data pelatihan: X_train, y_train
Data pengujian: X_test, y_test
Ini penting agar model yang saya bangun belajar dari data yang ada serta diuji kemampuannya pada data yang belum pernah dilihat sebelumnya.
Untuk membangun pemahaman awal, saya memilih menggunakan model regresi linear, karena model ini sederhana namun sangat berguna untuk memahami hubungan antar variabel. Model ini dilatih menggunakan data pelatihan dan kemudian diuji untuk mengevaluasi performanya.
Hasil Evaluasi Model
Mean Squared Error (MSE): 2.292.721.545.725,36
R‑Squared: 0,546
Angka R‑Squared yang mencapai 54,6% menunjukkan bahwa model dapat menjelaskan lebih dari setengah variasi harga rumah berdasarkan fitur-fitur yang ada. Meskipun belum sempurna, ini sudah merupakan hasil awal yang cukup baik untuk model regresi sederhana. Nilai MSE yang masih cukup besar mengindikasikan adanya error prediksi yang tinggi—ini kemungkinan disebabkan oleh skala harga rumah yang besar dan keberadaan outlier dalam data.
Visualisasi
Saya membuat grafik scatter plot yang menggambarkan perbandingan antara harga rumah aktual (y_test) dan harga prediksi (y_pred). Hasil visualisasi menunjukkan adanya pola positif—nilai prediksi cenderung sejalan dengan nilai sebenarnya—meskipun masih terdapat penyebaran yang cukup besar, menunjukkan bahwa beberapa prediksi meleset signifikan.
Kesimpulan & Rekomendasi
Regresi linear berhasil memberikan baseline: R‑Squared ~0,55 cukup solid untuk model sederhana.
Error besar menunjukkan area perbaikan: Perlu eksplorasi data outlier, transformasi variabel (misalnya log), scaling, atau penambahan fitur baru (jarak ke pusat kota, fasilitas dekat rumah, dll.).
Pertimbangkan model alternatif: Seperti regresi Ridge/Lasso, Random Forest, atau XGBoost, untuk melihat apakah performa meningkat secara signifikan.
Cross‑validation & hyperparameter tuning: Mengoptimalkan model dan mengurangi risiko overfitting.