Laelatusya'diyah
Analisis data harga rumah di California, dimulai dari memuat dan membersihkan data, memvisualisasikan pola awal, melatih model regresi linear, dan mengevaluasi performa model dengan metrik yang relevan.
Analisis Data Spatial Machine Learning dengan data California Housing Prices menggunakan R
by Laelatusya’diyah
Analisis data untuk memahami pola dan tren dari harga rumah di California, ini melibatkan beberapa langkah penting, mulai dari memuat data, membersihkan data, memvisualisasikan data, hingga melatih model machine learning untuk membuat prediksi. Berikut adalah langkah menganalisis data harga rumah California:
Memuat paket `tidyverse`, `caret`, dan `ggplot2` untuk membantu dalam manipulasi data, pembelajaran mesin, dan visualisasi.
Memuat dataset dari file CSV bernama `housing.csv` dan memeriksa apakah ada baris yang mengandung missing value, dan menghapus baris-baris ini untuk memastikan analisis lebih akurat.
2. Memvisualisasikan Data
Untuk mendapatkan gambaran awal tentang data, Anda membuat beberapa visualisasi. Pertama, Anda membuat histogram untuk melihat distribusi `median_house_value` dan `median_income`.
Dengan hasil visualisai :
3. Membagi Data Menjadi Set Training dan Testing
Dengan pemahaman awal dari data yang diperoleh melalui visualisasi, lanjutkan untuk membagi dataset menjadi data training dan testing untuk melatih model machine learning.
4. Melatih Model Regresi Linear
Menentukan variabel target (`median_house_value`) dan fitur-fiturnya. Setelah itu, melatih model regresi linear menggunakan data training.
5. Membuat Prediksi dan Mengevaluasi Model
Setelah model dilatih, gunakan untuk membuat prediksi pada data testing. juga menghitung beberapa metrik evaluasi untuk menilai performa model, seperti Mean Absolute Error (MAE), Mean Squared Error (MSE), dan Root Mean Squared Error (RMSE).
6. Visualisasi Hasil Prediksi
Sebagai langkah terakhir, Anda memvisualisasikan hasil prediksi untuk melihat bagaimana nilai yang diprediksi dibandingkan dengan nilai aktual dari data testing.
Dengan ini, telah berhasil melakukan analisis data harga rumah di California. Dimulai dari memuat dan membersihkan data, memvisualisasikan pola awal, melatih model regresi linear, dan mengevaluasi performa model dengan metrik yang relevan.