Diyah Azahra
Di era digital seperti sekarang, jual beli mobil bekas semakin marak, baik melalui platform online maupun offline. Namun, seringkali harga mobil bekas bersifat subjektif dan tidak transparan, yang dapat merugikan pembeli maupun penjual. Oleh karena itu, proyek ini bertujuan untuk membangun sebuah model prediksi harga mobil bekas berdasarkan data historis yang ada, sehingga proses jual beli menjadi lebih objektif dan berbasis data.
Saya menggunakan Google Colab sebagai platform utama karena kemudahan dalam integrasi dengan Google Drive, serta fleksibilitas dalam menulis dan menjalankan kode Python untuk eksplorasi dan visualisasi data.
Langkah pertama adalah membaca dan menampilkan data dari Google Drive. Dataset ini berisi informasi mendetail tentang berbagai mobil bekas, seperti:
1. Merek dan model mobil
2. Tahun pembuatan
3. Lokasi penjualan
4. Jarak tempuh (mileage)
5. Kapasitas mesin
6. Jenis bahan bakar, warna, dan tipe bodi
Dataset yang digunakan diperoleh dari Kaggle dalam format CSV, berisi informasi detail tentang mobil bekas, File CSV ini disimpan di Google Drive dan diakses melalui Google Colab. Setelah data dimuat, dilakukan data cleaning dan penghapusan kolom non-numerik atau redundan untuk menyederhanakan model.
Langkah-langkah Analisis dengan menghubungkan Google Colab ke Google Drive untuk mengakses file dataset:
1. Membaca dan mengeksplorasi data menggunakan Pandas.
2. Membersihkan data dan menghapus fitur yang tidak diperlukan.
3. Membagi data menjadi training set dan test set (80:20).
4. Melatih model Linear Regression untuk memprediksi harga berdasarkan fitur numerik seperti Mileage, Engine Capacity, dan Year.
5. Menguji model dengan metrik Mean Squared Error (MSE) dan R-Squared.
6. Membuat visualisasi scatter plot antara Jarak tempuh dan Harga untuk memahami hubungan variabel.
Hasil yang dicapai dalam analisis data pada google colab, yaitu:
1. Model yang dicapai adalah Linear Regression (Mileage vs. Prices)
1. Mean Squared Error (MSE): 4507273515709.81
2. R-squared (R²): 0.493 (Nilai R² menunjukkan bahwa sekitar 49.3% variabilitas harga mobil dapat dijelaskan oleh fitur-fitur yang digunakan).
3. Insight Visualisasi: Dari scatter plot yang dibuat antara Mileage dan Price, terlihat tren negatif: “Semakin kecil jarak tempuh, semakin tinggi harga mobil bekas.”
Hal ini masuk akal karena kendaraan dengan odometer rendah biasanya menunjukkan usia pemakaian yang singkat atau penggunaan yang ringan, sehingga lebih bernilai di pasaran.
Proyek ini bertujuan untuk memahami dan memprediksi harga mobil bekas dengan pendekatan machine learning, menggunakan algoritma Linear Regression. Topik ini dipilih karena relevan dengan kehidupan sehari-hari dan memiliki nilai praktis tinggi, khususnya bagi masyarakat yang ingin membeli atau menjual kendaraan bekas. Saya menggunakan Google Colab sebagai platform utama karena kemudahan dalam integrasi dengan Google Drive, serta fleksibilitas dalam menulis dan menjalankan kode Python untuk eksplorasi dan visualisasi data.
Langkah pertama adalah mencari data di Kaggle berupa file CSV yang berisi informasi mendetail tentang berbagai mobil bekas. Lalu mengunduh file tersebut dalam bentuk format zip. setelah itu di ekstrak dan disimpan di Google Drive dengan membuat folder baru untuk kemudahan dalam mengakses file tersebut dalam Google Colab. Setelah itu membuka Google Colab dan dihubungkan dengan Google Drive kemudian file CSV di impor ke Google Colab.
Data yang digunakan untuk keperluan analisis prediktif, beberapa variabel yang bersifat kategorikal atau tidak relevan telah dihapus. Fokus utama diarahkan pada fitur numerik seperti Mileage, Engine Capacity, Year, dan Price.
Saya memilih menggunakan model Linear Regression, karena model ini sederhana untuk memahami hubungan antar variable. Untuk memprediksi harga mobil, saya menggunakan algoritma Linear Regression dari pustaka scikit-learn. Data dibagi menjadi dua bagian:
1. 80% untuk pelatihan (X_train, y_train)
2. 20% untuk pengujian (X_test, y_test)
Hasil yang saya peroleh:
1. Mean Squared Error (MSE): 4507273515709.81
2. R-squared (R²): 0.4933146788284726
Nilai R² menunjukkan bahwa sekitar 49.3% variabilitas harga mobil dapat dijelaskan oleh fitur-fitur yang digunakan. Meski masih bisa ditingkatkan, ini merupakan hasil yang cukup baik untuk model linear sederhana dengan data real-world. Untuk menggambarkan performa model, dibuat scatter plot antara Mileage dan harga yang diprediksi vs harga aktual. Dari plot ini terlihat bahwa prediksi model belum sepenuhnya akurat, terutama pada outlier dengan harga tinggi. Namun, pola umum sudah mulai terlihat.
Proyek ini membuktikan bahwa Machine Learning dapat digunakan untuk membantu memprediksi harga mobil bekas dengan cukup baik. Insight Visualisasi yang saya dapat dari scatter plot yang dibuat antara Mileage dan Price, terlihat tren negatif: “Semakin kecil jarak tempuh, semakin tinggi harga mobil bekas”. Hal ini masuk akal karena kendaraan dengan odometer rendah biasanya menunjukkan usia pemakaian yang singkat atau penggunaan yang ringan, sehingga lebih bernilai di pasaran.