Shopi Nurhidayanti
Predictive Analytics memiliki beberapa tahapan dalam proses pengembangannya. Keberhasilan predictive analytics tidak hanya ditentukan oleh pemilihan algoritma machine learning saja, melainkan juga penerapan metodologi standar dalam mengelola seluruh tahapan atau siklus proyek. Cross-Industry Standard Process for Data Mining atau disingkat menjadi CRISP-DM merupakan salah satu metode standar proses analitik yang paling umum digunakan. Metode ini akan mengelola dataset yang di ambil dari Kaggle dari tahapan mendefinisikan masalah hingga mendapatkan insight.
Dalam metode CRISP-DM dibagi menjadi enam fase utama, antara lain:
Business understanding
Proyek predictive analytics biasanya berfokus pada hal-hal seperti mendapatkan pelanggan baru, meningkatkan performa penjualan, dan menambahkan efisiensi pada suatu proses tertentu. Fase awal dari proyek analitik bertujuan untuk memahami masalah bisnis kemudian merancang solusi analitik berdasarkan data untuk menyelesaikan permasalahan tersebut. Tahapan ini mencakup proses klarifikasi masalah, menentukan tujuan atau objective, dan mengidentifikasi sumber daya yang dimiliki. Berdasarkan kondisi yang telah diuraikan sebelumnya, perusahaan akan mengembangkan sebuah sistem prediksi harga diamonds untuk menjawab permasalahan berikut:
Untuk menjawab pertanyaan tersebut, kita akan membuat predictive modelling dengan tujuan atau goals sebagai berikut:
Data understanding
Memiliki pemahaman mengenai data yang tersedia berikut sumbernya merupakan fase yang penting setelah tujuan proyek diputuskan. Fase ini memungkinkan untuk memahami informasi dalam data dan menentukan kualitasnya. Pemahaman data sangat penting untuk menghindari masalah yang tidak terduga selama fase berikutnya, yaitu fase persiapan data (data preparation).
Pertama import library akan yang di gunakan untuk melakukan proses loading data agar data dapat kita pahami
Output kode di atas memberikan informasi sebagai berikut:
Selanjutnya lakukan proses Exploratory Data Analysis (EDA) yang merupakan proses inverstigasi awal pada data untuk melakukan analisis karakteristik, menemukan pola, anomali, dan memerika asumsi pada data.
Data preparation
Data preparation merupakan salah satu tahapan penting yang paling memakan waktu. Proses yang dilakukan dalam tahapan ini bisa berbeda tergantung kebutuhan dan tujuannya. Namun, secara umum, hal-hal yang akan dilakukan dalam fase ini adalah menggabungkan data, menyeleksi data yang akan digunakan, melakukan proses transformasi data, dan membagi data menjadi data training dan test.
Pada bagian ini melakukan empat tahap persiapan data, yaitu:
Modeling
Pemodelan biasanya dilakukan dalam beberapa iterasi. Pada fase ini, menggunakan algoritma machine learning yang berbeda untuk membuat model prediksi. Model-model ini kemudian dibandingkan dan model terbaiklah yang akan dipilih untuk diterapkan.
Evaluation
Sebelum model diterapkan, model perlu dievaluasi agar terbukti cocok untuk tujuan yang telah ditentukan. Fase ini bertujuan untuk memastikan bahwa model akan mampu membuat prediksi yang akurat dan tidak mengalami overfitting atau underfitting.
Deployment
Pada fase ini, model machine learning yang telah Anda buat akan diintegrasikan ke dalam sistem organisasi. Secara umum, proses yang dilakukan dalam fase ini adalah: Mengintegrasikan model ke dalam sistem (proses deployment). Memonitor hasil deployment. dan Membuat laporan akhir dan melakukan evaluasi proyek.
Terlihat bahwa prediksi dengan Random Forest (RF) memberikan hasil yang paling mendekati.