Portofolio Detail >> Predictive Analytics Lifecycle Diamond Dataset

Predictive Analytics Lifecycle Diamond Dataset

Shopi Nurhidayanti

Sosial Media

0 orang menyukai ini
Suka

Summary

Predictive Analytics memiliki beberapa tahapan dalam proses pengembangannya. Keberhasilan predictive analytics tidak hanya ditentukan oleh pemilihan algoritma machine learning saja, melainkan juga penerapan metodologi standar dalam mengelola seluruh tahapan atau siklus proyek. Cross-Industry Standard Process for Data Mining atau disingkat menjadi CRISP-DM merupakan salah satu metode standar proses analitik yang paling umum digunakan. Metode ini akan mengelola dataset yang di ambil dari Kaggle dari tahapan mendefinisikan masalah hingga mendapatkan insight.

Description

Dalam metode CRISP-DM dibagi menjadi enam fase utama, antara lain:

Business understanding
Proyek predictive analytics biasanya berfokus pada hal-hal seperti mendapatkan pelanggan baru, meningkatkan performa penjualan, dan menambahkan efisiensi pada suatu proses tertentu. Fase awal dari proyek analitik bertujuan untuk memahami masalah bisnis kemudian merancang solusi analitik berdasarkan data untuk menyelesaikan permasalahan tersebut. Tahapan ini mencakup proses klarifikasi masalah, menentukan tujuan atau objective, dan mengidentifikasi sumber daya yang dimiliki. Berdasarkan kondisi yang telah diuraikan sebelumnya, perusahaan akan mengembangkan sebuah sistem prediksi harga diamonds untuk menjawab permasalahan berikut:

Dari serangkaian fitur yang ada, fitur apa yang paling berpengaruh terhadap harga diamonds?
Berapa harga pasar diamonds dengan karakteristik atau fitur tertentu?

Untuk menjawab pertanyaan tersebut, kita akan membuat predictive modelling dengan tujuan atau goals sebagai berikut:

Mengetahui fitur yang paling berkorelasi dengan harga diamonds.
Membuat model machine learning yang dapat memprediksi harga diamonds seakurat mungkin berdasarkan fitur-fitur yang ada.

Data understanding
Memiliki pemahaman mengenai data yang tersedia berikut sumbernya merupakan fase yang penting setelah tujuan proyek diputuskan. Fase ini memungkinkan untuk memahami informasi dalam data dan menentukan kualitasnya. Pemahaman data sangat penting untuk menghindari masalah yang tidak terduga selama fase berikutnya, yaitu fase persiapan data (data preparation).

Pertama import library akan yang di gunakan untuk melakukan proses loading data agar data dapat kita pahami

Output kode di atas memberikan informasi sebagai berikut:

Ada 53.940 baris (records atau jumlah pengamatan) dalam dataset.
Terdapat 10 kolom yaitu: carat, cut, color, clarity, depth, table, price, x, y, z.

Selanjutnya lakukan proses Exploratory Data Analysis (EDA) yang merupakan proses inverstigasi awal pada data untuk melakukan analisis karakteristik, menemukan pola, anomali, dan memerika asumsi pada data.

Data preparation
Data preparation merupakan salah satu tahapan penting yang paling memakan waktu. Proses yang dilakukan dalam tahapan ini bisa berbeda tergantung kebutuhan dan tujuannya. Namun, secara umum, hal-hal yang akan dilakukan dalam fase ini adalah menggabungkan data, menyeleksi data yang akan digunakan, melakukan proses transformasi data, dan membagi data menjadi data training dan test.

Pada bagian ini melakukan empat tahap persiapan data, yaitu:

Encoding fitur kategori.

Reduksi dimensi dengan Principal Component Analysis (PCA)

Pembagian dataset dengan fungsi train_test_split dari library sklearn

Standarisasi.

Modeling
Pemodelan biasanya dilakukan dalam beberapa iterasi. Pada fase ini, menggunakan algoritma machine learning yang berbeda untuk membuat model prediksi. Model-model ini kemudian dibandingkan dan model terbaiklah yang akan dipilih untuk diterapkan.

Evaluation
Sebelum model diterapkan, model perlu dievaluasi agar terbukti cocok untuk tujuan yang telah ditentukan. Fase ini bertujuan untuk memastikan bahwa model akan mampu membuat prediksi yang akurat dan tidak mengalami overfitting atau underfitting.

Deployment
Pada fase ini, model machine learning yang telah Anda buat akan diintegrasikan ke dalam sistem organisasi. Secara umum, proses yang dilakukan dalam fase ini adalah: Mengintegrasikan model ke dalam sistem (proses deployment). Memonitor hasil deployment. dan Membuat laporan akhir dan melakukan evaluasi proyek.

Terlihat bahwa prediksi dengan Random Forest (RF) memberikan hasil yang paling mendekati.

Informasi Course Terkait

Kategori: Data Science / Big Data
Course: Data Science For Business Menggunakan Python

Kelas GRATIS

Master Class

Learning Path

Master Class + Sertifikasi BNSP

Master Class + Sertifikasi Internasional

Portofolio Peserta

Webinar

Udemy

Kelas GRATIS

Master Class

Master Class + Sertifikasi BNSP

Master Class + Sertifikasi Internasional

Learning Path

Portofolio Peserta

Program Special

Webinar

Udemy

Learncation

Sertifikasi Internasional

Sertifikasi Nasional

Kelas Corporate

Sertifikasi Internasional

Sertifikasi Nasional

Kelas Corporate

Kolaborasi Seminar

Kolaborasi pelatihan

Gallery

Tentang Kami

Testimonial Peserta

Testimonial Video Peserta

Corporate Social Responsibility

Pengajar Kami

Hubungi Kami

Dokter Mekanik

E-learning

LEIP

Flungo

Tampil

Run Addicts

TripTracker

Gramatikal

Kolaborasi Seminar

Kolaborasi pelatihan

Gallery

Tentang Kami

Testimonial Peserta

Testimonial Video Peserta

Corporate Social Responsibility

Pengajar Kami

Hubungi Kami

Platform Lain

Dokter Mekanik

E-learning

LEIP

Flungo

Tampil

Run Addicts

TripTracker

Gramatikal

Predictive Analytics Lifecycle Diamond Dataset

Sosial Media

Summary

Description

Description

Informasi Course Terkait

Bisa AI Academy