Data science adalah suatu bidang studi yang mengkombinasikan kemampuan matematika dan programming, statistika, dan pengetahuan umum untuk mendapatkan suatu insight dari data terstruktur maupun tak terstruktur. Klasifikasi adalah suatu pengelompokan data dimana data yang digunakan tersebut mempunyai kelas label atau target. Kami melakukan klasifikasi data menggunakan machine learning dengan tool Google Colaboratory dan mengambil dataset dari Kaggle.com yang berjudul Disney+ Movies and TV Shows Dataset.
Description
Apa itu Data Science?
Data science adalah bidang yang mempelajari proses pengolahan data dengan tujuan mencapai strategi bisnis yang menggunakan metode, algoritma dan informasi dari data terstruktur dan tidak terstruktur. Data science menggabungkan 3 bidang ilmu, yaitu pemrograman, matematika &statistika, dan bisnis. Data science sangat penting bagi sebuah bisnis untuk berkembang. Namun, jika suatu bisnis/perusahaan tidak mampu mengolah data, maka suatu bisnis/perusahaan tidak dapat berkembang sehingga bisnis tersebut tidak dapat mengambil kebijakan yang tepat dan tidak dapat menentukan strategi yang efektif dan efisien. Salah satu bidang bisnis yang sangat membutuhkan data science adalah bidang kesehatan (setiap rumah sakit pasti memiliki pasien baru setiap harinya). Mechine learning (pembelajaran mesin) adalah algoritma yang biasa digunakan dalam ilmu data.
Klasifikasi Data
Saya melakukan klasifikasi data menggunakan machine learning dengan tool Google Colaboratory dan mengambil dataset dari Kaggle.com yang berjudul Disney+ Movies and TV Shows Dataset.
Langkah 1
Buka Google Colaboratory, lalu sambungkan google colab dengan drive
from google.colab import drive
drive.mount(‘/content/drive’)
Langkah 2
Lalu masukan kode untuk dapat mengakses semua file dalam Google Drive yang akan di klasifikasikan di google colab, sesuaikan dimana tempat data yang akan kamu klasifikasikan disimpan dalam gdrive.
lalu data muncul, sedangkan head pada pandas untuk mendapatkan n baris data teratas.
Shape memberikan informasi bahwa DataFrame memiliki 1450 baris/record dan 12 kolom. Sedangkan tail untuk memberikan informasi 10 baris terakhir dari data.
Iloc digunakan untuk meyeleksi data pada lokasi tertentu saja. Kita hendak meyeleksi data dari baris nol hingga baris dua belas, maka kita harus membacanya dari baris nol hingga sebelum baris tiga belas.
df.info untuk memberikan informasi lebih detail mengenai struktur DataFrame.
Shape memberikan informasi bahwa DataFrame pada kolom country memiliki 1450 baris/record. Lalu df[[“country’’, “type”, “listed_in”]] untuk mengklasifikasikan data hanya menampilkan kolom country, type, dan listed_in.
Melakukan filtering pada baris data tertentu, misal pda kolom release year kita ingin menampilkan data tahun rilis diatas tahun 2015.
Memfilter apakah tiap row dalam DataFrame memiliki “release year” > 2015 atau tidak, jika iya bernilai True,jika tidak bernilai False.
df_ABOVE_2015.shape untuk memberikan informasi bahwa DataFrame pada kolom “release year” memiliki 533 baris/record dan 12 kolom. Function .isin() mencari data movie dan TV Show dari negara United States dan Canada.
Untuk mengelompokan type movie dan type Tv show dalam data Disney+
Melakukan pengelompokan data berdasarkan listed in dengan grouping dan selanjutnya menghitung total case tiap listed in nya dengan fungsi .count()
Dapat juga mencari rata-rata listed in dengan menggunakan fungsi .mean() pada kolom release year.
Mengambil data untuk spesifik group dengan fungsi .get_group(). Dari hasil grouping by listed in, kita dapat mengambil data hasil grouping untuk tiap listed in name, misal kita ingin mengambil data untuk satu group listed in ‘Action-Adventure, Animals & Nature, Docuseries’.
Selanjutnya kita melakukan multiple groupby, misal pada dataset Disney+ Movie and TV Shows kita ingin melakukan grouping berdasarkan listed in dan country. Setelah itu, kita hitung jumlah case pada tiap listed in untuk setiap country.
Dalam mengimplentasikan train/test split dapat menggunakan Scikit-Learn. Untuk menggunakannya dapat mengimport Scikit-Learn terlebih dulu, kemudian menggunakan rumus train_test_split()
X_train untuk menampung datasource yang akan dilatih.
y_test digunakan untuk nemapung data target
df.describe() untuk menghitung berapa data dari release_year. Ini menganalisis seri numerik dan objek dan juga kumpulan kolom DataFrame dari type data campuran.
Informasi Course Terkait
Kategori: Data Science / Big Data
Course: Data Science
Bisa AI Academy
AI Public Class and In House Training for everyone!
Trusted by +400K Students, +500 Universities, +300 Companies, +20 State-owned Companies and +10
Ministers