BISA AI - AI For Everyone

Menghasilkan Data Bersih pada Dataset

Felix Ferdinand

Sosial Media

0 orang menyukai ini
Suka

Summary

Langkah-langkah untuk membersihkan data dengan menerapkan teknik-teknik Text Processing. Dataset yang digunakan adalah dataset Sentimen Labelled Sentences yang bisa didapatkan dari Kaggle. Hasil yang didapatkan adalah data teks yang tidak ada angka, tanda baca, huruf kapital, dan semacamnya.

Description

Dataset Sentiment Labelled Sentences berisi kalimat yang dilabeli dengan sentimen positif atau negatif. Memiliki skor antara 1 (untuk positif) atau 0 (untuk negatif). Kalimat tersebut berasal dari tiga situs yang berbeda yaitu imdb.com, amazon.com, yelp.com. Untuk setiap situs web, terdapat 500 kalimat positif dan 500 kalimat negatif. Kalimat tersebut dipilih secara acak untuk mendapatkan kumpulan data ulasan yang lebih besar.

Dataset ini dapat diakses pada link berikut: https://www.kaggle.com/datasets/marklvl/sentiment-labelled-sentences-data-set

Berikut adalah langkah-langkah untuk melakukan proses membersikan dataset Sentiment Labelled Sentences:

1. Mounting ke Google Drive agar dataset bisa diakses.

2. Import library yang diperlukan dan download.

Library yang digunakan adalah:

Pandas. Library python yang digunakan untuk data manipulation dan analisis data.
Re (Regular Expression). Fungsi dalam modul ini dapat memeriksa apakah string tertentu sesuai dengan regular expression yang diberikan.
NLTK (Natural Language Tool Kit). Library ini berisi fungsi built-in yang berguna untuk pemrosesan teks untuk tokenization, parsing, klasifikasi, penandaan dan penalaran semantik.
OS. Modul ini menyediakan cara portabel untuk menggunakan fungsionalitas yang bergantung pada sistem operasi, seperti manipulasi path file.

3. Membaca ketiga dataset dari Google Drive dan digabungkan menjadi satu dataframe.

4. Processing data.

Berikut adalah langkah-langkahnya:

1) Pertama adalah memisahkan kolom kalimat dan kelasnya.

2) Melakukan Case Folding dan Filtering. Case folding adalah mengubah semua huruf kapital menjadi huruf kecil pada kalimat. Filtering adalah menghapus data yang memiliki tanda baca, angka, double spasi, dan lainnya. Case Folding dan Filtering dilakukan di dalam for loop dan hasilnya akan ditampung ke variabel sentence_result

3) Setelahnya adalah menggabungkan data tersebut dengan class labelnya sehingga menjadi satu dataframe.

4) Terakhir adalah proses Stopwords Removal yang merupakan tahap untuk menghilangkan kata-kata tidak penting seperti "of", "and", "on", dan sejenisnya.

Informasi Course Terkait

Kategori: Natural Language Processing
Course: Basic Text Processing

Kelas GRATIS

Master Class

Master Class on Job Training

Learning Path

Kelas OFFLINE

Kelas Corporate

Prakerja

Webinar

Udemy

Kampus Merdeka

Learncation

Portofolio Peserta

Sertifikasi International

Sertifikasi Nasional

Kuliah RPL

Politeknik BISA AI

Pendidikan Profesional

Educloud

Siakad by Bisa AI

IT Solution

Konsultan Pendidikan

Kolaborasi Seminar

Kolaborasi pelatihan

Gallery

Tentang Kami

Testimonial Peserta

Corporate Social Responsibility

Hubungi Kami

Dokter Mekanik

E-learning

Bisa Design

BISA Network

Tampil

Bakerspice Academy

Gramatikal

Menghasilkan Data Bersih pada Dataset

Sosial Media

Summary

Description

Informasi Course Terkait

Bisa AI Academy