Menghasilkan Data Bersih pada Dataset

Felix Ferdinand

Sosial Media


0 orang menyukai ini
Suka

Summary

Langkah-langkah untuk membersihkan data dengan menerapkan teknik-teknik Text Processing. Dataset yang digunakan adalah dataset Sentimen Labelled Sentences yang bisa didapatkan dari Kaggle. Hasil yang didapatkan adalah data teks yang tidak ada angka, tanda baca, huruf kapital, dan semacamnya.

Description

Dataset Sentiment Labelled Sentences berisi kalimat yang dilabeli dengan sentimen positif atau negatif. Memiliki skor antara 1 (untuk positif) atau 0 (untuk negatif). Kalimat tersebut berasal dari tiga situs yang berbeda yaitu imdb.com, amazon.com, yelp.com. Untuk setiap situs web, terdapat 500 kalimat positif dan 500 kalimat negatif. Kalimat tersebut dipilih secara acak untuk mendapatkan kumpulan data ulasan yang lebih besar.

Dataset ini dapat diakses pada link berikut: https://www.kaggle.com/datasets/marklvl/sentiment-labelled-sentences-data-set 

 

Berikut adalah langkah-langkah untuk melakukan proses membersikan dataset Sentiment Labelled Sentences:

1. Mounting ke Google Drive agar dataset bisa diakses.

 

2. Import library yang diperlukan dan download.

Library yang digunakan adalah:

  • Pandas. Library python yang digunakan untuk data manipulation dan analisis data.
  • Re (Regular Expression). Fungsi dalam modul ini dapat memeriksa apakah string tertentu sesuai dengan regular expression yang diberikan.
  • NLTK (Natural Language Tool Kit). Library ini berisi fungsi built-in yang berguna untuk pemrosesan teks untuk tokenization, parsing, klasifikasi, penandaan dan penalaran semantik.
  • OS. Modul ini menyediakan cara portabel untuk menggunakan fungsionalitas yang bergantung pada sistem operasi, seperti manipulasi path file.

 

3. Membaca ketiga dataset dari Google Drive dan digabungkan menjadi satu dataframe.

 

4. Processing data.

Berikut adalah langkah-langkahnya:

1) Pertama adalah memisahkan kolom kalimat dan kelasnya.

2) Melakukan Case Folding dan Filtering. Case folding adalah mengubah semua huruf kapital menjadi huruf kecil pada kalimat. Filtering adalah menghapus data yang memiliki tanda baca, angka, double spasi, dan lainnya. Case Folding dan Filtering dilakukan di dalam for loop dan hasilnya akan ditampung ke variabel sentence_result

3) Setelahnya adalah menggabungkan data tersebut dengan class labelnya sehingga menjadi satu dataframe.

4) Terakhir adalah proses Stopwords Removal yang merupakan tahap untuk menghilangkan kata-kata tidak penting seperti "of", "and", "on", dan sejenisnya.

Informasi Course Terkait
  Kategori: Natural Language Processing
  Course: Basic Text Processing