Felix Ferdinand
Langkah-langkah untuk membersihkan data dengan menerapkan teknik-teknik Text Processing. Dataset yang digunakan adalah dataset Sentimen Labelled Sentences yang bisa didapatkan dari Kaggle. Hasil yang didapatkan adalah data teks yang tidak ada angka, tanda baca, huruf kapital, dan semacamnya.
Dataset Sentiment Labelled Sentences berisi kalimat yang dilabeli dengan sentimen positif atau negatif. Memiliki skor antara 1 (untuk positif) atau 0 (untuk negatif). Kalimat tersebut berasal dari tiga situs yang berbeda yaitu imdb.com, amazon.com, yelp.com. Untuk setiap situs web, terdapat 500 kalimat positif dan 500 kalimat negatif. Kalimat tersebut dipilih secara acak untuk mendapatkan kumpulan data ulasan yang lebih besar.
Dataset ini dapat diakses pada link berikut: https://www.kaggle.com/datasets/marklvl/sentiment-labelled-sentences-data-set
Berikut adalah langkah-langkah untuk melakukan proses membersikan dataset Sentiment Labelled Sentences:
1. Mounting ke Google Drive agar dataset bisa diakses.
2. Import library yang diperlukan dan download.
Library yang digunakan adalah:
3. Membaca ketiga dataset dari Google Drive dan digabungkan menjadi satu dataframe.
4. Processing data.
Berikut adalah langkah-langkahnya:
1) Pertama adalah memisahkan kolom kalimat dan kelasnya.
2) Melakukan Case Folding dan Filtering. Case folding adalah mengubah semua huruf kapital menjadi huruf kecil pada kalimat. Filtering adalah menghapus data yang memiliki tanda baca, angka, double spasi, dan lainnya. Case Folding dan Filtering dilakukan di dalam for loop dan hasilnya akan ditampung ke variabel sentence_result
3) Setelahnya adalah menggabungkan data tersebut dengan class labelnya sehingga menjadi satu dataframe.
4) Terakhir adalah proses Stopwords Removal yang merupakan tahap untuk menghilangkan kata-kata tidak penting seperti "of", "and", "on", dan sejenisnya.