Pra-pemrosesan Dataset Sentimen IMDb

Muhammad Ghariza Pranaya Asari

Sosial Media


0 orang menyukai ini
Suka

Summary

Kode ini merupakan implementasi dari pra-pemrosesan teks pada dataset sentimen IMDb menggunakan library Pandas dan NLTK (Natural Language Toolkit) dalam bahasa pemrograman Python. Kode ini membaca dataset dari file CSV, menghapus tanda baca dan stopwords, serta melakukan tokenisasi dan penyimpanan hasil pemrosesan ke dalam file CSV baru. Tujuan dari kode ini adalah untuk membersihkan dan mempersiapkan dataset sentimen IMDb sehingga dapat digunakan untuk analisis lebih lanjut.

Description

Dataset :

Import library yg digunakan :

Mendefinisikan variabel dataset_file dengan nilai string yang merupakan path file CSV dataset :

Menghapus tanda baca dan menggantinya dengan spasi kosong :

'string.punctuation' adalah string bawaan di Python yang berisi semua karakter tanda baca.

‘re.escape()’ digunakan untuk memastikan bahwa karakter tanda baca di-escape dengan benar dalam regex.

Menentukan stopwords :

Mengunduh corpus stopwords dari NLTK (Natural Language Toolkit) yang berisi daftar kata-kata umum yang sering dianggap tidak berarti dalam pemrosesan teks.

Mendefinisikan fungsi ‘preprocess_text’ yang akan digunakan untuk memproses teks kemudian memeriksa apakah argumen ‘text’ adalah string. Kode lalu akan Menghapus angka "1" atau "0" yang berdiri sendiri dalam kata dengan spasi kosong. Misalnya, "1" dalam "I give it a 1." akan dihapus dan Menghapus ",0,,,,," atau ",1,,,,," dengan spasi kosong. Misalnya, ",0,,,,," dalam "This movie is great,0,,,,, but the ending is disappointing." akan dihapus.

'tokens = word_tokenize(text)' Memecah teks menjadi token-token kata menggunakan fungsi word_tokenize() dari NLTK.

Selanjutnya kode akan Melakukan filter terhadap setiap token kata dalam teks dan menghapus token yang ada dalam stop_words atau merupakan tanda baca.

Kode kemudian akan menggabungkan kembali token-token kata yang tersisa menjadi sebuah string dengan menggunakan spasi sebagai pemisah antar token.

Selanjutnya kode akan mengembalikan teks yang telah diproses dan mengembalikan argumen text asli jika argumen bukan merupakan string

Membaca dataset dari file CSV dan menyimpan data pre proses ke file CSV baru :

 

Dataset dibaca dari file CSV menggunakan perintah ‘pd.read_csv(dataset_file)’. Kemudian, nilai-nilai yang hilang (NaN) dalam dataset diisi dengan string kosong menggunakan fillna('').

Selanjutnya, dilakukan pra-pemrosesan pada setiap kolom di dalam dataframe menggunakan ‘loop for column in dataset_files.columns’. Untuk setiap kolom, fungsi ‘preprocess_text’ diterapkan pada setiap nilai di kolom tersebut. Pra-pemrosesan ini dapat mencakup langkah-langkah seperti menghapus karakter yang tidak diinginkan, mengubah huruf menjadi lowercase, atau melakukan penghapusan stop word.

Setelah pra-pemrosesan selesai, dataset yang sudah diproses disimpan ke dalam file CSV baru menggunakan ‘dataset_files.to_csv(output_file, index=False)’. Parameter ‘index=False’ digunakan untuk menghindari penambahan kolom indeks dalam file CSV.

Selanjutnya, pesan "Datasets preprocessed and saved to: [nama_file_output]" akan dicetak untuk memberikan informasi bahwa dataset sudah diproses dan disimpan di lokasi yang ditentukan.

Output :

Informasi Course Terkait
  Kategori: Data Science / Big Data
  Course: Basic Text Processing