Foto User
Teks Processing

RAHMAT AMIN BADALI

Sosial Media


0 orang menyukai ini
Suka

Summary

Summary

Teks preprocessing adalah suatu proses untuk menyeleksi data text agar menjadi lebih terstruktur lagi dengan melalui serangkaian tahapan yang meliputi tahapan case folding, tokenizing, filtering dan stemming. Tapi, sesungguhnya tidak ada aturan pasti tentang setiap tahapan dalam text preprocessing. Semua itu tergantung dengan jenis serta kondisi data yang kita miliki. Text preprocessing merupakan salah satu implementasi dari text mining. Text mining sendiri adalah suatu kegiatan menambang data, dimana data yang biasanya diambil berupa text yang bersumber dari dokumen-dokumen yang memiliki goals untuk mencari kata kunci yang mewakili dari sekumpulan dokumen tersebut sehingga nantinya dapat dilakukan analisa hubungan antara dokumen-dokumen tersebut.

Description

Description

1. Import library yang akan digunakan

 

2. Load dataset yang akan dilakukan teks processing. Pada percobaan kali ini dataset yang digunakan adalah dataset yang berisikan reviews dan scores dari produk cell phone dan accesories yang terjualan di amazon.com. 

 

 

 

3. Langung ke tahap preprocessingnya, Text Preprocessing mempersiapkan teks yang tidak terstruktur menjadi data yang baik dan siap untuk diolah. Untuk tahap processing data teks yang pertama adalah case folding dengan tujuan untuk mengkonfersi teks ke dalam bentuk huruf kecil atau lower case agar data menjadi seragam. 

 

4. Tahap berikutnya adalah removing beberapa tanda baca, karakter, angka dan spasi. 

 

5. Tahap berikutnya adalah stopword removal dengan tujuan untuk memilih kata kata yang dianggap penting. Stop list akan menyiapkan kumpulan kata yang tidak penting sedangkan wordlist akan menyiapkan kumpulan kata yang dianggap penting. 

 

6. Berikutnya sebelum dilakukan stemming, data teks terlebih dahulu dilakukan pemotongan teks menjadi beberapa bagian yang lebih kecil (token) yang disebut dengan proses tokenization. 

 

7. Proses berikutnya yang terakhir adalah stemming yaitu mengubah kata menjadi bentuk kata dasar tanpa imbuhan. Algoritma yang digunakan pada percobaan kali ini adalah porter stemmer dengan library NLTK. Data yang sudah bersih kemudian di simpan ke dalam file .csv dan siap digunakan. 

 

 

Informasi Course Terkait
  Kategori: Natural Language Processing
  Course: Basic Text Processing