Portofolio Detail >> Teks Processing

Teks Processing

RAHMAT AMIN BADALI

Sosial Media

0 orang menyukai ini
Suka

Summary

Summary

Teks preprocessing adalah suatu proses untuk menyeleksi data text agar menjadi lebih terstruktur lagi dengan melalui serangkaian tahapan yang meliputi tahapan case folding, tokenizing, filtering dan stemming. Tapi, sesungguhnya tidak ada aturan pasti tentang setiap tahapan dalam text preprocessing. Semua itu tergantung dengan jenis serta kondisi data yang kita miliki. Text preprocessing merupakan salah satu implementasi dari text mining. Text mining sendiri adalah suatu kegiatan menambang data, dimana data yang biasanya diambil berupa text yang bersumber dari dokumen-dokumen yang memiliki goals untuk mencari kata kunci yang mewakili dari sekumpulan dokumen tersebut sehingga nantinya dapat dilakukan analisa hubungan antara dokumen-dokumen tersebut.

Description

Description

1. Import library yang akan digunakan

2. Load dataset yang akan dilakukan teks processing. Pada percobaan kali ini dataset yang digunakan adalah dataset yang berisikan reviews dan scores dari produk cell phone dan accesories yang terjualan di amazon.com.

3. Langung ke tahap preprocessingnya, Text Preprocessing mempersiapkan teks yang tidak terstruktur menjadi data yang baik dan siap untuk diolah. Untuk tahap processing data teks yang pertama adalah case folding dengan tujuan untuk mengkonfersi teks ke dalam bentuk huruf kecil atau lower case agar data menjadi seragam.

4. Tahap berikutnya adalah removing beberapa tanda baca, karakter, angka dan spasi.

5. Tahap berikutnya adalah stopword removal dengan tujuan untuk memilih kata kata yang dianggap penting. Stop list akan menyiapkan kumpulan kata yang tidak penting sedangkan wordlist akan menyiapkan kumpulan kata yang dianggap penting.

6. Berikutnya sebelum dilakukan stemming, data teks terlebih dahulu dilakukan pemotongan teks menjadi beberapa bagian yang lebih kecil (token) yang disebut dengan proses tokenization.

7. Proses berikutnya yang terakhir adalah stemming yaitu mengubah kata menjadi bentuk kata dasar tanpa imbuhan. Algoritma yang digunakan pada percobaan kali ini adalah porter stemmer dengan library NLTK. Data yang sudah bersih kemudian di simpan ke dalam file .csv dan siap digunakan.

Informasi Course Terkait

Kategori: Natural Language Processing
Course: Basic Text Processing

Kelas GRATIS

Master Class

Learning Path

Master Class + Sertifikasi BNSP

Master Class + Sertifikasi Internasional

Portofolio Peserta

Webinar

Udemy

Kelas GRATIS

Master Class

Master Class + Sertifikasi BNSP

Master Class + Sertifikasi Internasional

Learning Path

Portofolio Peserta

Program Special

Webinar

Udemy

Learncation

Sertifikasi Internasional

Sertifikasi Nasional

Kelas Corporate

Sertifikasi Internasional

Sertifikasi Nasional

Kelas Corporate

Kolaborasi Seminar

Kolaborasi pelatihan

Gallery

Tentang Kami

Testimonial Peserta

Testimonial Video Peserta

Corporate Social Responsibility

Pengajar Kami

Hubungi Kami

Dokter Mekanik

E-learning

LEIP

Flungo

Tampil

Run Addicts

TripTracker

Gramatikal