Text Processing dan Text Mining

Daril Pratomo Sriramdanu

Sosial Media


0 orang menyukai ini
Suka

Summary

Seiring berjalannya waktu perkembangan teknologi sangat terlihat dengan jelas. Hal ini ditandai dengan Kemudahan manusia dalam menggunakan website mengakibatkan bertambahnya dokumen teks yang berupa pendapat dan informasi. Dalam waktu yang lama dokumen teks akan bertambah besar. Banyaknya dokumen teks berasal dari berbagai sumber seperti review, opini, berita, paper, buku, perpustakaan digital, pesan e-mail dan halaman web. Teknik yang berkembang untuk penggalian dokumen teks saat ini adalah text processing dan text mining.

Description

TEXT PROCESSING

I. Pengantar Text Processing

A. Definisi Text Processing: Text Processing adalah proses manipulasi dan pengolahan teks secara komputasional. Hal ini melibatkan serangkaian tahap untuk memperoleh dan memanipulasi data teks agar dapat diolah lebih lanjut.

B. Tujuan Text Processing:

  • Mengubah data teks menjadi bentuk yang lebih terstruktur untuk analisis lebih lanjut.
  • Meningkatkan kualitas data teks dengan menghilangkan informasi yang tidak relevan atau mengubahnya menjadi bentuk yang lebih standar.
  • Mempermudah pencarian, pemrosesan, dan pemahaman informasi yang terdapat dalam teks.

C. Proses Text Processing:

  1. Tokenisasi: Memecah teks menjadi unit-unit yang lebih kecil, disebut sebagai token, seperti kata, frasa, atau kalimat.
  2. Normalisasi: Melakukan pemrosesan untuk mengubah teks menjadi bentuk yang seragam atau standar, seperti mengubah huruf menjadi lowercase, menghapus tanda baca, atau memperbaiki kesalahan ejaan.
  3. Stopword Removal: Menghapus kata-kata umum yang tidak memberikan banyak informasi penting, seperti kata penghubung atau kata benda umum.
  4. Stemming dan Lemmatization: Mengubah kata-kata menjadi bentuk dasar atau kata dasar untuk mengurangi variasi morfologis.
  5. Pemisahan Kalimat: Memisahkan teks menjadi kalimat-kalimat terpisah.
  6. Pemisahan Frasa: Memisahkan teks menjadi frasa-frasa terpisah.

II. Teknik-teknik Text Processing

A. Tokenisasi:

  • Definisi Tokenisasi: Proses memecah teks menjadi token-token yang lebih kecil.
  • Contoh-contoh Tokenisasi: Misalnya, mengubah kalimat "Saya suka makan nasi goreng." menjadi token-token seperti ["Saya", "suka", "makan", "nasi", "goreng"].

B. Normalisasi:

  • Definisi Normalisasi: Proses mengubah teks menjadi bentuk yang seragam atau standar.
  • Metode Normalisasi: Termasuk di antaranya adalah lowercasing, penghapusan tanda baca, perbaikan ejaan, ekspansi singkatan, atau penanganan URL.

C. Stopword Removal:

  • Definisi Stopword Removal: Proses menghapus kata-kata umum yang tidak memberikan banyak informasi penting dalam teks.
  • Algoritma Stopword Removal: Menggunakan daftar kata-kata stopword, pendekatan berbasis aturan, atau pendekatan berbasis statistik dokumen.

D. Stemming dan Lemmatization:

  • Definisi Stemming dan Lemmatization: Proses mengubah kata-kata menjadi bentuk dasar atau kata dasar untuk mengurangi variasi morfologis.
  • Algoritma-algoritma Stemming: Termasuk di antaranya adalah Porter Stemmer, Snowball Stemmer, dan Lancaster Stemmer.
  • Algoritma-algoritma Lemmatization: Termasuk di antaranya adalah WordNet Lemmatizer dan Spacy Lemmatizer.

E. Pemisahan Kalimat:

  • Definisi Pemisahan Kalimat: Proses memisahkan teks menjadi kalimat-kalimat terpisah.
  • Metode Pemisahan Kalimat: Dapat dilakukan berdasarkan tanda baca atau berdasarkan statistik.

F. Pemisahan Frasa:

  • Definisi Pemisahan Frasa: Proses memisahkan teks menjadi frasa-frasa terpisah.
  • Metode Pemisahan Frasa: Dapat dilakukan menggunakan pendekatan berbasis aturan atau berbasis statistik dokumen.

III. Contoh Program Text Processing:

  • Tokenisasi menggunakan library NLTK (Natural Language Toolkit):
  • Normalisasi dengan lowercase menggunakan Python:
  • Stopword removal menggunakan library NLTK:
  • Stemming menggunakan library NLTK:

 

TEXT MINING

I. Pengantar Text Mining

A. Definisi Text Mining: Text Mining adalah proses mengekstraksi informasi yang berharga atau pengetahuan yang berguna dari data teks yang besar atau kompleks dengan menggunakan teknik dan algoritma komputasional.

B. Tujuan Text Mining:

  • Mengidentifikasi pola-pola dan hubungan dalam teks yang tidak terlihat secara langsung.
  • Menggali wawasan atau pengetahuan yang tersembunyi dalam teks.
  • Mendukung pengambilan keputusan yang lebih baik melalui analisis teks.

C. Proses Text Mining:

  1. Preprocessing: Tahap persiapan data teks sebelum diolah lebih lanjut, termasuk langkah-langkah seperti pembersihan data dan normalisasi.
  2. Representasi Dokumen: Mengubah teks menjadi representasi numerik agar dapat diolah oleh algoritma, seperti Bag-of-Words atau TF-IDF.
  3. Pemodelan dan Analisis: Menerapkan metode-metode seperti Clustering, Klasifikasi, Asosiasi, Ekstraksi Informasi, atau Sentimen Analysis untuk memahami dan menggali informasi dalam teks.
  4. Evaluasi dan Interpretasi: Mengevaluasi hasil dari analisis teks dan menginterpretasikan pola-pola atau pengetahuan yang ditemukan.

II. Teknik-teknik Text Mining

A. Preprocessing:

  • Tahap-tahap Preprocessing dalam Text Mining: Meliputi pembersihan data, tokenisasi, penghapusan stopwords, stemming atau lemmatization, dan seleksi fitur.

B. Representasi Dokumen:

  • Definisi Representasi Dokumen: Mengubah teks menjadi representasi numerik yang dapat diproses oleh algoritma.
  • Metode-metode Representasi Dokumen: Termasuk di antaranya adalah Bag-of-Words (BoW), Term Frequency-Inverse Document Frequency (TF-IDF), dan Word Embeddings (seperti Word2Vec dan GloVe).

C. Pemodelan dan Analisis:

  • Metode-metode Pemodelan dan Analisis dalam Text Mining: Termasuk di antaranya adalah Clustering, Klasifikasi, Asosiasi, Ekstraksi Informasi, dan Sentimen Analysis. Metode-metode ini digunakan untuk menggali wawasan dari data teks.

D. Evaluasi dan Interpretasi:

  • Metode-metode Evaluasi dan Interpretasi dalam Text Mining: Meliputi metode seperti Precision, Recall, F1-Score, Confusion Matrix, dan visualisasi data untuk memahami dan mengevaluasi hasil analisis teks.

III. Contoh Program Text Mining:

  • Clustering menggunakan library scikit-learn:
  • Klasifikasi menggunakan library scikit-learn:
  • Ekstraksi Informasi menggunakan library spaCy:
  • Sentimen Analysis menggunakan library TextBlob:

Informasi Course Terkait
  Kategori: Data Science / Big Data
  Course: Basic Text Processing