Text Processing in Natural Language Processing

Kamila Dinia Kartono

Sosial Media


0 orang menyukai ini
Suka

Summary

Text processing mengacu pada serangkaian teknik dan metode yang digunakan untuk memanipulasi dan mengolah teks menggunakan komputasi. Tujuannya adalah untuk menghasilkan informasi yang signifikan dari teks dan mengubahnya menjadi format yang dapat diproses oleh komputer. Proses text processing melibatkan beberapa tahapan umum, termasuk pengumpulan data, pra-pemrosesan, ekstraksi fitur, analisis, dan evaluasi. Namun, pendekatan dan langkah-langkah yang digunakan dapat bervariasi tergantung pada tujuan dan konteks pemrosesan teks. Dalam Pemrosesan Bahasa Alami (Natural Language Processing/NLP), text processing memiliki peran penting karena menyediakan teknik dan metode yang diperlukan untuk memproses teks secara komputasional. Berbagai algoritma dan metode NLP, seperti analisis sentimen, pemodelan bahasa, penerjemahan mesin, pengenalan entitas, dan pemahaman bahasa alami secara umum, bergantung pada text processing untuk mengolah teks menjadi format yang dapat dipahami dan diproses oleh komputer. 

Portofolio ini dibuat untuk memenuhi tugas Ujian Akhir Semester (UAS) Genap TA. 2022/2023 dalam mata kuliah Temu Kembali Informasi.

Description

Text processing melibatkan rangkaian metode dan teknik untuk memanipulasi serta mengolah teks menggunakan komputasi. Tujuan utamanya adalah untuk mendapatkan informasi yang signifikan dari teks tersebut dan mengubahnya menjadi format yang dapat diproses oleh komputer.

Dalam melakukan text processing, terdapat beberapa tahapan yang dapat dilakukan:

  • Gather, yaitu pengumpulan data, dilakukan identifikasi terhadap sumber-sumber data teks yang relevan, dan kemudian data tersebut dikumpulkan. Tujuannya adalah untuk memperoleh data teks yang diperlukan untuk analisis atau tugas yang akan dilakukan. Sumber data teks dapat berupa dokumen atau situs web, dan data yang terkumpul kemudian disimpan dalam format yang sesuai. Kualitas pengumpulan data menjadi sangat penting karena berpengaruh langsung terhadap hasil akhir dari proses text processing.

 

  • Preprocess, Pra-pemrosesan (preprocessing) merupakan tahap penting dalam pemrosesan teks yang memiliki tujuan untuk membersihkan, mengubah struktur, dan menyiapkan teks agar siap untuk analisis yang lebih mendalam. Berikut ini beberapa langkah umum yang terkait dengan tahap pra-pemrosesan dalam pemrosesan teks:
    • Case Folding, merupakan tahap normalisasi dalam pra-pemrosesan teks melibatkan pengubahan semua huruf dalam teks menjadi huruf kecil (lowercase) atau huruf besar (uppercase). Hal ini dilakukan untuk mempertahankan konsistensi dan mencegah perbedaan yang tidak perlu berdasarkan gaya penulisan huruf.
    • Removing, merupakan tahap removing melibatkan penghapusan elemen-elemen yang tidak relevan atau mengganggu dalam teks. Pada tahap pra-pemrosesan teks, terdapat beberapa langkah yang umumnya dilakukan untuk membantu dalam mempersiapkan teks untuk analisis lebih lanjut dengan menghilangkan elemen yang tidak relevan atau mengganggu, antara lain:
      1. Penghapusan karakter numerik: Angka atau karakter numerik yang terdapat dalam teks seringkali tidak relevan dalam analisis teks tertentu. Oleh karena itu, menghapus angka dapat membantu menyederhanakan teks dan memfokuskan perhatian pada informasi yang lebih penting.
      2. Penghapusan tanda baca: Tanda baca seperti titik, koma, tanda tanya, dan tanda seru sering kali dihapus karena tidak memberikan kontribusi yang signifikan terhadap pemahaman isi teks.
      3. Penghapusan karakter khusus: Karakter khusus seperti simbol matematika, emotikon, tanda hubung ganda, atau karakter yang jarang digunakan dapat dihapus untuk menjaga kebersihan dan keseragaman teks.
      4. Penghapusan whitespace: Penghilangan whitespace melibatkan penghapusan spasi, tab, atau karakter baris baru yang tidak diperlukan dalam teks. Tujuannya adalah untuk memastikan teks lebih bersih dan terstruktur saat diproses dan dianalisis lebih lanjut.
      5. Penghapusan URL/tautan: Apabila teks mengandung URL atau tautan web, sering kali diinginkan untuk menghapusnya karena tidak memberikan informasi yang langsung terkait dengan teks itu sendiri.
      6. Penghapusan tag HTML: Jika teks berasal dari sumber HTML, langkah pembersihan dapat mencakup penghapusan tag HTML serta ekstraksi teks asli.
    • Filtering (Stopword Removal), dalam tahap ini dilakukan penghapusan kata-kata umum yang sering muncul dalam teks, yang dikenal sebagai stop words. Stop words seperti "dan", "atau", "juga", "dari", dan sejenisnya umumnya tidak memberikan informasi yang penting dalam analisis teks. Oleh karena itu, kata-kata tersebut dihapus agar proses pemrosesan menjadi lebih cepat dan informasi yang diekstraksi menjadi lebih relevan. Melalui tahap filtering ini, kata-kata yang tidak memberikan kontribusi penting dalam pemahaman teks dapat dihilangkan, sehingga meningkatkan efisiensi pemrosesan dan relevansi informasi yang diperoleh. Dalam proses filtering, terdapat dua metode yang dapat digunakan:
      1. Stoplist: Stoplist adalah daftar kata-kata yang dianggap umum dan tidak memberikan kontribusi signifikan dalam analisis teks. Daftar ini berisi kata-kata yang sering digunakan dalam bahasa yang sedang diproses dan cenderung tidak memiliki makna khusus. Contoh kata-kata dalam stoplist untuk bahasa Indonesia termasuk "dan", "atau", "juga", "dari", "di", "adalah", dan lain sebagainya. Ketika dilakukan penghapusan stop words, kata-kata yang terdapat dalam stoplist diidentifikasi dan dihapus dari teks karena dianggap tidak memberikan informasi yang penting.
      2. Wordlist: Wordlist adalah daftar kata-kata yang diizinkan atau diinginkan dalam analisis teks. Wordlist berfungsi sebagai kebalikan dari stoplist, di mana hanya kata-kata yang tercantum dalam wordlist yang akan tetap ada atau dipertahankan dalam teks. Wordlist dapat disesuaikan sesuai dengan kebutuhan analisis dan konteks teks yang sedang diproses, serta digunakan untuk menekankan kata-kata kunci atau kata-kata tertentu yang relevan dengan tujuan analisis.
    • Tokenizing, proses membagi teks menjadi unit-unit yang lebih kecil yang disebut token. Token dapat berupa kata, frasa, atau simbol individu. Pada tahap ini, teks dipecah menjadi token-token yang akan digunakan sebagai unit-unit dasar dalam analisis lebih lanjut.
    • Stemming/Lemmatization, tahap yang melibatkan pengolahan kata-kata dalam teks dengan tujuan mengubahnya menjadi bentuk dasar atau kata-kata yang lebih terstandarisasi. Stemming melibatkan penghapusan akhiran kata untuk mendapatkan bentuk dasar, sementara lemmatization melibatkan penggunaan kamus atau aturan bahasa untuk mengubah kata-kata menjadi kata dasar yang sesuai. Contohnya, kata-kata seperti "bertemu", "bertemuan", dan "bertemulah" dapat diubah menjadi bentuk dasar "temu" melalui proses stemming atau lemmatization.

 

  • Feature Extraction, merupakan proses mengubah teks menjadi representasi numerik yang dapat digunakan oleh algoritma machine learning. Berikut ini beberapa contoh metode yang umum digunakan dalam ekstraksi fitur:
    • Term Frequency (TF) : Metode term frequency melibatkan perhitungan jumlah kemunculan kata-kata dalam teks. Setiap kata dijadikan sebagai fitur, dan nilai fitur tersebut adalah frekuensi kemunculan kata tersebut. Sebagai contoh, dalam kalimat "Saya suka bihun dan mie", kata "suka" memiliki term frequency 1, sementara kata "bihun" dan "mie" juga memiliki term frequency 1.
    • Inverse document frequency (IDF) : Inverse document frequency (IDF) digunakan untuk mengevaluasi seberapa umum atau jarang suatu kata muncul dalam keseluruhan teks yang ada. Kata-kata yang jarang muncul dalam korpus secara keseluruhan akan memiliki bobot IDF yang lebih tinggi, karena dianggap memiliki nilai informasi yang lebih tinggi.
    • TF-IDF (Term Frequency-Inverse Document Frequency) : Metode TF-IDF memberikan nilai bobot pada kata-kata berdasarkan frekuensi kemunculan kata tersebut dalam teks spesifik dan inversi frekuensi kemunculan kata tersebut dalam seluruh teks. Hal ini membantu dalam mengidentifikasi kata-kata yang unik dan penting dalam teks. Bobot TF-IDF menggabungkan frekuensi term (TF) dengan inversi frekuensi dokumen (IDF). Kata-kata yang muncul lebih sering dalam teks tertentu tetapi jarang muncul dalam seluruh teks akan memiliki bobot yang lebih tinggi. Sebagai contoh, jika kata "mie" muncul beberapa kali dalam suatu teks, kata tersebut akan mendapatkan bobot yang lebih tinggi jika kata "mie" jarang muncul dalam teks secara keseluruhan.
    • Word Embeddings : Word embeddings adalah representasi vektor yang memetakan kata-kata ke dalam ruang multidimensional, dengan memperhatikan konteks di sekitarnya. Metode seperti Word2Vec, GloVe, atau FastText digunakan untuk menghasilkan vektor representasi yang mencerminkan makna kata-kata berdasarkan konteksnya. Dengan menggunakan word embeddings, kita dapat melakukan pemetaan makna dan hubungan antara kata-kata dalam teks ke dalam bentuk vektor.

 

  • Classification, merupakan proses pengelompokan atau pemberian label pada teks berdasarkan kategori atau kelas yang telah ditentukan sebelumnya. Algoritma klasifikasi seperti Naive Bayes, Support Vector Machines (SVM), atau algoritma berbasis jaringan saraf (neural networks) dapat digunakan untuk membangun model klasifikasi yang dapat memprediksi kategori atau kelas dari teks baru berdasarkan pola yang ditemukan dalam data pelatihan.

 

  • Analysis (Analisis), merupakan pemahaman, pemrosesan, dan ekstraksi informasi dari teks dengan tujuan mengidentifikasi pola, tren, dan wawasan yang terkandung di dalamnya. Metode analisis teks meliputi analisis sentimen, pengelompokan topik (topic clustering), analisis asosiasi, dan ekstraksi entitas. Tujuan utama dari analisis teks adalah untuk menggali informasi berharga dan mendapatkan pemahaman yang lebih mendalam tentang teks yang sedang dianalisis.

 

  • Evaluasi dan Optimasi, merupakan proses untuk mengukur kinerja model atau sistem yang telah dibangun dalam tahap pengolahan teks. Evaluasi dilakukan dengan menggunakan metrik seperti akurasi, presisi, recall, F1-score, atau metrik lain yang relevan terhadap tujuan dan konteks analisis. Evaluasi membantu dalam mengevaluasi sejauh mana model atau sistem yang dikembangkan dapat memberikan hasil yang akurat dan dapat diandalkan dalam tugas analisis teks yang diberikan. Sementara itu, optimasi dalam pemrosesan teks merupakan upaya untuk meningkatkan kinerja model atau sistem dalam pengolahan teks dengan melakukan penyesuaian dan perbaikan. Hal ini dapat melibatkan penyesuaian parameter pada algoritma yang digunakan, pemilihan fitur yang lebih relevan, penerapan teknik regularisasi, atau penggunaan teknik ensemble learning. Tujuannya adalah untuk meningkatkan performa dan efisiensi dalam pemrosesan teks, sehingga menghasilkan hasil yang lebih baik dalam analisis dan tugas yang diberikan.

Informasi Course Terkait
  Kategori: Artificial Intelligence
  Course: Basic Text Processing