Summary Mata Kuliah Temu Kembali Informasi

Nicholas Rayden

Sosial Media


0 orang menyukai ini
Suka

Summary

Mata Kuliah temu kembali informasi (information retrieval) adalah mata kuliah peminatan di Universitas Pembangunan Nasional “Veteran” Jakarta. Mata kuliah ini secara garis besar membahas tentang pengolahan data seperti feature extraction speech, speech classification, deep neural network, text processing, dan lain sebagainya.

Description

Deep Neural Network

Deep Neural Network (DNN) adalah salah satu teknologi dalam bidang deep learning yang memungkinkan mesin untuk belajar dan membuat keputusan secara otomatis dari data yang diberikan. DNN terdiri dari beberapa lapisan neuron yang saling terhubung dan dapat mempelajari representasi data yang semakin kompleks, sehingga dapat menghasilkan prediksi yang lebih akurat.

DNN memiliki arsitektur yang berupa sekumpulan neuran yang teroganisir dalam lapisan-lapisan layer yang terbagi menjadi 3 bagian, yaitu:

  • Input Layer : Lapisan yang membawa data masuk ke dalam system untuk kemudian diproses pada layer selanjutnya.
  • Hidden Layer : Lapisan antara input layer dan output layer, dimana artificial neuron yang memiliki sekumpulan input pembobot ‘weight’ dan prosedur untuk menghasilkan output neuron melalui activation function.
  • Output Layer : Lapisan akhir dari neuron yang menghasilkan output system.

Dari layer-layer tersebut terdapat perhitungan di dalamnya. Langkah-langkah perhitungan terdiri dari:

  1. Deep Neural Network akan menyatakan Yp = Yi yang diindikasikan untuk memaksa nilai Yi mendekati atau menyamakan nilai dengan nilai Yp. nilai Yp dan nilai Yi dapat didefinisikan dalam bentuk scalar, vector, matriks, dan tensor.
  2. Kemudian data pada dataset akan diambil dan terdistribusi menuju hidden layer yang di mana jumlah hidden layer sangat beragam. Langkah ini dapat dinyatakan sebagai variabel Wij. Sedangkan, data pada hidden layer akan didefinisikan sebagai variabel Uij. hidden layer dapat dihitung dengan rumus   untuk menghitung jumlah hidden layer dan untuk menghitung nilai Yp.
  3. Melakukan activation functions yang didefinisikan dengan f(x) = {relu, sigmoid, tanh}. Fungsi relu akan mengambil pendekatan nilai jika x lebih besar dari 0 maka relu bernilai x sedangkan jika x lebih kecil dari 0 maka relu bernilai 0 . Fungsi sigmoid akan mengambil pendekatan nilai input berupa x dengan rumus:  . Fungsi Tanh akan mengambil pendekatan nilai input berupa x dengan perhitungan nilai tangen.
  4. Setelah melakukan activation functions, maka dilanjutkan dengan menentukan nilai MSE yang biasa bernilai konvergen dan dapat  dirumuskan dengan:
  5. Kemudian terjadi penentuan nilai W baru dan U baru dengan W dan U adalah nilai selisih dari impact data.

 

Exploration Data Analysis

EDA atau Exploration Data Analysis adalah suatu metode dalam analisis data yang bertujuan untuk memahami karakteristik dan pola yang ada dalam dataset secara visual maupun deskriptif. Tujuan dari EDA adalah untuk menganalisis informasi penting dalam data, mengidentifikasi hubungan antara variabel, serta mendeteksi anomali atau pencilan (outlier) yang mungkin ada dalam dataset. EDA juga membantu dalam memahami distribusi data, mengeksplorasi korelasi antara variabel, dan menemukan pola menarik yang dapat memberikan wawasan atau intuisi awal tentang data.

Metode yang digunakan dalam EDA antara lain meliputi visualisasi data menggunakan grafik, diagram, dan plot seperti histogram, scatter plot, box plot, dan sebagainya. Selain itu, EDA juga melibatkan perhitungan statistik deskriptif seperti rata-rata, median, simpangan baku, korelasi, dan persentil untuk memberikan pemahaman yang lebih mendalam tentang dataset.

Summary statistic dari EDA terdiri dari:

  • Mean (Rata-rata) :
  • Mode (Modus) : Nilai X yang paling sering muncul
  • Median : Nilai tengah data (Xn/2)
  • Variance (Varian) :
  • Standard Deviasi :

 

Data Normalisasi

Data normalisasi adalah proses untuk mengubah skala atau rentang nilai variabel dalam dataset ke rentang yang lebih standar atau normal. Tujuan dari normalisasi adalah untuk memastikan bahwa variabel-variabel dalam dataset memiliki skala yang serupa, sehingga memudahkan perbandingan dan analisis antara variabel tersebut.

Data normalisasi sendiri memiliki hubungan yang erat dengan EDA. Normalisasi membantu menyederhanakan visualisasi data dengan mengubah variabel-variabel dengan skala yang berbeda menjadi skala yang serupa, sehingga mempermudah pembacaan dan pemahaman visualisasi. Selain itu, normalisasi juga memfasilitasi perbandingan antara variabel-variabel dengan skala yang berbeda, memungkinkan analisis hubungan yang lebih langsung. Dengan normalisasi, interpretasi hasil EDA juga ditingkatkan karena variabel yang diubah ke skala yang serupa memperjelas pola dan hubungan yang ada dalam data. Dalam EDA, normalisasi berperan penting dalam mengoptimalkan visualisasi, memudahkan perbandingan yang akurat, dan memperkuat interpretasi analisis data.

Terdapat beberapa metode yang digunakan untuk melakukan normalisasi data:

  • Min-Max Scaling: Metode ini mengubah skala variabel menjadi rentang yang ditentukan, seringkali antara 0 dan 1. Metode ini menjaga proporsi relatif antara nilai asli, tetapi mengubah rentang skala.
  • Simple Feature Scaling: Metode ini mengubah skala variabel dengan membaginya dengan nilai maksimum variabel. Metode ini mengubah skala variabel menjadi rentang antara 0 dan 1 dengan mempertahankan proporsi relatif antara nilai asli.
  • Z-Score (Standardization): Metode ini mengubah skala variabel menjadi distribusi standar dengan rata-rata 0 dan simpangan baku 1. Metode ini mempertahankan nilai distribusi data asli dan mengubahnya menjadi distribusi standar.

 

Korelasi

Korelasi adalah salah satu konsep penting dalam Exploratory Data Analysis (EDA). Dalam konteks EDA, korelasi mengacu pada hubungan statistik antara dua atau lebih variabel dalam dataset. Korelasi mengukur sejauh mana perubahan dalam satu variabel terkait dengan perubahan dalam variabel lainnya. Korelasi juga dapat memberikan informasi tentang kekuatan dan arah hubungan antara variabel, apakah hubungannya kuat atau lemah.

Korelasi dapat membantu dalam memahami hubungan antara variabel-variabel tersebut, apakah hubungannya positif (ketika nilai satu variabel naik, nilai variabel lainnya juga naik) atau negatif (ketika nilai satu variabel naik, nilai variabel lainnya turun). Korelasi dengan nilai positif 1 berarti korelasi yang diperoleh adalah Perfect Positive Correlation. Sedangkan, korelasi dengan nilai negatif 1 berarti korelasi yang diperoleh adalah Perfect Negative Correlation. Tetapi jika korelasi yang diperoleh bernilai 0, maka pada variabel yang dibandingkan tidak terdapat korelasi sama sekali. 

Untuk mengukur korelasi antara dua variabel numerik, salah satu metode yang umum digunakan adalah koefisien korelasi Pearson. terdapat langkah-langkah untuk melakukan Pearson Correlation:

  1. mencari rata-rata dari data pada variable x dan rata-rata dari data pada variabel y.
  2. Nyatakan variabel x sebagai variabel a dan variabel y sebagai variabel b.
  3. Lakukan kalkulasi pada variabel a dan b dengan mencari hubungan antara kedua variable dengan mencari nilai ab, a^(2), dan b^(2).
  4. Lakukan akumulasi pada nilai ab, a^(2), dan b^(2).
  5. Lakukan perhitungan korelasi dengan menggunakan rumus:  

 

Speech Processing dan Music Information Retrieval

Speech Processing adalah suatu bidang yang berfokus pada pemrosesan dan analisis sinyal suara manusia. Tujuan utama dari Speech Processing adalah mengubah sinyal suara menjadi informasi yang dapat dipahami atau diinterpretasikan oleh mesin. Bidang ini mencakup beberapa tugas seperti pengenalan suara (speech recognition), sintesis suara (speech synthesis), pemahaman bahasa alami (natural language understanding), dan lain-lain. Pengolahan suara dapat melibatkan tahap pemrosesan awal seperti pembersihan dan normalisasi sinyal suara, serta tahap ekstraksi fitur seperti pengenalan pola suara, identifikasi pembicara, ekstraksi emosi dari suara, dan pemodelan linguistik. Metode yang umum digunakan dalam Speech Processing meliputi teknik pengolahan digital, pembelajaran mesin, pengolahan bahasa alami, dan pengolahan sinyal suara.

Music Information Retrieval (MIR) adalah suatu bidang pemrosesan, analisis, dan pengambilan informasi dari data musik. Tujuannya adalah untuk mengembangkan algoritma dan teknik yang dapat mengidentifikasi, mengklasifikasikan, dan mengekstrak informasi penting dari data musik. Dalam Music Information Retrieval, beberapa tugas utama meliputi pengenalan musik (music recognition), pemodelan genre musik, pemilihan dan rekomendasi musik, analisis melodi dan ritme, identifikasi instrumen musik, dan banyak lagi. Metode yang digunakan dalam MIR mencakup teknik pengolahan sinyal, analisis spektral, pembelajaran mesin, pengenalan pola, dan statistik.

 

Contoh Speech Processing dan Music Information Retrieval pada Dataset Speech Classification:

Melakukan koneksi google colaboratory dengan drive

 

Melakukan import library python yang diperlukan

 

Melakukan deklarasi variabel spektogram dan labels untuk menyimpan data dari folder 'OAF_Sad', 'OAF_happy', dan 'OAF_angry'

 

Melakukan iterasi melalui daftar folder, membaca file audio dalam format .wav, mengubahnya menjadi spektogram, dan menyimpan spektogram serta label folder dalam sebuah dataframe.

 

Menghitung jumlah instansi untuk setiap label dalam dataframe, kemudian membuat diagram batang yang menampilkan distribusi label

 

Melakukan pemuatan dan memvisualisasikan data audio dari file "OAF_cool_sad.wav" dengan menggunakan beberapa representasi seperti waveform, spektrogram, dan chromagram

 

Menggunakan fungsi ipd.Audio() untuk memutar audio yang telah dimuat (sad) dengan tingkat sampel (fs_sad)

 

Menampilkan rentang data audio, menghitung tingkat lintasan nol (zero crossing rate) dari audio, dan memvisualisasikan perubahan tingkat lintasan nol dari waktu ke waktu

 

Menghitung energi root-mean-square (RMSE) dari audio sad dengan menggunakan frame sepanjang frame_length

 

Menghitung centroid spektral dari audio sad menggunakan fungsi librosa.feature.spectral_centroid(). Kemudian, nilai centroid spektral tersebut divisualisasikan dalam bentuk plot dengan skala logarithmic

 

Menghitung koefisien cepstral frekuensi Mel (MFCC) dari audio sad menggunakan fungsi librosa.feature.mfcc(). Setelah itu, koefisien MFCC tersebut diubah skala menggunakan sklearn.preprocessing.scale() pada sumbu yang sesuai. Kemudian, hasil MFCC divisualisasikan dalam bentuk spektrogram menggunakan librosa.display.specshow(), dengan sumbu x sebagai waktu.

 

Text Mining dan Text Processing

Text processing adalah proses manipulasi dan analisis teks menggunakan komputer untuk memperoleh tujuan tertentu. Text processing sendiri terdiri dari beberapa tahap yaitu tokenisasi, Stopword removal, Stemming dan Lemmatization, Part-of-Speech Tagging, Natural Language Processing, Pattern Matching, serta Klasifikasi dan Pemodelan.

 

Tokenisasi

Tokenisasi dalam pemrosesan teks adalah proses membagi teks menjadi unit-unit yang lebih kecil yang disebut "token." Token tersebut bisa berupa kata, frasa, atau entitas lainnya seperti simbol atau karakter khusus. Tokenisasi merupakan tahap awal yang penting dalam banyak tugas pemrosesan bahasa alami (Natural Language Processing/NLP).

Tujuan utama tokenisasi adalah mengubah teks menjadi bentuk yang lebih terstruktur dan dapat diolah oleh komputer. Tokenisasi diperlukan untuk:

  1. Pembagian kata: Tokenisasi membagi teks menjadi kata-kata terpisah. Ini membantu dalam analisis kata-kata individu, pemahaman konteks, dan memungkinkan aplikasi NLP untuk melakukan operasi seperti pencarian kata kunci, ekstraksi informasi, atau analisis sentimen.
  2. Penghilangan karakter khusus: Tokenisasi juga dapat membantu menghilangkan karakter khusus seperti tanda baca, tanda baca ganda, spasi ganda, dan karakter non-alfanumerik lainnya. Hal ini membantu membersihkan teks dan mempersiapkannya untuk tahap pemrosesan selanjutnya.
  3. Pemisahan frasa: Dalam beberapa kasus, penting untuk memisahkan frasa dalam teks menjadi token-token terpisah. Misalnya, ketika menganalisis teks berbahasa Inggris, kata kerja terkait seperti "tidak" dan "tidak bisa" sering dipisahkan menjadi token tersendiri. Ini membantu dalam pemahaman yang lebih baik tentang arti kalimat dan memberikan dukungan untuk tugas seperti analisis sintaksis.
  4. Tokenisasi khusus untuk entitas: Dalam beberapa kasus, tokenisasi dapat digunakan untuk mengidentifikasi dan memperlakukan entitas khusus seperti tanggal, waktu, tempat, dan nama orang sebagai token yang berbeda. Ini memungkinkan analisis lebih lanjut pada entitas-entitas ini.

Dalam praktiknya, ada beberapa pendekatan yang berbeda untuk tokenisasi, termasuk tokenisasi berbasis aturan (rule-based) dan tokenisasi berbasis mesin pembelajaran (machine learning). Pendekatan berbasis aturan menggunakan aturan pemisahan yang telah ditentukan sebelumnya, sementara pendekatan berbasis mesin pembelajaran menggunakan model statistik atau algoritme pembelajaran mesin untuk mempelajari pola pemisahan dari data pelatihan.

 

Stopword Removal

Stopword removal atau penghapusan stopwords adalah proses dalam pemrosesan teks yang melibatkan penghapusan kata-kata umum yang memiliki sedikit kontribusi terhadap makna dan pemahaman teks. Kata-kata ini biasanya adalah kata fungsi seperti "dan," "atau," "saya," "kamu," dan sebagainya. Penghapusan stopwords dapat membantu mengurangi dimensi data, meningkatkan efisiensi pemrosesan, dan meningkatkan kualitas analisis teks. Berikut adalah penjelasan lebih terperinci mengenai penghapusan stopwords:

Penghapusan stopwords memiliki beberapa manfaat dalam pemrosesan teks:

  1. Mengurangi dimensi data: Dalam banyak kasus, jumlah kata dalam teks bisa sangat besar dan banyak di antaranya adalah stopwords. Dengan menghapus stopwords, kita dapat mengurangi jumlah fitur (kata-kata) yang tidak relevan dan menghasilkan representasi teks yang lebih padat.
  2. Meningkatkan efisiensi: Dengan menghapus stopwords, kita dapat mengurangi jumlah kata yang harus diproses dalam tahap pemrosesan teks selanjutnya seperti analisis kata kunci, ekstraksi informasi, atau klasifikasi. Ini menghasilkan waktu eksekusi yang lebih cepat dan pemrosesan yang lebih efisien.
  3. Meningkatkan kualitas analisis: Stopwords sering kali tidak memberikan informasi penting dalam analisis teks dan bisa mengganggu hasil analisis yang akurat. Dengan menghapus stopwords, fokus analisis dapat ditempatkan pada kata-kata yang lebih informatif dan signifikan dalam teks.

Dalam text processing sendiri, terdapat beberapa pendekatan yang digunakan untuk mengidentifikasi stopword:

  1. Membangun daftar stopwords: pembangun daftar stopwords yang spesifik untuk bahasa yang sedang digunakan. Daftar stopwords biasanya terdiri dari kata-kata yang umum dan memiliki sedikit kontribusi terhadap makna teks. Daftar ini dapat mencakup kata ganti (seperti "saya," "kamu," "mereka"), kata hubung (seperti "dan," "atau," "juga"), kata bantu (seperti "akan," "telah," "sedang"), dan kata-kata umum lainnya.
  2. Pendeteksian stopwords: setelah membangun sebuah daftar stopword, pendekatan selanjutnya adalah pendeteksi kata-kata stopwords dalam teks. Ada beberapa pendekatan yang dapat digunakan untuk melakukan hal ini:
    1. Metode berbasis daftar: Metode ini melibatkan pencocokan langsung antara kata-kata dalam teks dengan daftar stopwords. Jika kata dalam teks cocok dengan kata dalam daftar, kata tersebut dianggap sebagai stopwords dan akan dihapus.
    2. Metode berbasis statistik: Metode ini melibatkan penggunaan statistik untuk menentukan kata-kata stopwords. Kata-kata yang sering muncul dalam teks, seperti kata umum, cenderung menjadi stopwords. Oleh karena itu, kata-kata dengan frekuensi tinggi dapat diidentifikasi dan dianggap sebagai stopwords.
    3. Metode berbasis pemodelan bahasa: Metode ini melibatkan penggunaan model bahasa yang telah dilatih untuk memprediksi kata-kata berikutnya dalam teks. Kata-kata yang memiliki probabilitas tinggi sebagai kata-kata berikutnya sering kali adalah stopwords.
  3. Penghapusan stopwords: Penghapus stopword dapat dilakukan dengan menggantikan stopwords dengan token kosong atau dengan menghilangkan stopwords secara keseluruhan dari teks.

 

Stemming dan Lemmatization

Stemming dan lemmatization adalah dua teknik yang digunakan dalam pemrosesan bahasa alami (Natural Language Processing/NLP) untuk mereduksi kata-kata ke bentuk dasarnya. Tujuan dari kedua teknik ini adalah untuk mengurangi variasi kata yang mungkin terjadi dalam teks sehingga kata-kata dengan bentuk dasar yang sama dapat diperlakukan secara seragam. Namun, kedua teknik ini memiliki pendekatan yang berbeda. Berikut penjelasan terperinci mengenai stemming dan lemmatization:

  1. Stemming
    Stemming adalah proses mereduksi kata-kata ke kata dasar atau "stem" mereka dengan menghapus imbuhan atau afiks. Stemming bertujuan untuk menghasilkan bentuk dasar dari kata-kata tanpa memperhatikan konteks atau makna kata tersebut. Algoritme stemming biasanya berdasarkan aturan linguistik sederhana yang menghapus imbuhan seperti akhiran (-s, -es, -ing, -ed, dsb.) dan prefiks (-un, -dis, -re, dsb.) dari kata-kata. Contoh algoritme stemming yang terkenal adalah algoritme Porter Stemming dan algoritme Snowball. Stemming cocok digunakan dalam kasus-kasus di mana analisis singkat dan pengurangan variasi kata-kata adalah tujuan utama. Misalnya, dalam kasus-kasus di mana kata-kata tersebut digunakan untuk menghitung frekuensi atau melakukan pencocokan pola.
  2. Lemmatization
    Lemmatization adalah proses mereduksi kata-kata ke bentuk dasar mereka yang disebut "lemma" atau kata dasar dengan mempertimbangkan makna kata dan konteks. Lemmatization menggunakan pengetahuan tentang bahasa, kamus, dan aturan linguistik yang lebih kompleks daripada stemming. Proses lemmatization melibatkan penggunaan morfologi kata untuk menghasilkan kata-kata yang valid dan sesuai dengan kamus. Hasil lemmatization adalah kata-kata yang lebih bermakna dan dapat dipahami oleh manusia. Lemmatization lebih sesuai digunakan dalam kasus-kasus di mana pemahaman makna kata-kata adalah tujuan utama. Misalnya, dalam kasus-kasus yang melibatkan analisis teks yang lebih dalam seperti pemahaman teks, ekstraksi informasi, atau sistem berbasis pengetahuan.

 

Part-of-Speech Tagging

Part-of-Speech (POS) Tagging, atau pelabelan kelas kata, adalah proses dalam pemrosesan bahasa alami yang menentukan kelas kata untuk setiap kata dalam sebuah teks. Tujuan utamanya adalah memberikan informasi tentang peran gramatikal setiap kata dalam kalimat. Dengan POS tagging, setiap kata diberi label dengan kelas kata seperti kata benda, kata kerja, kata sifat, kata keterangan, dan lain-lain. Metode yang digunakan dalam POS tagging dapat berupa aturan linguistik, model statistik, atau kombinasi keduanya. Tantangan dalam POS tagging termasuk kata-kata dengan makna ganda, kata-kata tak lazim, dan bahasa asing. POS tagging sangat penting dalam analisis sintaksis, pemahaman teks, dan aplikasi NLP lainnya, karena memberikan dasar yang kuat untuk pemrosesan dan pemahaman teks secara lebih mendalam.

 

Natural Language Processing

Natural Language Processing (NLP) adalah cabang dari ilmu komputer dan kecerdasan buatan yang berfokus pada interaksi antara komputer dan bahasa manusia alami. NLP melibatkan pengolahan, pemahaman, dan generasi teks yang dilakukan oleh komputer. Tujuan utama NLP adalah memungkinkan komputer untuk memahami, menganalisis, dan menghasilkan teks yang setara dengan kemampuan manusia. NLP digunakan dalam berbagai aplikasi seperti pemrosesan teks otomatis, pencarian informasi, sistem rekomendasi, analisis sosial media, deteksi spam, dan lain sebagainya. 

 

Pattern Matching

Pattern matching adalah proses mencari pola atau kesamaan tertentu dalam sebuah teks atau rangkaian karakter. Dalam konteks pemrosesan bahasa alami (Natural Language Processing/NLP), pattern matching sering digunakan untuk mencari pola kata-kata atau frasa yang sesuai dengan pola yang ditentukan. Hal ini berguna dalam berbagai tugas seperti pencarian informasi, ekstraksi entitas, analisis sentimen, dan lain-lain.

Ada beberapa pendekatan yang dapat digunakan untuk melakukan pattern matching:

  1. Metode berbasis aturan (rule-based): Metode ini melibatkan penggunaan aturan-aturan linguistik atau pola yang telah ditentukan sebelumnya untuk mencocokkan dan menemukan pola tertentu dalam teks. Aturan-aturan ini dapat berupa ekspresi reguler, aturan sintaksis, atau aturan-aturan khusus yang dibuat secara manual.
  2. Metode berbasis string: Metode ini melibatkan pencocokan langsung karakter atau kata dalam teks dengan pola yang ditentukan. Ini dapat dilakukan dengan menggunakan algoritme pencocokan string seperti algoritme Knuth-Morris-Pratt (KMP) atau algoritme Boyer-Moore.
  3. Metode berbasis mesin pembelajaran (machine learning): Metode ini melibatkan penggunaan teknik pembelajaran mesin untuk mencari pola dalam teks. Model pembelajaran mesin seperti model klasifikasi, regresi logistik, atau pemodelan berbasis urutan dapat dilatih untuk mengenali pola-pola tertentu dalam teks berdasarkan data pelatihan yang ada.

Pattern matching dapat sangat berguna dalam pemrosesan bahasa alami untuk mengidentifikasi pola, mencocokkan entitas, melakukan ekstraksi informasi, atau memvalidasi format teks yang diinginkan. Dalam banyak kasus, kombinasi dari berbagai metode dan teknik pattern matching digunakan untuk mencapai hasil yang optimal.

 

Klasifikasi dan Pemodelan

Klasifikasi dan pemodelan dalam pemrosesan teks adalah teknik-teknik yang digunakan untuk mengkategorikan atau mengelompokkan teks berdasarkan pola atau karakteristik tertentu, serta untuk membangun model statistik atau pembelajaran mesin yang dapat memprediksi atau menggeneralisasi pola tersebut. Klasifikasi dan pemodelan dalam text processing terdiri dari:

  1. Klasifikasi Teks:
    Klasifikasi teks adalah tugas untuk mengkategorikan atau mengelompokkan teks ke dalam kelas atau kategori yang telah ditentukan sebelumnya. Contoh klasifikasi teks termasuk klasifikasi spam/non-spam email, klasifikasi sentimen (positif/negatif/netral) ulasan produk, atau klasifikasi topik berita (politik, olahraga, teknologi, dll.). Pada dasarnya, klasifikasi teks melibatkan pelatihan model yang dapat mempelajari pola-pola karakteristik dalam teks dan kemudian memprediksi kategori atau label untuk teks baru.
  2. Metode Klasifikasi Teks:
    Ada beberapa metode yang dapat digunakan untuk klasifikasi teks, termasuk:
    1. Klasifikasi Berbasis Aturan: Metode ini melibatkan penggunaan aturan linguistik atau heuristik yang telah ditentukan sebelumnya untuk mengenali pola-pola dalam teks. Misalnya, kita dapat menggunakan aturan kata-kata kunci untuk mengenali teks berbahasa inggris yang mengandung topik tertentu.
    2. Klasifikasi Berbasis Pembelajaran Mesin: Metode ini melibatkan pembangunan model statistik atau pembelajaran mesin untuk melakukan klasifikasi. Model seperti Naive Bayes, Support Vector Machines (SVM), atau Jaringan Saraf Tiruan (Neural Networks) dapat dilatih menggunakan data pelatihan yang telah diberi label untuk mempelajari pola-pola dalam teks dan melakukan prediksi kategori pada teks yang baru.
    3. Klasifikasi Berbasis Deep Learning: Metode ini melibatkan penggunaan jaringan saraf tiruan yang lebih kompleks, seperti Jaringan Saraf Konvolusional (Convolutional Neural Networks/CNN) atau Jaringan Saraf Rekurensi (Recurrent Neural Networks/RNN). Model deep learning ini dapat mempelajari pola-pola yang lebih kompleks dan memiliki kinerja yang lebih baik dalam beberapa tugas klasifikasi teks.
  3. Pemodelan Teks:
    Pemodelan teks melibatkan pembangunan model statistik atau pembelajaran mesin yang dapat memodelkan representasi teks dan menggeneralisasi pola-pola dalam teks. Pemodelan teks berguna untuk berbagai tugas, seperti pemahaman teks, pemrosesan bahasa alami, atau sistem rekomendasi. Metode pemodelan teks meliputi:
    1. Representasi Bag-of-Words: Metode ini merepresentasikan teks sebagai vektor di mana setiap dimensi mewakili kata atau fitur tertentu dalam teks. Representasi bag-of-words mengabaikan urutan kata dan hanya memperhatikan keberadaan kata-kata dalam teks.
    2. Model Jaringan Saraf: Model jaringan saraf, seperti Jaringan Saraf Tiruan (Neural Networks), dapat digunakan untuk memodelkan hubungan kompleks antara kata-kata dalam teks. Misalnya, model seperti Word2Vec atau GloVe dapat mempelajari representasi vektor kata yang menggambarkan hubungan semantik antara kata-kata.
    3. Model Pemrosesan Bahasa Alami: Model pemrosesan bahasa alami, seperti Transformer atau BERT, telah mencapai kinerja luar biasa dalam pemahaman teks dan tugas-tugas pemrosesan bahasa alami lainnya. Model ini menggunakan arsitektur yang lebih kompleks dan mampu memahami konteks teks dengan lebih baik.

 

Contoh Text Processing dan Text Mining ada data Sentiment Labelled Sentences:

Melakukan koneksi google colaboratory dengan drive

 

Melakukan import library nltk dan melakukan download package punkt, stopwords, vader_lexicon, dan wordnet

 

Melakukan import library pandas, nltk, string, dan re (reguler).

 

Membaca file CSV yang menyimpan data imdb, amazon, dan yelp

 

Melakukan penggabungan setiap data menjadi satu kolom dan mengecualikan pengambilan nilai NaN. Setelah data bersih diperoleh, gabungkan menjadi satu dataframe dengan nama kolom Amazon, IMDB, dan Yelp.

 

Melakukan Tokenisasi pada setiap data di dalam dataframe

 

Melakukan penghapusan terhadap stopwords pada setiap data di dataframe

 

Melakukan Lemmatisasi data pada setiap data di dalam dataframe

 

Melakukan penghapusan pada tanda baca yang tidak penting

 

Melakukan penghapusan terhadap kata yang tidak perlu (ini merupakan langkah opsional dikarenakan data sudah melakukan penghapusan stop word)

 

Melakukan penghapusan element list kosong pada data (ini juga merupakan langkah opsional, tetapi alangkah baiknya melakukan untuk menghindari terdapat element yang kosong pada list)

 

Melakukan penggabungan kata-kata yang telah diolah untuk menjadi sebuah kalimat utuh

 

Output:

 

 

Informasi Course Terkait
  Kategori: Data Science / Big Data
  Course: Information Retrieval for Beginner