Al Fathjri Wisesa
Vektorisasi data adalah proses mengubah data dalam bentuk non-numerik menjadi representasi vektor numerik. Ini umumnya dilakukan dalam konteks pemrosesan bahasa alami (NLP) ketika bekerja dengan teks atau dalam analisis data ketika bekerja dengan fitur non-numerik lainnya.
Vektorisasi data adalah proses mengubah data dalam bentuk non-numerik menjadi representasi vektor numerik. Ini umumnya dilakukan dalam konteks pemrosesan bahasa alami (NLP) ketika bekerja dengan teks atau dalam analisis data ketika bekerja dengan fitur non-numerik lainnya.
Dataset
Dataset Sentiment Labelled Sentences adalah kumpulan data yang berisi kalimat-kalimat dari berbagai sumber yang diberi label sentimen positif atau negatif. Dataset Sentiment Labelled Sentences biasanya terdiri dari tiga bagian utama: kalimat-kalimat, label sentimen, dan sumber data. Setiap kalimat dalam dataset diberi label sentimen positif atau negatif berdasarkan penilaian manusia. Label ini menunjukkan apakah kalimat tersebut mengandung sentimen yang positif atau negatif.
Model
Import Library
Mengimport Library yang dibutuhkan untuk melakukan vektorisasi data teks
Dataset
Menampilkan dataset teks sentimen, teradapat 3 jenis dataset yang dijadikan 1 yaitu IMDb, Amazon, yelp
Bag of Words
Bag of Words (BoW) adalah salah satu teknik representasi teks yang mengubah teks menjadi vektor numerik. Pendekatan ini hanya memperhatikan kemunculan kata-kata dalam teks dan mengabaikan urutan kata. BoW menghitung frekuensi kemunculan setiap kata dalam teks dan menghasilkan vektor yang merepresentasikan teks berdasarkan kemunculan kata-kata tersebut.
TF-IDF
TF-IDF (Term Frequency-Inverse Document Frequency) adalah metode yang digunakan untuk memberi bobot pada kata-kata dalam teks berdasarkan frekuensi kemunculan kata tersebut dalam dokumen dan kebalikannya dalam seluruh korpus atau koleksi dokumen. Bobot ini membantu dalam mengidentifikasi kata-kata yang lebih penting atau unik dalam suatu dokumen.
Word Embedding
Word Embedding adalah teknik dalam pemrosesan bahasa alami (NLP) yang digunakan untuk merepresentasikan kata-kata dalam bentuk vektor numerik berdasarkan makna kata tersebut. Metode ini memetakan kata-kata ke dalam ruang vektor berdimensi tinggi, sehingga kata-kata dengan makna yang serupa akan memiliki representasi yang mendekati satu sama lain dalam ruang vektor. Word Embedding memungkinkan komputer untuk memahami dan memproses makna kata-kata dalam konteks tertentu.