Vektorisasi Data Teks : Sentiment Labelled

Al Fathjri Wisesa

Sosial Media


0 orang menyukai ini
Suka

Summary

Vektorisasi data adalah proses mengubah data dalam bentuk non-numerik menjadi representasi vektor numerik. Ini umumnya dilakukan dalam konteks pemrosesan bahasa alami (NLP) ketika bekerja dengan teks atau dalam analisis data ketika bekerja dengan fitur non-numerik lainnya.

Description

Vektorisasi data adalah proses mengubah data dalam bentuk non-numerik menjadi representasi vektor numerik. Ini umumnya dilakukan dalam konteks pemrosesan bahasa alami (NLP) ketika bekerja dengan teks atau dalam analisis data ketika bekerja dengan fitur non-numerik lainnya.
 

Dataset

Dataset Sentiment Labelled Sentences adalah kumpulan data yang berisi kalimat-kalimat dari berbagai sumber yang diberi label sentimen positif atau negatif. Dataset Sentiment Labelled Sentences biasanya terdiri dari tiga bagian utama: kalimat-kalimat, label sentimen, dan sumber data. Setiap kalimat dalam dataset diberi label sentimen positif atau negatif berdasarkan penilaian manusia. Label ini menunjukkan apakah kalimat tersebut mengandung sentimen yang positif atau negatif.


 

Model

Import Library

Mengimport Library yang dibutuhkan untuk melakukan vektorisasi data teks

Dataset

Menampilkan dataset teks sentimen, teradapat 3 jenis dataset yang dijadikan 1 yaitu IMDb, Amazon, yelp

Bag of Words

Bag of Words (BoW) adalah salah satu teknik representasi teks yang mengubah teks menjadi vektor numerik. Pendekatan ini hanya memperhatikan kemunculan kata-kata dalam teks dan mengabaikan urutan kata. BoW menghitung frekuensi kemunculan setiap kata dalam teks dan menghasilkan vektor yang merepresentasikan teks berdasarkan kemunculan kata-kata tersebut.

TF-IDF

TF-IDF (Term Frequency-Inverse Document Frequency) adalah metode yang digunakan untuk memberi bobot pada kata-kata dalam teks berdasarkan frekuensi kemunculan kata tersebut dalam dokumen dan kebalikannya dalam seluruh korpus atau koleksi dokumen. Bobot ini membantu dalam mengidentifikasi kata-kata yang lebih penting atau unik dalam suatu dokumen.

Word Embedding

Word Embedding adalah teknik dalam pemrosesan bahasa alami (NLP) yang digunakan untuk merepresentasikan kata-kata dalam bentuk vektor numerik berdasarkan makna kata tersebut. Metode ini memetakan kata-kata ke dalam ruang vektor berdimensi tinggi, sehingga kata-kata dengan makna yang serupa akan memiliki representasi yang mendekati satu sama lain dalam ruang vektor. Word Embedding memungkinkan komputer untuk memahami dan memproses makna kata-kata dalam konteks tertentu.

Informasi Course Terkait
  Kategori: Artificial Intelligence
  Course: Vektorisasi Data Teks