Portofolio Detail >> Vektorisasi Data Teks : Sentiment Labelled

Vektorisasi Data Teks : Sentiment Labelled

Al Fathjri Wisesa

Sosial Media

0 orang menyukai ini
Suka

Summary

Vektorisasi data adalah proses mengubah data dalam bentuk non-numerik menjadi representasi vektor numerik. Ini umumnya dilakukan dalam konteks pemrosesan bahasa alami (NLP) ketika bekerja dengan teks atau dalam analisis data ketika bekerja dengan fitur non-numerik lainnya.

Description

Dataset

Dataset Sentiment Labelled Sentences adalah kumpulan data yang berisi kalimat-kalimat dari berbagai sumber yang diberi label sentimen positif atau negatif. Dataset Sentiment Labelled Sentences biasanya terdiri dari tiga bagian utama: kalimat-kalimat, label sentimen, dan sumber data. Setiap kalimat dalam dataset diberi label sentimen positif atau negatif berdasarkan penilaian manusia. Label ini menunjukkan apakah kalimat tersebut mengandung sentimen yang positif atau negatif.

Model

Import Library

Mengimport Library yang dibutuhkan untuk melakukan vektorisasi data teks

Dataset

Menampilkan dataset teks sentimen, teradapat 3 jenis dataset yang dijadikan 1 yaitu IMDb, Amazon, yelp

Bag of Words

Bag of Words (BoW) adalah salah satu teknik representasi teks yang mengubah teks menjadi vektor numerik. Pendekatan ini hanya memperhatikan kemunculan kata-kata dalam teks dan mengabaikan urutan kata. BoW menghitung frekuensi kemunculan setiap kata dalam teks dan menghasilkan vektor yang merepresentasikan teks berdasarkan kemunculan kata-kata tersebut.

TF-IDF

TF-IDF (Term Frequency-Inverse Document Frequency) adalah metode yang digunakan untuk memberi bobot pada kata-kata dalam teks berdasarkan frekuensi kemunculan kata tersebut dalam dokumen dan kebalikannya dalam seluruh korpus atau koleksi dokumen. Bobot ini membantu dalam mengidentifikasi kata-kata yang lebih penting atau unik dalam suatu dokumen.

Word Embedding

Word Embedding adalah teknik dalam pemrosesan bahasa alami (NLP) yang digunakan untuk merepresentasikan kata-kata dalam bentuk vektor numerik berdasarkan makna kata tersebut. Metode ini memetakan kata-kata ke dalam ruang vektor berdimensi tinggi, sehingga kata-kata dengan makna yang serupa akan memiliki representasi yang mendekati satu sama lain dalam ruang vektor. Word Embedding memungkinkan komputer untuk memahami dan memproses makna kata-kata dalam konteks tertentu.

Informasi Course Terkait

Kategori: Artificial Intelligence
Course: Vektorisasi Data Teks

Kelas GRATIS

Master Class

Learning Path

Master Class + Sertifikasi BNSP

Master Class + Sertifikasi Internasional

Portofolio Peserta

Webinar

Udemy

Kelas GRATIS

Master Class

Master Class + Sertifikasi BNSP

Master Class + Sertifikasi Internasional

Learning Path

Portofolio Peserta

Program Special

Webinar

Udemy

Learncation

Sertifikasi Internasional

Sertifikasi Nasional

Kelas Corporate

Sertifikasi Internasional

Sertifikasi Nasional

Kelas Corporate

Kolaborasi Seminar

Kolaborasi pelatihan

Gallery

Tentang Kami

Testimonial Peserta

Testimonial Video Peserta

Corporate Social Responsibility

Pengajar Kami

Hubungi Kami

Dokter Mekanik

E-learning

LEIP

Flungo

Tampil

Run Addicts

TripTracker

Gramatikal