Analisis Sentimen COVID-19 dengan CNN-LSTM

Nur Alfi Laily

Sosial Media


1 orang menyukai ini
Suka

Summary

Pada proyek ini, akan dilakukan analisis sentimen tweets dari Twitter mengenai COVID-19 menjadi 3 kategori yaitu “positive”, “neutral”, dan “negative”. Dataset yang digunakan diperoleh dari Kaggle. Proses analsi sentimen akan menggunakan CNN-LSTM dengan memanfaatkan representasi teks berupa FastText.

Description

Dataset

Dataset diperoleh dari Corona Virus tweets NLP - Text Classification melalui Kaggle.
Dataset tersebut terdiri dari 6 kolom:

  • UserName
  • ScreenName
  • Location
  • TweetAt
  • OriginalTweet
  • Sentiment (Extremely Positive, Positive, Neutral, Negative, dan Extremely Negative namun Extremely positive dan Extremely Negative akan dimasukkan ke class Positive dan Negative)

Metode

Data Preprocesing

  1. Case folding
  2. Menghilangkan URL, hashtag, username, digit, tanda baca, white space
  3. Stopwords removal

Text Representation
Menggunakan FastText.

Modeling
Menggunakan CNN-LSTM dengan arsitektur sebagai berikut.

Hasil

Akurasi

Loss

Akurasi pada data validasi pada epoch ke-15 adalah 63.61%.

Link dataset: kaggle.com/datasets/datatattle/covid-19-nlp-text-classification

Informasi Course Terkait
  Kategori: Natural Language Processing
  Course: Deep Learning Dengan Keras Python