Text Analysis and Topic Modelling Covid-19

Octaviano Pratama

Sosial Media


2 orang menyukai ini
Suka

Summary

Text Analysis and Topic Modelling Covid-19

Description

Pandemic Covid-19 di Indonesia saat ini memunculkan riset — riset terbaru terkait penanganan covid-19, salah satunya adalah riset di bidang text analysis dan topik modelling. sebagai contoh misalkan jika diberikan suatu text yang berasal dari sosial media (Twitter, Instagram, atau sosmed lainnya), maka kita dapat memodelkan topik apakah yang sedang hangat dibicarakan pada saat ini (seperti gambar word cloud diatas mengenai topik yang sedang dibahas). Pada tutorial ini akan dibahas mengenai tutorial cara membuat text analysis dan pemodelan topik Covid-19 dengan latent dirichlet allocation pada bahasa pemrograman python.

Pre-Requisites:

  1. Memahami alur Crawling Data dengan Python disini
  2. Memahami dasar — dasar Data Science atau Machine Learning

Pada tutorial ini akan dibagi pada 3 bahasan yaitu: (1) data gathering, (2) data pre-processing, dan (3) Topik Modelling.

Data Gathering

pada tahap ini akan dilakukan pengumpulan dataset yang berasal dari sosial media ataupun dari news. kami merekomendasikan untuk menggunakan data berikut: https://www.kaggle.com/ryanxjhan/cbc-news-coronavirus-articles-march-26 atau anda dapat melakukan crawling sendiri sesuai dengan kebutuhan anda, contohnya crawling Twitter mengenai Covid-19. Bertikut detail langkah — langkah yang dapat dijalankan:

Langkah awal setelah anda memiliki dataset teks, simpan dataset teks covid-19 anda di Google Drive

from google.colab import drive
drive.mount('/content/drive')

Anda dapat menggunakan Library Pandas untuk membaca dataset text yang berisi text article dan Twitter

import pandas as pd

df = pd.read_csv("/content/drive/My Drive/dataset/covid19/text/news.csv")
df.tail(1)

langkah berikutnya anda dapat memberikan visualisasi terhadap korpus yang telah dibaca dengan Word Cloud

import matplotlib.pyplot as plt
from wordcloud import WordCloud, ImageColorGenerator

text = " ".join(str(author) for author in df.authors.unique() if len(author)>3)
wordcloud = WordCloud(max_words=50,colormap='Set2', background_color="white").generate(text)
plt.figure(figsize=(10,5))
plt.imshow(wordcloud)
plt.show()

 

Data Pre-Processing

Langkah berikutnya adalah memberikan teknik data pre-processing untuk corpus yang telah dibaca seperti teknik stemming, stopwords, remove punctuation dan teknik text processing lainnya

Langkah pertama adalah kita membuat beberapa fungsi untuk text pre-processing seperti berikut:

a

Informasi Course Terkait
  Kategori: Natural Language Processing
  Course: Machine Learning For Beginner