Octaviano Pratama
Text Analysis and Topic Modelling Covid-19
Pandemic Covid-19 di Indonesia saat ini memunculkan riset — riset terbaru terkait penanganan covid-19, salah satunya adalah riset di bidang text analysis dan topik modelling. sebagai contoh misalkan jika diberikan suatu text yang berasal dari sosial media (Twitter, Instagram, atau sosmed lainnya), maka kita dapat memodelkan topik apakah yang sedang hangat dibicarakan pada saat ini (seperti gambar word cloud diatas mengenai topik yang sedang dibahas). Pada tutorial ini akan dibahas mengenai tutorial cara membuat text analysis dan pemodelan topik Covid-19 dengan latent dirichlet allocation pada bahasa pemrograman python.
Pre-Requisites:
Pada tutorial ini akan dibagi pada 3 bahasan yaitu: (1) data gathering, (2) data pre-processing, dan (3) Topik Modelling.
pada tahap ini akan dilakukan pengumpulan dataset yang berasal dari sosial media ataupun dari news. kami merekomendasikan untuk menggunakan data berikut: https://www.kaggle.com/ryanxjhan/cbc-news-coronavirus-articles-march-26 atau anda dapat melakukan crawling sendiri sesuai dengan kebutuhan anda, contohnya crawling Twitter mengenai Covid-19. Bertikut detail langkah — langkah yang dapat dijalankan:
Langkah awal setelah anda memiliki dataset teks, simpan dataset teks covid-19 anda di Google Drive
from google.colab import drive
drive.mount('/content/drive')
Anda dapat menggunakan Library Pandas untuk membaca dataset text yang berisi text article dan Twitter
import pandas as pd
df = pd.read_csv("/content/drive/My Drive/dataset/covid19/text/news.csv")
df.tail(1)
langkah berikutnya anda dapat memberikan visualisasi terhadap korpus yang telah dibaca dengan Word Cloud
import matplotlib.pyplot as plt
from wordcloud import WordCloud, ImageColorGeneratortext = " ".join(str(author) for author in df.authors.unique() if len(author)>3)
wordcloud = WordCloud(max_words=50,colormap='Set2', background_color="white").generate(text)
plt.figure(figsize=(10,5))
plt.imshow(wordcloud)
plt.show()
Langkah berikutnya adalah memberikan teknik data pre-processing untuk corpus yang telah dibaca seperti teknik stemming, stopwords, remove punctuation dan teknik text processing lainnya
Langkah pertama adalah kita membuat beberapa fungsi untuk text pre-processing seperti berikut:
a