BISA AI - AI For Everyone

Text Analysis and Topic Modelling Covid-19

Octaviano Pratama

Sosial Media

2 orang menyukai ini
Suka

Summary

Text Analysis and Topic Modelling Covid-19

Description

Pandemic Covid-19 di Indonesia saat ini memunculkan riset — riset terbaru terkait penanganan covid-19, salah satunya adalah riset di bidang text analysis dan topik modelling. sebagai contoh misalkan jika diberikan suatu text yang berasal dari sosial media (Twitter, Instagram, atau sosmed lainnya), maka kita dapat memodelkan topik apakah yang sedang hangat dibicarakan pada saat ini (seperti gambar word cloud diatas mengenai topik yang sedang dibahas). Pada tutorial ini akan dibahas mengenai tutorial cara membuat text analysis dan pemodelan topik Covid-19 dengan latent dirichlet allocation pada bahasa pemrograman python.

Pre-Requisites:

Memahami alur Crawling Data dengan Python disini
Memahami dasar — dasar Data Science atau Machine Learning

Pada tutorial ini akan dibagi pada 3 bahasan yaitu: (1) data gathering, (2) data pre-processing, dan (3) Topik Modelling.

Data Gathering

pada tahap ini akan dilakukan pengumpulan dataset yang berasal dari sosial media ataupun dari news. kami merekomendasikan untuk menggunakan data berikut: https://www.kaggle.com/ryanxjhan/cbc-news-coronavirus-articles-march-26 atau anda dapat melakukan crawling sendiri sesuai dengan kebutuhan anda, contohnya crawling Twitter mengenai Covid-19. Bertikut detail langkah — langkah yang dapat dijalankan:

Langkah awal setelah anda memiliki dataset teks, simpan dataset teks covid-19 anda di Google Drive

from google.colab import drive
drive.mount('/content/drive')

Anda dapat menggunakan Library Pandas untuk membaca dataset text yang berisi text article dan Twitter

import pandas as pd
df = pd.read_csv("/content/drive/My Drive/dataset/covid19/text/news.csv")
df.tail(1)

langkah berikutnya anda dapat memberikan visualisasi terhadap korpus yang telah dibaca dengan Word Cloud

import matplotlib.pyplot as plt
from wordcloud import WordCloud, ImageColorGenerator
text = " ".join(str(author) for author in df.authors.unique() if len(author)>3)
wordcloud = WordCloud(max_words=50,colormap='Set2', background_color="white").generate(text)
plt.figure(figsize=(10,5))
plt.imshow(wordcloud)
plt.show()

Data Pre-Processing

Langkah berikutnya adalah memberikan teknik data pre-processing untuk corpus yang telah dibaca seperti teknik stemming, stopwords, remove punctuation dan teknik text processing lainnya

Langkah pertama adalah kita membuat beberapa fungsi untuk text pre-processing seperti berikut:

Informasi Course Terkait

Kategori: Natural Language Processing
Course: Machine Learning For Beginner

Kelas GRATIS

Master Class

Master Class on Job Training

Learning Path

Kelas OFFLINE

Kelas Corporate

Prakerja

Webinar

Udemy

Kampus Merdeka

Learncation

Portofolio Peserta

Sertifikasi International

Sertifikasi Nasional

Kuliah RPL

Politeknik BISA AI

Pendidikan Profesional

Educloud

Siakad by Bisa AI

IT Solution

Konsultan Pendidikan

Kolaborasi Seminar

Kolaborasi pelatihan

Gallery

Tentang Kami

Testimonial Peserta

Corporate Social Responsibility

Hubungi Kami

Dokter Mekanik

E-learning

Bisa Design

BISA Network

Tampil

Bakerspice Academy

Gramatikal

Text Analysis and Topic Modelling Covid-19

Sosial Media

Summary

Description

Data Gathering

Data Pre-Processing

Informasi Course Terkait

Bisa AI Academy