Analisis Sentimen Pengguna Aplikasi Gojek

Antonius Angga Kurniawan

Sosial Media


0 orang menyukai ini
Suka

Summary

Proyek ini bertujuan untuk melakukan analisis sentimen dari para pengguna aplikasi Gojek berdasarkan review yang ditulis oleh pengguna. Sentimennya terdiri dari 2, yaitu sentimen positif dan negatif. Analisis sentimen ini berguna untuk para pengambil keputusan untuk menentukan langkah selanjutnya untuk mengembangkan aplikasi gojek agar lebih baik lagi ke depannya. Proyek ini dikembangkan oleh Antonius Angga Kurniawan. Dataset yang digunakan dalam bentuk teks sebanyak -+ 200.000 jumlah baris. Teknik-teknik pre-processing untuk bidang NLP dilakukan seperti lowercase, punctuation, stopword, dan stemming dalam bahasa Indonesia telah dilakukan. Model yang digunakan adalah Random Forest dengan nilai akurasi sebesar 0.89, dalam hal ini model mampu bekerja dengan baik. Setelah itu, dilakukan tahap deployment atau implementasi menggunakan streamlit.

Description

Proyek ini adalah tentang analisis sentimen ulasan aplikasi Gojek menggunakan pendekatan machine learning. Berikut adalah rangkumannya:

1. Tujuan Proyek

Membuat model klasifikasi untuk menganalisis sentimen ulasan (positif atau negatif) dari data ulasan aplikasi Gojek. Proyek ini diakhiri dengan membangun aplikasi berbasis web menggunakan Streamlit untuk prediksi sentimen secara langsung.

2. Tahapan Pengerjaan

a. Pemahaman Data

  • Data yang digunakan adalah ulasan aplikasi Gojek yang mencakup kolom seperti content (teks ulasan) dan score (rating).
  • Dilakukan eksplorasi data, seperti:
    • Mengecek jumlah data, tipe data, serta null dan data duplikat.
    • Men-drop kolom yang tidak relevan dan memperbaiki data kosong/duplikat.

b. Pra-pemrosesan Data

  • Melakukan pembersihan teks:
    • Menghapus karakter spesial, angka, tautan, dan HTML tags.
    • Normalisasi teks (misalnya, mengganti kata slang seperti "sy" menjadi "saya").
    • Menghapus kata-kata tidak penting (stopwords).
    • Melakukan stemming untuk menyederhanakan kata-kata ke bentuk dasar.
  • Skor ulasan dikategorikan:
    • 1 untuk ulasan positif (rating 4 atau 5).
    • 0 untuk ulasan negatif (rating 1, 2, atau 3).

c. Modeling

  • Memisahkan data ke dalam training dan testing set.
  • Menggunakan teknik representasi teks seperti TF-IDF untuk mengubah teks menjadi fitur numerik.
  • Model yang digunakan: Random Forest Classifier.
    • Model dilatih dengan data yang telah diproses dan dievaluasi menggunakan metrik seperti akurasi, laporan klasifikasi, dan matriks kebingungan.

d. Optimasi

  • Hyperparameter tuning menggunakan GridSearchCV untuk menemukan parameter terbaik pada Random Forest.

e. Deploy Model

  • Model yang telah dilatih dan TF-IDF Vectorizer disimpan menggunakan joblib.
  • Aplikasi prediksi sentimen dikembangkan menggunakan Streamlit dan diakses melalui URL publik menggunakan Ngrok.

3. Hasil

  • Model menghasilkan laporan evaluasi yang menunjukkan akurasi prediksi.
  • Aplikasi berbasis web memungkinkan pengguna untuk memasukkan teks ulasan dan mendapatkan prediksi sentimen secara real-time.

4. Keunggulan Proyek

  • Mengintegrasikan pembelajaran teks (NLP) dengan machine learning untuk analisis sentimen.
  • Proyek ini memiliki hasil yang dapat digunakan secara langsung oleh pengguna melalui aplikasi web.

Informasi Course Terkait
  Kategori: Artificial Intelligence
  Course: Master Class Natural Language Processing