Syafirna Miftahul Jannah
Tugas kali ini saya melakukan analisis sentimen pada data yang diambil dari kaggle.com yaitu :
Analisis Sentimen Pada US Airlines
Saya mengambil dataset dari Kaggle.com. selanjutnya data diunduh dan di upload pada gdrive. Hubungkan collab dengan gdrive.
Kemudian saya mengunduh library yang dibutuhkan
Baca data dengan pandas kemudian saya hanya memasukkan variable airline sentiment dan text pada data frame
Kemudian saya melihat info dan nilai null pada data frame
Saya menghapus karakter mention berupa @ pada teks
Pada sentiment saya menghapus netral agar analisis hanya focus ke hasil positif atau negative, saya juga mengubah huruf menjadi huruf kecil untuk konsistensi dan menghapus karakter yang tidak dibutuhkan.
Berikut visualisasi dari airline sentiment, namun data dalam keadaan imbalance
Agar data balance saya menggunakan metode undersampling dengan menghapus sentiment negative hingga data menunjukkan
Selanjutnya hapus punctuation dan stopword pada teks
Tokenisasi teks dan ubah teks menjadi urutan angka agar dapat digunakan pada modeling LSTM serta pisahkan label untuk data trainingnya.
Ubah sentiment positif dan negative kenjadi 1 dan 0 lalu bagi data train dan testnya
Selanjutnya saya melakukan pemodelan dengan LSTM
Evaluasi model dan tampilkan visualisasi confution matricnya
Sehingga dapat disimpulkan hasil analisis sentimen menunjukkan 841 ulasan berupa true negative, 552 true positive, 83 false negative serta 117 false positive.