MOHAMAD FRANANDA ADIEZWARA RAMADHAN
Sentimen Analisis Menggunakan Algoritma atau Model Naive Bayes
DASAR TEORI :
machine learning (ML) adalah mesin yang dikembangkan untuk bisa belajar dengan sendirinya tanpa arahan dari penggunanya. Pembelajaran mesin dikembangkan berdasarkan disiplin ilmu lainnya seperti statistika, matematika dan data mining sehingga mesin dapat belajar dengan menganalisa data tanpa perlu di program ulang atau diperintah
Klasifikasi dalam machine learning adalah suatu pengelompokan data dimana data yang digunakan tersebut mempunyai kelas label atau target. Sehingga algoritma-algoritma untuk menyelesaikan masalah klasifikasi dikategorisasikan ke dalam supervised learning atau pembelajaran yang diawasi. Maksud dari pembelajaran yang diawasi adalah data label atau target ikut berperan sebagai ‘supervisor’ atau ‘guru’ yang mengawasi proses pembelajaran dalam mencapai tingkat akurasi atau presisi tertentu.
INTRUKSI :
Untuk data yang ada pada link: https://www.kaggle.com/crowdflower/twitter-airline-sentiment, (download Tweets.csv) silahkan buat model sentiment analysis menggunakan support vector machine atau naïve bayes, dan melakukan text processing meliputi menghapus angka, menghapus stopwords, dll
JAWABAN :
Sentimen Analisis Menggunakan Algoritma atau Model Naive Bayes
praktik menggunakan Naive Bayes untuk analisis sentimen
Contents:
* Mengimport library dan data
* Memproses teks menjadi vektor biner
* Pisahkan data menjadi tes dan latih
* Pasang Multinomial Naive Bayes dan periksa data uji
* Merencanakan matriks kebingungan dengan Seaborn
* Menemukan prediktor paling penting untuk sentimen positif dan negatif
* Memeriksa prediktor terhadap hasil maskapai
Import library yang dibutuhkan seperti pandas, numpy, matplotlib,naive bayes dan library lainnya,
Pandas adalah library open source pada Python yang sering digunakan untuk memproses data yang meliputi pembersihan data, manipulasi data, hingga melakukan analisis data
NumPy (Numerical Python) adalah library python yang digunakan untuk bekerja dengan array dan juga memiliki fungsi yang bekerja dalam domain aljabar linier, transformasi fourier, dan matriks
Matplotlib adalah library Python yang fokus pada visualisasi data seperti plot grafik
dan library lainnya
setelah itu hubungkan google drive dengan google colab
Import data yang sudah ada pada google drive, jika drive dan colab sudah terhubung, lalu baca dataset tersebut, seteah itu tampilkan 5 data teratas dengan df.head, Kegunaan fungsi head pada pandas adalah untuk mendapatkan n baris data teratas
langkah selanjutnya lakukan teks preprocessing dan split data
lalu langkah selanjutnya kita akan menguji model naive bayes, berapa akurasi yang didapatkannya,
Naive Bayes adalah algoritma machine learning untuk masalah klasifikasi. Ini didasarkan pada teorema probabilitas Bayes. Hal ini digunakan untuk klasifikasi teks yang melibatkan set data pelatihan dimensi tinggi. Beberapa contohnya adalah penyaringan spam, analisis sentimental, dan klasifikasi artikel berita
langkah selanjutnya kita akan mengukuran performa dengan confusion matrix
Confusion matrix dapat digunakan untuk mengukur performa dalam permasalahan klasifikasi biner maupun permasalahan klasifikasi multiclass. Klasifikasi biner hanya menghasilkan dua ouput kelas (label), seperti “Ya” atau “Tidak”, “0” atau “1” untuk setiap data input yang diberikan
Akurasinya terlihat bagus seperti halnya matriks kebingungan. Tampaknya sangat kuat pada sentimen positif dan negatif tetapi lebih lemah pada sentimen netral. Ini yang diharapkan
Kita mengharapkan dari ini untuk melihat lebih banyak hubungan positif dengan Delta, Southwest dan Virgin, dan lebih banyak hubungan negatif dengan American, US Airways dan United. Ini dapat dilihat sampai batas tertentu karena Southwest dan Virgin menempati posisi yang lebih tinggi dalam daftar positif dan American, US Airways dan United lebih tinggi dalam daftar negatif (bila dibandingkan dengan mereka sendiri). Namun perbedaan jumlah penumpang menumpulkan efek ini, contohnya adalah United yang memegang sentimen paling negatif dan paling positif ketiga