Portofolio New Classification Machine Learning

MOHAMAD FRANANDA ADIEZWARA RAMADHAN

Sosial Media


0 orang menyukai ini
Suka

Summary

Sentimen Analisis Menggunakan Algoritma atau Model Naive Bayes 

Description

DASAR TEORI :

machine learning (ML) adalah mesin yang dikembangkan untuk bisa belajar dengan sendirinya tanpa arahan dari penggunanya. Pembelajaran mesin dikembangkan berdasarkan disiplin ilmu lainnya seperti statistika, matematika dan data mining sehingga mesin dapat belajar dengan menganalisa data tanpa perlu di program ulang atau diperintah

Klasifikasi dalam machine learning adalah suatu pengelompokan data dimana data yang digunakan tersebut mempunyai kelas label atau target. Sehingga algoritma-algoritma untuk menyelesaikan masalah klasifikasi dikategorisasikan ke dalam supervised learning atau pembelajaran yang diawasi. Maksud dari pembelajaran yang diawasi adalah data label atau target ikut berperan sebagai ‘supervisor’ atau ‘guru’ yang mengawasi proses pembelajaran dalam mencapai tingkat akurasi atau presisi tertentu.

 

INTRUKSI :

Untuk data yang ada pada link: https://www.kaggle.com/crowdflower/twitter-airline-sentiment, (download Tweets.csv) silahkan buat model sentiment analysis menggunakan support vector machine atau naïve bayes, dan melakukan text processing meliputi menghapus angka, menghapus stopwords, dll

 

JAWABAN :

Sentimen Analisis Menggunakan Algoritma atau Model Naive Bayes

praktik menggunakan Naive Bayes untuk analisis sentimen

Contents:
* Mengimport library dan data
* Memproses teks menjadi vektor biner
* Pisahkan data menjadi tes dan latih
* Pasang Multinomial Naive Bayes dan periksa data uji
* Merencanakan matriks kebingungan dengan Seaborn
* Menemukan prediktor paling penting untuk sentimen positif dan negatif
* Memeriksa prediktor terhadap hasil maskapai

Import library yang dibutuhkan seperti pandas, numpy, matplotlib,naive bayes dan library lainnya,

Pandas adalah library open source pada Python yang sering digunakan untuk memproses data yang meliputi pembersihan data, manipulasi data, hingga melakukan analisis data

NumPy (Numerical Python) adalah library python yang digunakan untuk bekerja dengan array dan juga memiliki fungsi yang bekerja dalam domain aljabar linier, transformasi fourier, dan matriks

Matplotlib adalah library Python yang fokus pada visualisasi data seperti plot grafik

dan library lainnya

setelah itu hubungkan google drive dengan google colab

Import data yang sudah ada pada google drive, jika drive dan colab sudah terhubung, lalu baca dataset tersebut, seteah itu tampilkan 5 data teratas dengan df.head, Kegunaan fungsi head pada pandas adalah untuk mendapatkan n baris data teratas

langkah selanjutnya lakukan teks preprocessing dan split data

lalu langkah selanjutnya kita akan menguji model naive bayes, berapa akurasi yang didapatkannya, 

Naive Bayes adalah algoritma machine learning untuk masalah klasifikasi. Ini didasarkan pada teorema probabilitas Bayes. Hal ini digunakan untuk klasifikasi teks yang melibatkan set data pelatihan dimensi tinggi. Beberapa contohnya adalah penyaringan spam, analisis sentimental, dan klasifikasi artikel berita

langkah selanjutnya kita akan mengukuran performa dengan confusion matrix

Confusion matrix dapat digunakan untuk mengukur performa dalam permasalahan klasifikasi biner maupun permasalahan klasifikasi multiclass. Klasifikasi biner hanya menghasilkan dua ouput kelas (label), seperti “Ya” atau “Tidak”, “0” atau “1” untuk setiap data input yang diberikan

Akurasinya terlihat bagus seperti halnya matriks kebingungan. Tampaknya sangat kuat pada sentimen positif dan negatif tetapi lebih lemah pada sentimen netral. Ini yang diharapkan

Kita mengharapkan dari ini untuk melihat lebih banyak hubungan positif dengan Delta, Southwest dan Virgin, dan lebih banyak hubungan negatif dengan American, US Airways dan United. Ini dapat dilihat sampai batas tertentu karena Southwest dan Virgin menempati posisi yang lebih tinggi dalam daftar positif dan American, US Airways dan United lebih tinggi dalam daftar negatif (bila dibandingkan dengan mereka sendiri). Namun perbedaan jumlah penumpang menumpulkan efek ini, contohnya adalah United yang memegang sentimen paling negatif dan paling positif ketiga

Informasi Course Terkait
  Kategori: Natural Language Processing
  Course: News Classification dengan Machine Learning