Stress Detection Reddit Using PySpark

Azizah Qolbu Antika

Sosial Media


0 orang menyukai ini
Suka

Summary

Deteksi adalah suatu proses untuk memeriksa atau melakukan pemeriksaan terhadap sesuatu dengan menggunakan cara dan teknik tertentu. Deteksi dapat digunakan untuk berbagai masalah, misalnya dalam sistem pendeteksi stress, dimana sistem mengidentifikasi masalah-masalah yang berhubungan dengan tingkat stress seseorang. Tujuan dari deteksi adalah memecahkan suatu masalah dengan berbagai cara tergantung metode yang diterapkan sehingga menghasilkan sebuah solusi.

Reddit adalah platform media sosial yang bergantung pada komunitas online untuk mengisi kontennya. Cara ini bekerja untuk memutuskan apa saja yang layak dan tidak layak ditampilkan dengan memungkinkan mereka yang memposting tautan dan informasi mereka sendiri. Pengguna Reddit ini kemudian akan bertanggung jawab dalam memberikan suara pada postingan, baik naik maupun turunnya dalam menentukan informasi mana yang terbaik.

Apache Spark merupakan engine analisis terpadu untuk memproses suatu data yang berskala besar, meliputi Big Data dan Machine Learning. Yang mana fitur utama dari Apache Spark ini adalah mengkomputasi cluster di memory dan dapat meningkatkan kecepatan dalam memproses sebuah aplikasi.

link Kaggle dataset yang akan digunakan adalah berikut ini: 
https://www.kaggle.com/datasets/ruchi798/stress-analysis-in-social-media.

Description

  1. Install PySpark

     
  2. Mengcreate Spark Session

     
  3. Membaca dan mengambil file dari google drive

     
  4. Menampilkan data teratas pada dataframe

     
  5. Membuat DataFrame PySpark

     
  6. Mengubah nama kolom (tanpa index)

     
  7. Mengubah nama kolom dengan _index

     
  8. Mengubah nama kolom
    df_psp = df_ps.toDF(*colName)

     
  9. Membuat list kolom baru yang berupa bentuk index kolom yang ada

     
  10. Menambahkan kolom-kolom index baru dan menampilkannya

     
  11. Transformator fitur-VectorAssembler

     
  12. Transformator fitur-vectorAssembler untuk dataset tanpa header

     
  13. Mengimport packages yang diperlukan

     
  14. Memisahkan dataset menjadi train_df dan test_df

     
  15. Menerapkan Naive Bayes, menginisialisasi modelnya, menyesuaikan model dan membuat prediksi test_df

     
  16. Mengevaluasi model
    Karena ini adalah masalah klasifikasi dari beberapa kelas, maka kami akan menggunakan MulticlassClassificationEvaluator dari paket Machine Learning. 

    Dapat disimpulkan bahwa disini, kami mendapatkan akurasi model yang cukup bagus yaitu sebesar 71%. Yang mana Naïve bayes tidak memerlukan banyak penyetelan pada hyperparameternya. 

Informasi Course Terkait
  Kategori: Data Science / Big Data
  Course: Big Data Analytics dengan PySpark