Portofolio Detail >> Stress Detection Reddit Using PySpark

Stress Detection Reddit Using PySpark

Azizah Qolbu Antika

Sosial Media

0 orang menyukai ini
Suka

Summary

Deteksi adalah suatu proses untuk memeriksa atau melakukan pemeriksaan terhadap sesuatu dengan menggunakan cara dan teknik tertentu. Deteksi dapat digunakan untuk berbagai masalah, misalnya dalam sistem pendeteksi stress, dimana sistem mengidentifikasi masalah-masalah yang berhubungan dengan tingkat stress seseorang. Tujuan dari deteksi adalah memecahkan suatu masalah dengan berbagai cara tergantung metode yang diterapkan sehingga menghasilkan sebuah solusi.

Reddit adalah platform media sosial yang bergantung pada komunitas online untuk mengisi kontennya. Cara ini bekerja untuk memutuskan apa saja yang layak dan tidak layak ditampilkan dengan memungkinkan mereka yang memposting tautan dan informasi mereka sendiri. Pengguna Reddit ini kemudian akan bertanggung jawab dalam memberikan suara pada postingan, baik naik maupun turunnya dalam menentukan informasi mana yang terbaik.

Apache Spark merupakan engine analisis terpadu untuk memproses suatu data yang berskala besar, meliputi Big Data dan Machine Learning. Yang mana fitur utama dari Apache Spark ini adalah mengkomputasi cluster di memory dan dapat meningkatkan kecepatan dalam memproses sebuah aplikasi.

link Kaggle dataset yang akan digunakan adalah berikut ini:
https://www.kaggle.com/datasets/ruchi798/stress-analysis-in-social-media.

Description

Install PySpark
Mengcreate Spark Session
Membaca dan mengambil file dari google drive
Menampilkan data teratas pada dataframe
Membuat DataFrame PySpark
Mengubah nama kolom (tanpa index)
Mengubah nama kolom dengan _index
Mengubah nama kolom
df_psp = df_ps.toDF(*colName)
Membuat list kolom baru yang berupa bentuk index kolom yang ada
Menambahkan kolom-kolom index baru dan menampilkannya
Transformator fitur-VectorAssembler
Transformator fitur-vectorAssembler untuk dataset tanpa header
Mengimport packages yang diperlukan
Memisahkan dataset menjadi train_df dan test_df
Menerapkan Naive Bayes, menginisialisasi modelnya, menyesuaikan model dan membuat prediksi test_df
Mengevaluasi model
Karena ini adalah masalah klasifikasi dari beberapa kelas, maka kami akan menggunakan MulticlassClassificationEvaluator dari paket Machine Learning.

Dapat disimpulkan bahwa disini, kami mendapatkan akurasi model yang cukup bagus yaitu sebesar 71%. Yang mana Naïve bayes tidak memerlukan banyak penyetelan pada hyperparameternya.

Informasi Course Terkait

Kategori: Data Science / Big Data
Course: Big Data Analytics dengan PySpark

Kelas GRATIS

Master Class

Learning Path

Master Class + Sertifikasi BNSP

Master Class + Sertifikasi Internasional

Portofolio Peserta

Webinar

Udemy

Kelas GRATIS

Master Class

Master Class + Sertifikasi BNSP

Master Class + Sertifikasi Internasional

Learning Path

Portofolio Peserta

Program Special

Webinar

Udemy

Learncation

Sertifikasi Internasional

Sertifikasi Nasional

Kelas Corporate

Sertifikasi Internasional

Sertifikasi Nasional

Kelas Corporate

Kolaborasi Seminar

Kolaborasi pelatihan

Gallery

Tentang Kami

Testimonial Peserta

Testimonial Video Peserta

Corporate Social Responsibility

Pengajar Kami

Hubungi Kami

Dokter Mekanik

E-learning

LEIP

Flungo

Tampil

Run Addicts

TripTracker

Gramatikal