Ardi Rudini
Dataset yang saya gunakan adalah Student Mental Health Dataset yang diperoleh melalui open dataset Kaggle. Tools yang digunakan adalah Google Collaboratory dan PySpark
Dataset dapat diakses pada link berikut ini :
Instalasi Pyspark
Membuat spark session
Mounting google drive dan melakukan pengecekan terhadap tipe data
Mengecek Banyaknya isi data
Mengganti dan menyederhanakan beberapa nama column
Mengecek Missing Value
Mengganti value column menjadi 0 1
Membuat column Mental health berdasarkan kondisi Depression, Anxiety, dan Pannic Attack
Piechart Mental Health
Melakukan data splitting
Melakukan fitting dengan logistic regression
Setelah semua proses, didapati hasil seperti dibawah ini: