Muhammad Pradipta Yudhistira
PySpark adalah Python API untuk Apache Spark, open source, kerangka kerja komputasi terdistribusi dan kumpulan library untuk pemrosesan data skala besar waktu nyata. Jika Anda sudah terbiasa dengan Python dan library seperti Pandas, maka PySpark adalah bahasa yang baik untuk dipelajari untuk membuat analisis dan pipeline yang lebih skalabel. Singkatnya, Pandas menjalankan operasi pada satu mesin sedangkan PySpark berjalan pada banyak mesin. Jika Anda sedang mengerjakan aplikasi Machine learning di mana Anda berurusan dengan kumpulan data yang lebih besar, PySpark adalah yang paling cocok yang dapat memproses operasi berkali-kali (100x) lebih cepat daripada Pandas. Dalam Portofolio ini saya akan mengolah dataset pegawai, dan melakukan visualisasi Dataset.
1.Install Pyspark
2. Mengcreate sparksession
3. Memasukkan data HREmployeeAttririon.csv
4. Menampilkan statistic dataset
Visualisasi Data
1. Menampilkan Jumlah pegawai dengan tingkatan edukasi tertentu, yaitu :
Education
1 'Below College'
2 'College'
3 'Bachelor'
4 ‘Master’
5 'Doctor'
2. Menampilkan Jumlah pegawai dengan tingkatan performa tertentu, yaitu :
PerformanceRating
1 'Low'
2 'Good'
3 'Excellent'
4 'Outstanding'