Big Data Analytics dengan Pyspark : HR Employee

Muhammad Pradipta Yudhistira

Sosial Media


2 orang menyukai ini
Suka

Summary

PySpark adalah Python API untuk Apache Spark, open source, kerangka kerja komputasi terdistribusi dan kumpulan library untuk pemrosesan data skala besar waktu nyata. Jika Anda sudah terbiasa dengan Python dan library seperti Pandas, maka PySpark adalah bahasa yang baik untuk dipelajari untuk membuat analisis dan pipeline yang lebih skalabel. Singkatnya, Pandas menjalankan operasi pada satu mesin sedangkan PySpark berjalan pada banyak mesin. Jika Anda sedang mengerjakan aplikasi Machine learning di mana Anda berurusan dengan kumpulan data yang lebih besar, PySpark adalah yang paling cocok yang dapat memproses operasi berkali-kali (100x) lebih cepat daripada Pandas. Dalam Portofolio ini saya akan mengolah dataset pegawai, dan melakukan visualisasi Dataset.

Description

1.Install Pyspark

2. Mengcreate sparksession

3. Memasukkan data HREmployeeAttririon.csv

4. Menampilkan statistic dataset

 

Visualisasi Data

1. Menampilkan Jumlah pegawai dengan tingkatan edukasi tertentu, yaitu :

Education

1 'Below College'

2 'College'

3 'Bachelor'

4 ‘Master’

5 'Doctor'

2. Menampilkan Jumlah pegawai dengan tingkatan performa tertentu, yaitu :

PerformanceRating
1 'Low'
2 'Good'
3 'Excellent'
4 'Outstanding'

 

Informasi Course Terkait
  Kategori: Data Science / Big Data
  Course: Big Data Analytics dengan PySpark