Big Data Analytics dengan PySpark: Dataset Mall

Kevin Gustian The

Sosial Media


2 orang menyukai ini
Suka

Summary

Apache Spark adalah engine analisis terpadu untuk memproses data dalam skala besar dengan sangat cepat. Fitur utama Apache Spark adalah komputasi cluster di memori yang meningkatkan kecepatan pemrosesan aplikasi. Apache Spark dirancang untuk dapat menangani berbagai macam beban kerja seperti batch, iterative algorithms, interactive queres, dan streaming. PySpark adalah Python API untuk Apache Spark, open source, kerangka kerja komputasi terdistribusi dan kumpulan library untuk pemrosesan data skala besar waktu nyata. PySpark sangat cocok digunakan untuk memproses dataset yang sangat besar (Big Data). Dalam portofolio ini akan dilakukan analisis Big Data dengan PySpark pada dataset Mall (https://drive.google.com/file/d/1e4gTzUetGIlU_wh75vEWz5b4BUVBKmO9/view).

Description

Langkah-langkah proses analisis Big Data dengan PySpark, yaitu sebagai berikut:

  1. Install PySpark
  2. Membuat Spark Session
  3. Membaca dataset
  4. Menampilkan tipe data pada setiap kolom
  5. Menampilkan nama kolom, jumlah baris, dan jumlah kolom
  6. Menampilkan statistik data pada setiap kolom
  7. Menampilkan kolom CustomerID dan Gender
  8. Membuat kolom baru yaitu Total Income dengan nilai Annual Income + Bonus Income
  9. Mengubah nama kolom TotalIncome menjadi Total Income (k$)
  10. Melakukan filter data dimana Age (Umur) lebih besar dari 30 tahun
  11. Melakukan imputasi data jika ada data yang kosong pada dataframe
  12. Melakukan visualisasi data pada kolom Age

Informasi Course Terkait
  Kategori: Data Science / Big Data
  Course: Big Data Analytics dengan PySpark