Big Data Analytics dengan PySpark

Alysha Zahira Farras Ihsani

Sosial Media


0 orang menyukai ini
Suka

Summary

PySpark merupakan sebuah framework atau environtment yang dapat digunakan untuk mengakses data dari berbagai sumber berbeda, kemudian mengolah data tersebut, kemudian menyimpannya kedalam penyimpanan data untuk dianalisis.

Dalam portofolio ini digunakan dataset Heart Attack Analysis & Prediction Dataset untuk pengolahan datanya.

Sumber dataset : https://www.kaggle.com/datasets/rashikrahmanpritom/heart-attack-analysis-prediction-dataset 

Description

1. Install PySpark

2. Membuat Spark Session

3. Masukan data yang telah di download pada google drive

4. Membuat Perintah yang dapat menampilkan tipe data pada setiap kolom

5. Memuat perintah yang dapat menampilkan nama kolom, jumlah baris, dan jumlah kolom

6. Membuat perintah yang dapat menampilkan statistik data pada setiap kolom

7. Membuat perintah yang dapat menampilkan 2 kolom

8. Memuat perintah yang dapat membuat kolom baru dengan menambahkan value pada nilai tabel

9. Membuat perintah yang dapat melakukan perubahan pada nama kolom

10. Membuat Perintah yang dapat melakukan filter data pada salah satu kolom

11. Penampahan nilai data jika terdapat data kosong pada dataframe

12. Visualisasi data untuk salah satu kolom

Informasi Course Terkait
  Kategori: Data Science / Big Data
  Course: Big Data Analytics dengan PySpark