Alysha Zahira Farras Ihsani
PySpark merupakan sebuah framework atau environtment yang dapat digunakan untuk mengakses data dari berbagai sumber berbeda, kemudian mengolah data tersebut, kemudian menyimpannya kedalam penyimpanan data untuk dianalisis.
Dalam portofolio ini digunakan dataset Heart Attack Analysis & Prediction Dataset untuk pengolahan datanya.
Sumber dataset : https://www.kaggle.com/datasets/rashikrahmanpritom/heart-attack-analysis-prediction-dataset
1. Install PySpark
2. Membuat Spark Session
3. Masukan data yang telah di download pada google drive
4. Membuat Perintah yang dapat menampilkan tipe data pada setiap kolom
5. Memuat perintah yang dapat menampilkan nama kolom, jumlah baris, dan jumlah kolom
6. Membuat perintah yang dapat menampilkan statistik data pada setiap kolom
7. Membuat perintah yang dapat menampilkan 2 kolom
8. Memuat perintah yang dapat membuat kolom baru dengan menambahkan value pada nilai tabel
9. Membuat perintah yang dapat melakukan perubahan pada nama kolom
10. Membuat Perintah yang dapat melakukan filter data pada salah satu kolom
11. Penampahan nilai data jika terdapat data kosong pada dataframe
12. Visualisasi data untuk salah satu kolom