Muhammad Farobby
Pada tugas akhir course BIG DATA ANALYTICS DENGAN PYSPARK, saya menganalisis sebuah data menggunakan Pyspark,saya mengambil data dari kaggle yaitu ClubNames.csv yang berisikan informasi tentang club club bola
Kodingan yang saya buat bertujuan melakukan beberapa analisis data menggunakan PySpark DataFrame. Berikut adalah rangkuman analisis yang dilakukan:
1. Membuat Data Karyawan dan Departemen:
• Kode membuat beberapa objek Employee yang mewakili karyawan dengan atribut seperti nama depan, nama belakang, email, dan gaji.
• Juga, objek Row digunakan untuk membuat data departemen dengan atribut id dan nama.
2. Membuat DataFrame dengan PySpark:
• Kode membuat DataFrame dframe yang menggambarkan hubungan antara departemen dan karyawan menggunakan objek-objek karyawan dan departemen yang telah dibuat sebelumnya.
3. Membaca Data dari CSV:
• Kode membaca data dari file CSV yang disebut "ClubNames.csv" ke dalam DataFrame fifa_df.
4. Menampilkan dan Mengeksplorasi DataFrame:
• Kode menampilkan beberapa informasi terkait DataFrame seperti isinya, skema (schema), dan melakukan beberapa operasi eksplorasi data.
5. Analisis Statistik Deskriptif:
• Kode menggunakan beberapa metode untuk melakukan analisis statistik deskriptif pada kolom-kolom tertentu dalam DataFrame fifa_df. Contohnya, describe('Name') dan describe('url') untuk mendapatkan ringkasan statistik deskriptif.
6. Pemilihan dan Penampilan Kolom Tertentu:
• Kode memilih dan menampilkan kolom-kolom tertentu dari DataFrame, seperti "Name" dan "url".
7. Menampilkan Data Unik:
• Kode menampilkan data unik dari kolom "Name" dan "url". Namun, untuk memberikan analisis yang lebih rinci, kita perlu melihat output yang dihasilkan oleh beberapa operasi tersebut. Misalnya, melihat hasil show(), printSchema(), dan output dari operasi lainnya akan memberikan gambaran lebih lanjut tentang struktur dan isi dari DataFrame tersebut