Kevin Gustian The
Apache Spark adalah engine analisis terpadu untuk memproses data dalam skala besar dengan sangat cepat. Fitur utama Apache Spark adalah komputasi cluster di memori yang meningkatkan kecepatan pemrosesan aplikasi. Apache Spark dirancang untuk dapat menangani berbagai macam beban kerja seperti batch, iterative algorithms, interactive queres, dan streaming. PySpark adalah Python API untuk Apache Spark, open source, kerangka kerja komputasi terdistribusi dan kumpulan library untuk pemrosesan data skala besar waktu nyata. PySpark sangat cocok digunakan untuk memproses dataset yang sangat besar (Big Data). Dalam portofolio ini akan dilakukan analisis Big Data dengan PySpark pada dataset Mall (https://drive.google.com/file/d/1e4gTzUetGIlU_wh75vEWz5b4BUVBKmO9/view).
Langkah-langkah proses analisis Big Data dengan PySpark, yaitu sebagai berikut: