Rendra Baskoro Tuharea
Apache Spark merupakan platform untuk komputasi cluster. Apache Spark adalah engine analisis terpadu super cepat untuk memproses data dalam skala besar, meliputi Big Data dan machine learning. Hal ini didasarkan pada Hadoop MapReduce dan memperluas model dari MapReduce untuk efisiensi lebih banyak jenis perhitungan, yang mencakup query interaktif dan stream processing. Fitur utama Apache Spark adalah komputasi cluster di memory yang meningkatkan kecepatan pemrosesan aplikasi. Apache Spark dirancang untuk mencakup berbagai macam beban kerja seperti batch aplication, iterative algorithms, interactive queres dan streaming.
PENGENALAN:
Secara lebih detailnya, Apache Spark dapat didefinisikan sebagai engine ( perangkat lunak ) untuk memproses data dalam skala besar secara in-memory, dilengkapi dengan API pengembangan yang elegan dan ekspresif guna memudahkan para pekerja data dalam mengeksekusi pekerjaan-pekerjaan yang membutuhkan perulangan akses yang cepat terhadap data yang diproses, seperti halnya streaming, machine learning, maupun SQL, secara efisien. Apache Spark memungkinkan kita untuk menyebarkan data dan komputasi melalui cluster dengan banyak node (anggap setiap node sebagai komputer terpisah)
Apache Spark terdiri atas Spark Core (inti) dan sekumpulan library perangkat lunak. Inti dari Spark adalah distributed execution engine, dan API Java, Scala maupun Python disediakan sebagai platform untuk mengembangkan aplikasi ETL ( Extract, Transform, Load ) terdistribusi. Kemudian, library perangkat lunak tambahan, yang dibangun diatas intinya, memfasilitasi berbagai jenis pekerjaan yang berhubungan dengan streaming, SQL, dan machine learning.
Fitur dari Apache Spark :
Setelah sebelumnya kita mengenal Apache Spark sekarang kita akan mencoba untuk membuat program untuk mengolah sebuah data menggunakan librabry PySpark. Silahkan mengikuti Langkah-langkah berikut.
Langkah-langkah sebelumnya merupakan dasar-dasar untuk menganalisis data menggunakan PySpark.