Analisis Data Science Menggunakan PySpark

Rendra Baskoro Tuharea

Sosial Media


0 orang menyukai ini
Suka

Summary

Apache Spark merupakan platform untuk komputasi cluster. Apache Spark adalah engine analisis terpadu super cepat untuk memproses data dalam skala besar, meliputi Big Data dan machine learning. Hal ini didasarkan pada Hadoop MapReduce dan memperluas model dari MapReduce untuk efisiensi lebih banyak jenis perhitungan, yang mencakup query interaktif dan stream processing. Fitur utama Apache Spark adalah komputasi cluster di memory yang meningkatkan kecepatan pemrosesan aplikasi. Apache Spark dirancang untuk mencakup berbagai macam beban kerja seperti batch aplication, iterative algorithms, interactive queres dan streaming.

Description

PENGENALAN:

Secara lebih detailnya, Apache Spark dapat didefinisikan sebagai engine ( perangkat lunak ) untuk memproses data dalam skala besar secara in-memory, dilengkapi dengan API pengembangan yang elegan dan ekspresif guna memudahkan para pekerja data dalam mengeksekusi pekerjaan-pekerjaan yang membutuhkan perulangan akses yang cepat terhadap data yang diproses, seperti halnya streaming, machine learning, maupun SQL, secara efisien. Apache Spark memungkinkan kita untuk menyebarkan data dan komputasi melalui cluster dengan banyak node (anggap setiap node sebagai komputer terpisah)

Apache Spark terdiri atas Spark Core (inti) dan sekumpulan library perangkat lunak. Inti dari Spark adalah distributed execution engine, dan API Java, Scala maupun Python disediakan sebagai platform untuk mengembangkan aplikasi ETL ( Extract, Transform, Load ) terdistribusi. Kemudian, library perangkat lunak tambahan, yang dibangun diatas intinya, memfasilitasi berbagai jenis pekerjaan yang berhubungan dengan streaming, SQL, dan machine learning.

Fitur dari Apache Spark :

  • Speed: Apache Spark membantu menjalankan aplikasi di cluster Hadoop hingga 100 kali lebih cepat dalam memory, dan 10 kali lebih cepat saat menjalankan disk. Hal ini memungkinkan karena dengan mengurangi jumlah operasi baca atau tulis ke disk dengan menyimpan data pemrosesan di memory.
  • Supports Multiple Languages: Apache Spark menyediakan built-in API di Java, Scala, atau Python. Karena itu aplikasi dapat ditulis dalam bahasa yang berbeda.
  • Advanced Analytics: Apache Spark tidak hanya mendukung Map dan Reduce. Apache Spark juga mendukung SQL queries, Streaming Data, Machine learning (ML), dan Graph algorithms. Apache Spark bekerja dengan cara menyimpan semua proses iterasi ke dalam memory, bukan ke dalam disk seperti halnya MapReduce. Apache Spark mempunyai kecepatan 100 kali lebih cepat di dalam memory dibandingkan MapReduce.

 

Setelah sebelumnya kita mengenal Apache Spark sekarang kita akan mencoba untuk membuat program untuk mengolah sebuah data menggunakan librabry PySpark. Silahkan mengikuti Langkah-langkah berikut.

 

Langkah-langkah sebelumnya merupakan dasar-dasar untuk menganalisis data menggunakan PySpark.

Informasi Course Terkait
  Kategori: Data Science / Big Data
  Course: Big Data Analytics dengan PySpark