Big Data Analytics Dengan Pyspark

Christina Putri Hutahaean

Sosial Media


0 orang menyukai ini
Suka

Summary

Big Data Analytics dengan PySpark adalah bidang yang mengeksplorasi cara mengelola dan menganalisis data besar menggunakan PySpark. Berikut beberapa poin penting: PySpark: Ini adalah Python package yang memungkinkan Anda berinteraksi dengan Apache Spark, kerangka kerja cluster computing yang sangat cepat untuk data besar. PySpark memungkinkan Anda menjalankan program hingga 100x lebih cepat dalam memori atau 10x lebih cepat di disk dibandingkan dengan Hadoop.

Description

 

Penjelasan:

  1. from google.colab import drive drive.mount('/content/drive') :Ini menghubungkan Google Drive Anda ke Colab sehingga Anda dapat mengakses file yang tersimpan di sana.
  2.  !pip install pyspark: Menginstall pustaka PySpark untuk mengolah data besar dengan Spark.
  3. from pyspark.sql import SparkSession
    spark = SparkSession.builder \
    .appName("PySpark Example") \
    .getOrCreate() :Membuat sesi Spark untuk mulai menggunakan PySpark.
  4. file_path = '/content/drive/MyDrive/Tugas MBKM/Automobile_data.csv'
    df = spark.read.csv(file_path, header=True, inferSchema=True): Membaca file CSV dari Google Drive dan membuat DataFrame Spark dengan mengaktifkan header dan menginferensikan skema otomatis.
  5. df.show(): Menampilkan 20 baris pertama dari DataFrame.
  6. df.printSchema(): Menampilkan skema dari DataFrame, termasuk nama kolom dan tipe data.
  7. print("Column Names:", df.columns)
    print("Row Count:", df.count())
    print("Column Count:", len(df.columns)): Menampilkan informasi dasar tentang DataFrame.
  8. df.describe().show(): Menampilkan statistik deskriptif dari kolom-kolom numerik di DataFrame.
  9. df.select('make').distinct().show(): Menampilkan nilai unik dari kolom make.
  10. df.select('make', 'price').show(): Menampilkan kolom make dan price dari DataFrame.
  11. from pyspark.sql.functions import col
    df = df.withColumn('total_power', col('engine-size') + col('horsepower')): Menambahkan kolom baru total_power yang merupakan penjumlahan dari engine-size dan horsepower.
  12. df.createOrReplaceTempView("table_name"): Membuat temporary view dengan nama table_name.
  13. df = df.withColumnRenamed('old_column_name', 'new_column_name'): Mengganti nama kolom dari old_column_name menjadi new_column_name.
  14. filtered_df = df.filter(df['horsepower'] > 100)
    filtered_df.show(): Menyaring baris yang memiliki nilai horsepower lebih dari 100 dan menampilkannya.
  15. avg_value = df.select(avg('horsepower')).show(): Menghitung dan menampilkan nilai rata-rata dari kolom horsepower.
  16. sorted_df = df.orderBy('horsepower'):Mengurutkan DataFrame berdasarkan kolom horsepower.
  17. df = df.fillna({'horsepower': '0'}):Mengisi nilai kosong pada kolom horsepower dengan nilai '0'.














     

Informasi Course Terkait
  Kategori: Data Science / Big Data
  Course: Big Data Analytics dengan PySpark