BISA AI - AI For Everyone

Big Data Analytics Dengan Pyspark

Christina Putri Hutahaean

Sosial Media

0 orang menyukai ini
Suka

Summary

Big Data Analytics dengan PySpark adalah bidang yang mengeksplorasi cara mengelola dan menganalisis data besar menggunakan PySpark. Berikut beberapa poin penting: PySpark: Ini adalah Python package yang memungkinkan Anda berinteraksi dengan Apache Spark, kerangka kerja cluster computing yang sangat cepat untuk data besar. PySpark memungkinkan Anda menjalankan program hingga 100x lebih cepat dalam memori atau 10x lebih cepat di disk dibandingkan dengan Hadoop.

Description

Penjelasan:

from google.colab import drive drive.mount('/content/drive') :Ini menghubungkan Google Drive Anda ke Colab sehingga Anda dapat mengakses file yang tersimpan di sana.
!pip install pyspark: Menginstall pustaka PySpark untuk mengolah data besar dengan Spark.
from pyspark.sql import SparkSession
spark = SparkSession.builder \
.appName("PySpark Example") \
.getOrCreate() :Membuat sesi Spark untuk mulai menggunakan PySpark.
file_path = '/content/drive/MyDrive/Tugas MBKM/Automobile_data.csv'
df = spark.read.csv(file_path, header=True, inferSchema=True): Membaca file CSV dari Google Drive dan membuat DataFrame Spark dengan mengaktifkan header dan menginferensikan skema otomatis.
df.show(): Menampilkan 20 baris pertama dari DataFrame.
df.printSchema(): Menampilkan skema dari DataFrame, termasuk nama kolom dan tipe data.
print("Column Names:", df.columns)
print("Row Count:", df.count())
print("Column Count:", len(df.columns)): Menampilkan informasi dasar tentang DataFrame.
df.describe().show(): Menampilkan statistik deskriptif dari kolom-kolom numerik di DataFrame.
df.select('make').distinct().show(): Menampilkan nilai unik dari kolom make.
df.select('make', 'price').show(): Menampilkan kolom make dan price dari DataFrame.
from pyspark.sql.functions import col
df = df.withColumn('total_power', col('engine-size') + col('horsepower')): Menambahkan kolom baru total_power yang merupakan penjumlahan dari engine-size dan horsepower.
df.createOrReplaceTempView("table_name"): Membuat temporary view dengan nama table_name.
df = df.withColumnRenamed('old_column_name', 'new_column_name'): Mengganti nama kolom dari old_column_name menjadi new_column_name.
filtered_df = df.filter(df['horsepower'] > 100)
filtered_df.show(): Menyaring baris yang memiliki nilai horsepower lebih dari 100 dan menampilkannya.
avg_value = df.select(avg('horsepower')).show(): Menghitung dan menampilkan nilai rata-rata dari kolom horsepower.
sorted_df = df.orderBy('horsepower'):Mengurutkan DataFrame berdasarkan kolom horsepower.
df = df.fillna({'horsepower': '0'}):Mengisi nilai kosong pada kolom horsepower dengan nilai '0'.

Informasi Course Terkait

Kategori: Data Science / Big Data
Course: Big Data Analytics dengan PySpark

Kelas GRATIS

Master Class

Master Class on Job Training

Learning Path

Kelas OFFLINE

Kelas Corporate

Prakerja

Webinar

Udemy

Kampus Merdeka

Learncation

Portofolio Peserta

Sertifikasi International

Sertifikasi Nasional

Kuliah RPL

Politeknik BISA AI

Pendidikan Profesional

Educloud

Siakad by Bisa AI

IT Solution

Konsultan Pendidikan

Kolaborasi Seminar

Kolaborasi pelatihan

Gallery

Tentang Kami

Testimonial Peserta

Corporate Social Responsibility

Hubungi Kami

Dokter Mekanik

E-learning

Bisa Design

Flungo

Tampil

Bakerspice Academy

TripTracker

Gramatikal

Big Data Analytics Dengan Pyspark

Sosial Media

Summary

Description

Informasi Course Terkait

Bisa AI Academy