EDA dan Modeling dengan PySpark

Siti Khaalishah

Sosial Media


0 orang menyukai ini
Suka

Summary

Membuat EDA dan Modeling dengan PySpark menggunakan dataset dari kaggle untuk klasifikasi beras antara beras jasmine dan beras gonen.

Description

Dataset yang digunakan pada project ini saya ambil dari kaggle https://www.kaggle.com/datasets/mssmartypants/rice-type-classification 

Dataset ini terdiri dari 12 kolom yaitu, Id, Area, MajorAxisLength, MinorAxisLength, Eccentricity, ConvexArea, EquivDiameter, Extent, Perimeter, Roundness, AspectRation, dan Class.

  • Menginstal pyspark

Pertama yang harus dilakukan adalah menginstall pyspark terlebih dahulu, untuk codenya dapat dilihat pada gambar dibawah.

  • Membuat SparkSession dengan mengimport from pyspark.sql import SparkSession

Nama pada SparkSession bisa apa saja disini saya membuat dengan nama thisPyspark.

  • Membaca file csv

  • Menuliskan code df.printSchema()

code df.printSchema digunakan untuk menampilkan skema dataframe PySpark. Dapat dilihat terdapat kolom-kolom yang ada pada dataframe beserta tipe datanya.

  • Menampilkan deskripsi data

  • Menampilkan visualisasi pada setiap kolom

Kolom dibawah menampilkan visualisasi pada kolom Area dan Kolom MajorAxisLength.

Kolom MinorAxisLength dan Kolom Eccentricity

 

Kolom ConvexArea dan Kolom EquivDiameter

 

Kolom Extent dan Kolom Perimeter

  

Kolom Roundness dan Kolom AspectRation

 

Informasi Course Terkait
  Kategori: Data Science / Big Data
  Course: Big Data Analytics dengan PySpark