Siti Khaalishah
Membuat EDA dan Modeling dengan PySpark menggunakan dataset dari kaggle untuk klasifikasi beras antara beras jasmine dan beras gonen.
Dataset yang digunakan pada project ini saya ambil dari kaggle https://www.kaggle.com/datasets/mssmartypants/rice-type-classification
Dataset ini terdiri dari 12 kolom yaitu, Id, Area, MajorAxisLength, MinorAxisLength, Eccentricity, ConvexArea, EquivDiameter, Extent, Perimeter, Roundness, AspectRation, dan Class.
Pertama yang harus dilakukan adalah menginstall pyspark terlebih dahulu, untuk codenya dapat dilihat pada gambar dibawah.
Nama pada SparkSession bisa apa saja disini saya membuat dengan nama thisPyspark.
code df.printSchema digunakan untuk menampilkan skema dataframe PySpark. Dapat dilihat terdapat kolom-kolom yang ada pada dataframe beserta tipe datanya.
Kolom dibawah menampilkan visualisasi pada kolom Area dan Kolom MajorAxisLength.
Kolom MinorAxisLength dan Kolom Eccentricity
Kolom ConvexArea dan Kolom EquivDiameter
Kolom Extent dan Kolom Perimeter
Kolom Roundness dan Kolom AspectRation