Exploratory Data Analysis Diamond Dataset

Nanda Vian Nugraha

Sosial Media


0 orang menyukai ini
Suka

Summary

Exploration data analisis dan modeling pada dataset penjualan Diamond. Dataset yang digunakan adalah Diamond yang didapat melalui open dataset Kaggle. Projek ini menggunakan tools google collaboratory

Description

Dataset Didapatkan pada link

https://www.kaggle.com/datasets/shivam2503/diamonds

Isi Dari Dataset Tersebut

  • Price Harga dalam US Dollars ($326--$18,823)
  • Carat Berat dari berlian (0.2--5.01)
  • Cut Kualitas Potongan (Fair, Good, Very Good, Premium, Ideal)
  • Color warna berlian Dari J (Paling Jelek) ke D (Terbagus)
  • Clarity Ukuran kejernihan dari berlian (I1 (worst), SI2, SI1, VS2, VS1, VVS2, VVS1, IF (best))
  • x lebar dalam mm (0--10.74)
  • y panjang dalam mm (0--58.9)
  • z kedalaman dalam mm (0--31.8)
  • depth total depth percentage = z / mean(x, y) = 2 * z / (x + y) (43--79)
  • table width of top of diamond relative to widest point (43--95)
  1. Langkah Awal Mendownload dan mencari Info dari dataset Diamond

2. Mencari dan menghapus nilai nol

3. Mencari dan merapikan nilai outliers berdasarkan kuantil pada kolom x y dan z

4. Memperlihatkan fitur pada dataset 

Melihat distribusi Fitur

Melihat hubungan fitur dengan harga

Mengamati hubungan antar fitur numerik dengan pairplot

Melihat hubunga dengan heat map matriks kolerasi

Dari hubungan matriks kolerasi dapat disimpulkan bahwa harga sebuah berlian sangat bergantung pada ukuran x y dan z serta kadar karat

Informasi Course Terkait
  Kategori: Data Science / Big Data
  Course: Data Science