EDA dan Visualisasi menggunakan R

Ahmad Sholihin

Sosial Media


1 orang menyukai ini
Suka

Summary

Exploratory Data Analysis (EDA) adalah bagian dari proses data science. EDA menjadi sangat penting sebelum melakukan feature engineering dan modeling karena dalam tahap ini kita harus memahami datanya terlebih dahulu. Sedangkan Visualisasi data adalah proses membuat representasi visual dari data. Memvisualisasikan data membantu pengguna untuk memahami pola, tren, hubungan, dan outlier yang tersembunyi di dalam data yang besar dan kompleks.

Description

Latar Belakang

Exploratory Data Analysis mencakup tentang proses kritis uji investigasi awal pada sebuah data untuk mengidentifikasi pola, menemukan anomali, menguji hipotesis, dan memeriksa asumsi melalui statistik ringkasan dan representasi grafis (visual). Data specialist menggunakan EDA untuk membedakan kumpulan data apa yang dapat diungkapkan lebih jauh di luar pemodelan data formal atau tugas pengujian hipotesis. Hal ini memungkinkan mereka untuk mendapatkan temuan mendalam tentang variabel dalam kumpulan data dan hubungannya. EDA dapat membantu mendeteksi kesalahan, mengidentifikasi outlier dalam kumpulan data, memahami hubungan antar data, menggali faktor-faktor penting, menemukan pola dalam data, dan memberikan wawasan baru. EDA sangat bermanfaat untuk analisis statistik. Data profesional sering kali menggunakan EDA untuk menemukan hasil yang valid dan relevan sebagai arah tujuan bisnis yang diinginkan.

Visualisasi data merupakan alat yang ampuh untuk menjelajahi kumpulan data yang besar dan kompleks. Memvisualisasikan data membantu pengguna untuk memahami pola, tren, hubungan, dan outlier yang tersembunyi di dalam data yang besar dan kompleks. Visualisasi data atau data visualization juga dapat didefinisikan sebagai bentuk grafis atau visual dari data dan informasi. Visualisasi data mengacu pada teknik yang digunakan untuk mengkomunikasi data atau informasi dengan membuatnya sebagai objek visual (misalnya, titik, garis, atau batang) dalam grafik. Setidaknya ada tiga tujuan visualisasi data, yaitu:

  • mempresentasikan data dan informasi
  • membantu eksplorasi data
  • metode untuk analisis data

 

Bahasa R

R programming adalah sistem perangkat lunak yang dirancang secara khusus untuk mengerjakan semua hal yang berkaitan dengan statistik. R hampir sama dengan program S atau yang sering kita sebut dengan software SPSS. R merupakan satu kesatuan software yang terintegrasi dengan beberapa fasilitas untuk manipulasi, perhitungan, dan penampilan grafik yang handal. Bagi seseorang yang masih terbilang awam, tentu saja masih belum mengenal, mengerti, bahkan mengetahui tentang apa itu R programming beserta dengan fungsi dan juga peranan R programming. Bahkan mungkin merasa aneh dengan R.

Bahasa pemrograman R adalah perangkat lunak (software) yang diciptakan untuk menguji, mengolah, dan menganalisis data statistika, grafik, data science, dll. Melalui R programming atau bahasa pemrograman R kita dapat menambah fungsi tambahan sesuai dengan yang kita inginkan. Melalui bahasa pemrograman R ini kita dapat mengolah data dengan mudah dan gratis. Selain itu, bahasa pemrograman R menyediakan bermacam-macam teknik statistika yaitu diantaranya adalah: pemodelan linier dan non linier, analisis deret waktu, statistik klasik, dll.

Selain itu, R mempunyai fitur yang lengkap dan handal serta faktor tanggung jawab moral dan legal/hukum tidak perlu dipertanyakan dan tidak perlu dikhawatirkan dalam penggunaannya, karena dapat diperoleh secara gratis.

Berikut adalah beberapa contoh yang diperoleh dari R sebagai acuan implementasi pada.

  • Pemodelan matematis (seperti software MATLAB) dalam membentuk perspektif, cocok digunakan pada jurusan arsitek, teknik sipil, mesin, dan ilmu komputer.
  • Pencitraan dan analisis kontur, cocok digunakan pada jurusan geografi dan sejenisnya.
  • Proses analisis data statistik, dengan tampilan grafik plot yang customized dan grafik fungsi densitas yang dapat dipraktekkan dengan histogram. Cocok digunakan di bidang statistika, ekonomi, dan lain-lain sejenisnya.

 

Dataset

Dataset yang digunakan dalam proyek ini diperolah dari Kaggle open dataset dengan judul stores dan library bahasa R yang digunakan yaitu tidyverse, dplyr, corrplot.

 

Langkah-Langkah EDA

Data spesialis melakukan Exploratory Data Analysis menggunakan bahasa scripting yang paling sering dipakai untuk statistik, contohnya Python dan R. Seorang analis harus mengikuti langkah-langkah berikut dalam menerapkan EDA pada penelitian mereka, antara lain:

  • Mempertanyakan hal yang berkaitan dengan analisis data;
  • Mendalami permasalahan yang dibahas;
  • Menentukan tujuan searah dengan output yang diinginkan.

Setidaknya ada empat teknik Exploratory Data Analysis yang umum digunakan oleh ahli data, antara lain:

  1. UNIVARIATE NON-GRAPHICAL

Inilah teknik yang paling sederhana dari EDA, di mana data yang diolah memiliki satu variabel. Karena hanya satu variabel, maka data profesional tidak perlu mengkhawatirkan tentang relasi data. Tujuan standar Univariate Non-Graphical pada EDA adalah untuk mengetahui distribusi/data sampel yang mendasari dan melakukan pengamatan tentang populasi. Deteksi outlier juga merupakan bagian dari analisis. Ciri-ciri distribusi populasi antara lain: Central tendency (mean, median, dan modus), spread (variabilitas, varian dan standar deviasi), bentuk distribusi (skewness dan kurtosis).

  1. UNIVARIATE GRAPHICAL

Bila Non-graphical data tidak menunjukan visualisasi lengkap mengenai data yang diolah, maka dalam metode graphical, peneliti akan menampilkan data secara visual. Data yang ditunjukkan dapat berupa stem-and-leaf plots, box plots, dan histogram.

  1. MULTIVARIATE NON-GRAPHICAL

Multivariate data memiliki beberapa variabel. Metode ini menunjukkan hubungan antara dua data variabel atau lebih menggunakan statistik atau tabulasi silang.

  1. MULTIVARIATE GRAPHICAL

Teknik EDA ini menggunakan grafik untuk menunjukkan hubungan antara dua data set atau lebih. Grafis multivariate yang paling sering digunakan antara lain adalah bar chart, bar plot, heat map, bubble chart, run chart, multivariate chart, dan scatter plot.

 

Langkah Visualisasi

Package ggplot2 merupakan salah satu package untuk visualisasi yang sudah diakui oleh sebagian besar pengguna R sebagai package terbaik untuk pembuatan visualisasi statis. Tahap awal yang harus dilakukan untuk melakukan visualisasi adalah dengan mengaktifkan package, atau melakukan instalasi package jika Anda belum menginstall package.

Tiga hal yang harus dimiliki untuk melakukan visualisasi menggunakan ggplot2.

  • Data
  • Fungsi ggplot() dan mendefinisikan aesthetic mapping (menentukan peubah yang akan digunakan)
  • Bentuk geometri pada package ggplot2 yang disingkat dengan geom

Informasi Course Terkait
  Kategori: Data Science / Big Data
  Course: Data Science Dengan R