Nugraha Varrel Kusuma
Analisis Data Eksploratif (EDA) adalah langkah penting dalam proses analisis data yang melibatkan merangkum dan memvisualisasikan data untuk mengekstrak wawasan yang berarti. Dalam proyek ini, kami melakukan EDA pada dataset smartphone untuk memahami pola dan hubungan yang mendasari antara berbagai fitur. Proses ini membantu dalam membuat keputusan yang terinformasi untuk analisis lebih lanjut dan pembuatan model.
link dataset : dataset smartphone
Portofolio ini menyajikan analisis data eksploratif (EDA) pada sebuah dataset smartphone. Analisis ini mencakup memuat dan menyiapkan dataset, pra-pemrosesan data, serta analisis eksploratif yang mendetail untuk mengungkapkan wawasan mengenai berbagai fitur smartphone dan hubungan antar fitur tersebut.
Tujuan dari portfolio ini adalah untuk melakukan Analisis Data Eksploratif (EDA) pada dataset smartphone. EDA membantu kita memahami dataset dengan lebih baik, mengeksplorasi hubungan antar variabel, dan menemukan wawasan yang dapat digunakan untuk pengambilan keputusan yang lebih baik. Melalui kode ini, kami bertujuan untuk:
Melalui langkah-langkah ini, kami berharap untuk mendapatkan pemahaman yang lebih baik tentang pasar smartphone dan faktor-faktor yang memengaruhinya.
Blok kode ini mengimpor dan memasang library yang diperlukan untuk pemrosesan data, visualisasi, dan analisis statistik. Library seperti pandas, numpy, matplotlib, dan seaborn digunakan untuk berbagai operasi data dan visualisasi. WordCloud digunakan untuk membuat visualisasi awan kata. Selain itu, beberapa pengaturan awal dilakukan, seperti mengatur gaya plot dan menonaktifkan pesan peringatan untuk menjaga output tetap bersih.
Blok kode ini mencoba memuat dataset dari file CSV. Penggunaan try-except memungkinkan penanganan kesalahan yang lebih baik. Jika file tidak ditemukan atau terjadi kesalahan lainnya, pesan kesalahan akan dicetak. Ini memastikan bahwa jika ada masalah selama pemuatan data, pengguna mendapatkan informasi yang jelas mengenai apa yang salah.
Blok kode ini melakukan beberapa langkah penting dalam pra-pemrosesan data:
Blok kode ini mengidentifikasi kolom-kolom yang memiliki nilai yang hilang dan menyediakan ringkasan statistik untuk kolom-kolom tersebut. Ini membantu memahami sejauh mana nilai yang hilang dan karakteristik dari kolom-kolom tersebut, yang penting untuk menentukan strategi penanganan yang tepat.
Blok kode ini menangani nilai yang hilang dalam dataset dengan berbagai cara:
Blok kode ini memeriksa bentuk dataset untuk memahami jumlah baris dan kolomnya. Selain itu, memberikan statistik deskriptif dari semua kolom numerik, seperti mean, median, dan standar deviasi, untuk memberikan gambaran umum tentang distribusi data.
Blok kode ini membuat histogram untuk setiap kolom numerik dalam dataset. Histogram ini dilengkapi dengan garis KDE (Kernel Density Estimate) untuk menunjukkan distribusi data. Setiap subplot diberi warna latar belakang abu-abu dan judul yang diformat dengan baik. Ini membantu untuk dengan cepat memahami distribusi dari setiap variabel numerik dalam dataset.
Blok kode ini membuat visualisasi word cloud dari merek-merek prosesor yang ada dalam dataset. Word cloud ini membantu untuk melihat frekuensi kemunculan masing-masing merek prosesor dengan cepat, dimana ukuran teks mencerminkan frekuensi tersebut.
Blok kode ini memvisualisasikan distribusi sistem operasi dan ketersediaan pengisian cepat menggunakan count plot dan pie chart. Dengan dua jenis plot untuk masing-masing fitur, kita bisa melihat jumlah dan proporsi kategori dengan lebih jelas. Count plot menunjukkan jumlah dalam setiap kategori, sementara pie chart menunjukkan proporsi masing-masing kategori dalam bentuk persentase.
Blok kode ini mengurutkan dataframe berdasarkan rating dan membuat box plot untuk memvisualisasikan distribusi rating berdasarkan merek. Hal ini membantu untuk melihat bagaimana rating bervariasi di antara berbagai merek smartphone dan mengidentifikasi merek-merek dengan rating tertinggi atau terendah.
Blok kode ini menghitung matriks korelasi untuk semua variabel numerik dalam dataset dan memvisualisasikannya menggunakan heatmap. Heatmap membantu untuk melihat hubungan antar variabel dan mengidentifikasi pasangan variabel yang memiliki korelasi tinggi, yang dapat memberikan wawasan tentang keterkaitan antar fitur dalam dataset.