Dimas
Pada proyek ini akan dilakukan pengelompokkan atau clustering mengenai pengggunaan internet global. Pengelompokkan ini didasarkan dari negara, pendapatan individu, penggunaan internet dan jumlah penduduk perkotaan. Hasil analisis berupa negara-negara mana saja yang termasuk kategori High Global Internet Usage, Medium Global Internet Usage dan Low Global Internet Usage.
Latar Belakang
Global Internet Usage merupakan jumlah orang yang menggunakan internet di seluruh dunia. Pada tahun 2015 International Telecommunication Union memperkirakan sekitar 3,2 miliar orang atau hampir setengah dari populasi dunia akan online pada akhir tahun. Dari jumlah tersebut, sekitar 2 miliar akan berasal dari negara berkembang, termasuk sekitar 89 juta dari negara berkembang. Menurut pernyataan dari Hootsuite jumlah pengguna internet global telah mencapai hampir mendekati 5 miliar atau sekitar 53% dari populasi global pada tahun 2021.
Tujuan
Pada proyek ini akan dilakukan analisis dan pengelompokkan negara-negara dengan pengguna internet terbesar. Pengelompokkan ini berdasarkan jumlah pendapatan per orang, jumlah pengguna internet per 100 orang dan jumlah penduduk perkotaan.
Informasi Dataset
Dataset ini berasal dari GapMinder yang saya peroleh dari kaggle. GapMinder mengumpulkan data dari beberapa sumber, termasuk Institute for Health Metrics and Evaluation, The US Census Bureau’s International Database, The United Nations Statistics Division, and The World Bank. Dataset yang digunakan terdiri dari 213 baris dan 4 kolom.
Adapun fitur dari dataset yang digunakan sebagai berikut:
Data Preparation
Pada tahapan ini melakukan pengecekan informasi terkait dataset yang digunakan, seperti melakukan pengecekan missing value, informasi statistik dataset, dan pengecekan data-data outlier.
Data missing value : incomeperperson, internetsuerrate dan urbanrate
Data outlier : incomeperperson
Tampilan lima dataset teratas
Data Cleansing
Pada tahapan ini melakukan imputasi terhadap missing value dengan nilai median dan mean, hal ini karena pada kolom incomeperperson teradapat outlier sehingga imputasi yang dilakukan menggunakan median. Sedangkan untuk kolom internetuserrate dan urbanrate imputasi dengan nilai mean. Selain itu melakukan handling terhadap data outlier dengan menggunakan IQR. Data outlier terdapat pada kolom incomeperperson sehingga pada kolom ini dilakukan IQR untuk handling outlier.
Analisis
Algoritma yang saya gunakan untuk melakukan pengelompokkan berdasarkan kemiripan karakteristik yaitu K-Means. K-Means merupakan salah satu algoritma unsuvervised learning machine learning. Saya menggunakan jumlah cluster sebanyak 3, hal ini karena kategori yang saya gunakan terdiri dari tinggi, sedang dan rendah.
Berdasarkan hasil clustering di atas, dimana masing-masing dikategorikan sebagai Higher Global Internet Usage (HGIU), Medium Global Internet Usage (MGIU), dan Low Global Internet Usage (LGIU). Untuk higher global internet usage memiliki rata-rata pendapatan per 100 orang yang paling tinggi yaitu sebesar 18912,021 US$, rata-rata pengguna internet terbesar yaitu sebesar 72,0892 dan jumlah penduduk berada diperkotaan sebesar 81,365 dengan jumlah terbesar. Jumlah negara yang termasuk ketagori HGIU sebanyak 39 negara dengan presentasi 18,31%. Untuk medium global internet usage (MGIU) dengan jumlah pendapatan per 100 orang terbesar ke-2 yaitu 7618,399 US$, rata-rata pengguna internet sebanyak 49,65 orang dan jumlah penduduk di perkotaan sebesar 64 orang. Jumlah negara termasuk kategori MGIU sebanyak 38 negara dengan presentase 17,84%. Dan untuk kategori low global internet usage memiliki rata-rata pendapatan per 100 orang sebesar 1592,135 US$, rata-rata pengguna internet sebanyak 21 orang dan rata-rata penduduk diperkotaan sebesar 47 orang. Jumlah negara termasuk kategori LGIU sebanyak 136 negara dengan persentase sebesar 63,85%
Visualisasi Hasil Clustering
Berdasarkan hasil visualisasi di atas, kategori HGIU ditandai dengan warna biru muda, kategori MGUI ditandai dengan warna ungu dan kategori LGIU ditandai dengan warna kuning. Kategori HGIU memiliki nilai-nilai dari incomeperperson, internetuserate, dan urbanrate tertinggi.