Arief Rachman Hakim
Kebutuhan akan data merupakan sebuah tantangan untuk analisis data. Seperti yang kita tahu terkadang resource big data atau data yang sangat banyak seperti kaggle tidak bisa memenuhi kegingingan kita. Hal ini biasanya diakibatkan tingkat keunikan data yang kita perlukan yang sangat tinggi sehingga diperlukan data mining terhadap sumber yang relevan untuk kebutuhan analisis data kita. Salah satu metode yang dipakai adalah Web Scraping. Secara ringkasnya, Web Scraping adalah kegiatan pengambilan data dari sebuah website. Pada kesempatan kali ini saya akan melakukan web scraping terhadap https://play.google.com/store/apps/details?id=com.shopee.id&hl=id&gl=US untuk kebutuhan dataset untuk projek sentiment analysis.
https://play.google.com/store/apps/details?id=com.shopee.id&hl=id&gl=US
1. Identifikasi data yang akan discraping
Data yang akan kita scraping adalah kolom ulasan yang memiliki ulasan dan kategori bintang terhadap penilaian aplikasi. Dalam kolom ulasan tersebut memiliki score berkisar 1 - 5.
2. Install library
3. Import Library
4. Memulai Scraping
Identikasi url dari website google play yang sudah mengarah ke aplikasi shopee :
Selanjutnya masukan data tambahan seperti sortingnya berdasarkan apa, disini saya menggunakan most relevan. Aturan selanjutnya adalah berapa jumlah data yang akan discraping, dengan mengisi count. Terakhir adalah mengisi filter_score untuk mengatur score berapa yang akan discraping, isi None jika ingin mendapatkan data 1 - 5
5. Membuat Dataframe dari data hasil scraping
Visualisasi data
identifikasi berapa panjang data yang sudah discraping
6. Filter untuk fitur yang dibutuhkan saja
Mengambil fitur hanya content dan score untuk kebutuhan selanjutnya
mengganti nama fitur content menjadi ulasan dan score menjadi label
7. Mengekspor dataset
Kita bisa menemukannya di directory pada google colab
8. Menampilkan dataset yang sudah jadi
9. Dokumentasi Kode
https://drive.google.com/drive/folders/10x6bK_fkCKdJgU1Vac1wM4lD-WFrqWjW?usp=sharing