Scraping Website Ulasan Shopee App di Google Play

Arief Rachman Hakim

Sosial Media


2 orang menyukai ini
Suka

Summary

Kebutuhan akan data merupakan sebuah tantangan untuk analisis data. Seperti yang kita tahu terkadang resource big data atau data yang sangat banyak seperti kaggle tidak bisa memenuhi kegingingan kita. Hal ini biasanya diakibatkan tingkat keunikan data yang kita perlukan yang sangat tinggi sehingga diperlukan data mining terhadap sumber yang relevan untuk kebutuhan analisis data kita. Salah satu metode yang dipakai adalah Web Scraping. Secara ringkasnya, Web Scraping adalah kegiatan pengambilan data dari sebuah website. Pada kesempatan kali ini saya akan melakukan web scraping terhadap https://play.google.com/store/apps/details?id=com.shopee.id&hl=id&gl=US untuk kebutuhan dataset untuk projek sentiment analysis.

Description

Website target :

https://play.google.com/store/apps/details?id=com.shopee.id&hl=id&gl=US 

Library yang digunakan :

  • google-play-scraper
  • pandas
  • numpy

 

Tutorial :

1. Identifikasi data yang akan discraping

Data yang akan kita scraping adalah kolom ulasan yang memiliki ulasan dan kategori bintang terhadap penilaian aplikasi. Dalam kolom ulasan tersebut memiliki score berkisar 1 - 5.

 

2. Install library

 

3. Import Library

 

4. Memulai Scraping

Identikasi url dari website google play yang sudah mengarah ke aplikasi shopee :

  • nama package aplikasi : com.shopee.id
  • bahasa : id
  • negara : id

Selanjutnya masukan data tambahan seperti sortingnya berdasarkan apa, disini saya menggunakan most relevan. Aturan selanjutnya adalah berapa jumlah data yang akan discraping, dengan mengisi count. Terakhir adalah mengisi filter_score untuk mengatur score berapa yang akan discraping, isi None jika ingin mendapatkan data 1 - 5

 

5. Membuat Dataframe dari data hasil scraping

Visualisasi data 

identifikasi berapa panjang data yang sudah discraping

 

6. Filter untuk fitur yang dibutuhkan saja

Mengambil fitur hanya content dan score untuk kebutuhan selanjutnya

mengganti nama fitur content menjadi ulasan dan score menjadi label

 

7. Mengekspor dataset

Kita bisa menemukannya di directory pada google colab

 

8. Menampilkan dataset yang sudah jadi

 

9. Dokumentasi Kode

https://drive.google.com/drive/folders/10x6bK_fkCKdJgU1Vac1wM4lD-WFrqWjW?usp=sharing 

Informasi Course Terkait
  Kategori: Data Science / Big Data
  Course: Information Retrieval for Beginner