Web Scraping Menggunakan Python

Varrel Dwitantio Purwadiansyah

Sosial Media


1 orang menyukai ini
Suka

Summary

Web scraping adalah proses pengambilan data atau esktraksi dari sebuah website, lalu data tersebut umumnya disimpan dalam sebuah format tertentu. Scraping di website dilakukan dengan cara menjalankan kode untuk web scraping, permintaan dikirim ke URL dituju. Sebagai tanggapan atas permintaan tersebut, server mengirimkan data dan memungkinkan pengguna untuk membaca halaman HTML atau XML. Kode yang dikirimkan akan mem-parsing halaman HTML atau XML, menemukan data dan mengekstraknya.

Description

Disini saya akan melakukan web scraping pada website https://bisa.ai/course/all_course/1 dan akan mengambil data judul dari setiap free course, lalu dimasukkan ke dalam file csv.

Metode

  • Import seluruh library yang dibutuhkan

  • Lakukan konfigurasi driver web dengan mengatur jalur ke chromedriver untuk menggunakan browser chrome

  • Deklarsi variable titles yang berisi list kosongan yang digunakan untuk menyimpan judul free course

  • Membuka URL Bisa AI

  • Selanjutnya, kita lakukan perulangan dengan while sampi seluruh page terload

  • Kemudian ekstrak data dari situs web Bisa AI. Data yang akan diekstrak berada pada tag <h5>. Jadi, kita perlu menemukan tag h5 dengan nama kelasnya. Lalu mengekstrak dan menyimpan data dalam variable

  • Setelah mengekstrak data, kita akan menyimpan dalam format CSV (comma separated value)

  • Jika dijalankan akan menghasilkan file “titles.csv” yang berisi file hasil ekstrasi data
  • Berikut untuk full source code

 

Hasil Web Scraping

Berikut merupakan hasil data web scraping pada website https://bisa.ai/course/all_course/1 yang berisi kumpulan judul free course dan disimpan di file titles.csv

Informasi Course Terkait
  Kategori: Natural Language Processing
  Course: Information Retrieval for Beginner