EXTRACTING TEXT USING THE BAG OF WORDS MODEL

Amanda Najwa Perak Azizah

Sosial Media


0 orang menyukai ini
Suka

Summary

Ketersediaan data pada beberapa sosial media memungkinkan penelusuran mengenai hal-hal yang berkaitan terhadap suatu topik atau seorang individu. Penggalian teks (text mining) merupakan proses eksaminasi sumber tertulis dalam jumlah besar guna menghasilkan informasi baru dan untuk mengubah teks yang tidak terstruktur menjadi data yang terstruktur untuk keperluan analisis. Penggalian teks mengidentifikasi fakta-fakta, hubungan- hubungan serta pernyataan yang sekiranya tidak akan ditemukan diantara data teks yang besar. Hal ini merupakan eksperimen penggalian teks dengan menggunakan data twit dengan kata kunci nama tiga orang kandidat calon gubernur DKI Jakarta dari twitter stream untuk kurun waktu akhir November sampai dengan Desember 2016. Menggunakan metode penelitian kualitatif dengan tahapan pengambilan data tweet, prapemrosesan teks yang dilanjutkan dengan analisis. Data diambil dan diolah menggunakan API twitter dan Bahasa pemrograman R. Penelitian belum menemukan informasi baru dari proses analisis yang dilakukan. Sepuluh frekuensi kata yang ditemukan untuk tiap dataset, antara lain: agus, kader, dukung, krn,madrid, pks, pilkada, kalah, data, mengejutkan, potensial, aksi, agama, islam, menista, jakarta, politik, program, ahok, pidato, survei, dki, anies, elektabilitas, dan warga.

Description

Hal ini bertujuan untuk menemukan fakta-fakta atau hubungan-hubungan yang terdapat di dalam data twit terhadap kata kunci tiga orang kandidat Gubernur DKI. Keberlimpahan data saat kampanye putaran pertama memungkinkan proses ekstraksi data secara besar dalam kurun waktu yang singkat. Pengambilan data tweet dilakukan pada kurun waktu 24 November 2016 sampai dengan 04 Desember 2016. 

Tabel 2 di atas menggambarkan fitur training yang mengandung frekuensi kata dari tiap kalimat dalam sebuah dokumen. Dengan pendekatan ini, tata  bahasa dan urutan kata tidak dipentingkan, hanya jumlah kemunculan kata yang diperhatikan.

Tahapan yang dilaksanakan adalah sebagai berikut:

  • Pengambilan data

Sebelum melakukan pengambilan data tweet, maka harus dilakukan pengaturan untuk mendapatkan API Keys dan Tokens dari Twitter. Proses ini dilakukan dengan mendaftarkan aplikasi yang dibangun pada halaman new application milik Twitter. Dilanjutkan dengan pengisian data pendukung yang dibutuhkan untuk menghubungkan antara IDE pemograman yang digunakan dalam penelitian dengan twitter. Setelah selesai proses pendaftaran aplikasi, akses dari akun twitter untuk menggunakan aplikasi ini dengan mengklik tombol Create my Access Token. Terakhir, salin kode Consumer key (API key), Consumer Secret, Access Token dan Access Token Secret ke dalam aplikasi yang hendak digunakan.

Kueri yang digunakan adalah kata "Agus Yudhoyono", "AHY", "@AgusYudhoyono", "Ahok",
"@basuki_btp", dan "Anies", "Anies Baswedan", "@anies_baswedan". Besaran atau jumlah data yang didapatkan selama periode tersebut adalah 47.612 untuk pasangan calon nomor urut satu, sebanyak 40.542 data untuk pasangan calon nomor urut dua, dan 54.992 untuk pasangan calon nomor urut tiga yang selanjutnya akan dirujuk dalam penelitian ini sebagai dataset I, dataset II dan dataset III.

  • Prapemrosesan(Preprocessing):
    Setelah dokumen diunduh menggunakan bantuan bahasa pemrograman R, maka tweet untuk tiap kandidat dijadikan satu dalam sebuah dokumen comma separated values (.csv). Berikut langkah-langkah yang dilakukan:
    • Load data teks menjadi data frame.
    • Membuat Vcorpus object dari data frame untuk keperluan langkah pembersihan data.Setelah itu mulai dilakukan proses pembersihan awal dengan melakukan langkah berikut:
    • Menghapus Uniform Resource Locator (URL).
      Menghapus teks dengan tanda @mention.
    • Menghapus teks dengan tanda #Hashtag.
    • Menghapus semua angka yang terdapat dalam teks.
    • Menghapus semua tanda baca dalam teks.
    • Menghapus semua white space dalam teks.
    • Mengubah teks menjadi huruf kecil.
    • Lakukan pembersihan teks selanjutnya, apabila ditemukan teks masih belum bersih.

Langkah selanjutnya adalah melakukan pembuangan stopwords. Stopwords adalah kata-kata
yang tidak signifikan untuk melakukan pencarian. Contoh kata-kata ini dalah bahasa Indonesia ialah preposisi (di, ke, dari, dia). Untuk membersihkan teks dari stopwords, maka penelitian ini menggunakan library stopwords bahasa Indonesia yang telah disusun oleh F.Z Tala yang tersedia pada situs Github. Library ini terdiri dari kompilasi 758 stopwords. Berikut contoh teks sebelum dan sesudah proses prapemrosesan.

  • Analisis teks / Pemrosesan teks:
    Analisis teks dilakukan setelah data teks bersih dan siap untuk diproses. Berikut langkah yang
    dilakukan:
  • Membuat sebuah term-document matrix (TDM)
    TDM merupakan matriks yang sering digunakan untuk analisis bahasa. 
  • Matriks jenis ini lebih mudah untuk dianalisis karena jumlah terms diprediksi jauh
    lebih besar dari jumlah dokumen. Dengan pengaturan ini, maka jumlah baris akan
    lebih banyak dari jumlah kolom yang akan memudahkan pencarian.
    Menemukan terms yang paling sering muncul pada teks.

Hal ini dimulai dengan mengimpor data stopwords bahasa Indonesia ke dalam tools pemrograman. Selanjutnya setiap kata disimpan sebagai vektor yang akan dicocokan dengan dokumen teks twit yang sudah dibersihkan. Terdapat 758 kata dalam library ini.

Proses selanjutnya adalah membersihkan data twit dari stopwords yang dilanjutkan dengan membentuk sebuah matriks term-document untuk dilakukan perhitungan terhadap frekuensi kata
yang tertera di dalamnya. Setelah proses analisis teks, ditemukan sebanyak 15.327 non-sparse terms dalam dataset I, seperti yang terlihat pada gambar 3. Hal ini berarti terdapat 15.327 kata yang muncul setidaknya satu kali dalam dataset ini. Kata-kata yang memiliki frekuensi tertinggi dapat dilihat selanjutnya pada gambar 4. Sepuluh kata tersebut adalah jakarta, politik, program, ahok, pidato, survei, dki, anies, clektabilitas dan warga. 

Pada dataset II, terdapat 23.359 non-sparse terms, dengan frekuensi sepuluh kata terbanyak yaitu pilkada, survei, kalah, data, mengejutkan, potensial, aksi, agama, islam dan menista.

Pada dataset III, terdapat 11.850 non-sparse terms, dengan frekuensi sepuluh kata terbanyak yaitu ahok, agus, jakarta, dki, kader, warga, dukung, krn, madrid dan pks.

Informasi Course Terkait
  Kategori: Data Science / Big Data
  Course: Basic Text Processing