MOHAMAD FRANANDA ADIEZWARA RAMADHAN
Portofolio ini merupakan tugas akhir pembelajaran terjadwal nlp msib batch 3
AI Chatbot in Python
Chatbot sederhana ini menggunakan konsep sederhana penerapan Cosine Similarity
Disini program Chatbot dibuat dengan sesuai kebutuhan pengguna, jadi kita bisa memilih apakah harus membuat program ini bisa bekerja pada topik tertentu, misalnya untuk Chatbot berbasis Covid-19, atau yang lainnya yang sedang relevan.
sumber materi : https://towardsdatascience.com/making-a-simple-and-fast-chatbot-in-10-minutes-2d84a4ba35e
Tools scraping Artikel
Pada program kali ini kita akan mengambil teks dari internet menggunakan tools newspaper3k, dimana tools ini memiliki beberapa kelebihan yaitu:
1. Kerangka kerja dalam mengunduh artikel yang multi-thread
2. Dapat mengidentifikasi URL baru
3. Mampu mengekstraksi teks dari HTML
4. Terbaik dalam hal ekstraksi gambar dari HTML
5. Mampu mengekstraksi semua gambar dari HTML
6. Dapat mengekstraksi kata kunci dari teks
7. Dapat mengekstrak ringkasan teks
8. Dapat mengekstraksi nama penulis suatu artikel
9. Dapat mengekstraksi istilah yang sedang trend di mesin pencarian Google
10. Dapat bekerja lebih dari 10 bahasa (termasuk Inggris, Jerman, Arab, China, dll)
Corpus, jamak dari corpora; Sebuah koleksi data linguistik, baik disusun sebagai teks-teks tertulis atau sebagai sebuah transkripsi rekaman suara. Tujuan utama dari corpus adalah untuk memverifikasi sebuah hipotesis tentang bahasa - misalnya, untuk menentukan bagaimana penggunaan suara tertentu, kata atau ragam susunan sintaksis. Linguistik Corpus berkaitan dengan prinsip-prinsip dan praktik menggunakan corpora dalam studi bahasa. Korpus komputer adalah bagian besar teks-teks yang dapat dibaca mesin.
(Crystal, David. 1992. An Encyclopedic Dictionary of Language and Languages. Oxford: Blackwell.)
Bot respon digunakan untuk membuat sebuah percakapan awal antara pengguna dengan bot, jadi disini user dapat menyapa bot, nah untuk kata-kata dapat diganti sesuai dengan kebutuhan, misalnya bahasa indonesia. Pada percakapan awal tidak menggunakan ML atau metode lainnya, program hanya menjawab dengan kata yang di cocokkan sebagai input.
1. Pada list kode bot_greetings itu bentuk kata sapaan bot terhadap sapaan yang kita berikan, dan dapat diganti dengan bahasa Indonesia atau lainnya.
2. Sedangkan, pada list user_greetings itu kata sapaan input dari user dan dapat diganti dengan bahasa lainnya.
Pada respon bot menggunakan teknis Cosine Similarity untuk menghitung kata yang cocok dengan yang di input user terhadap respon dari Bot
Pada listing kode >bot_response=bot_response+" "+"I apologize, I dont understand" pada list kode ini kata I apologize tujuannya untuk memberikan respon karena sistem tidak mengenali kata yang kita input, jadi sebagai bentuk respon bot kepada user. Kata tersebut bisa diganti dengan bahasa Indonesia, misalnya "Maaf saya tidak mengetahui arti atau tidak mengenali kata-kata yang di input".
Doc Bot ganti dengan ini atau sesuai dengan topik yang lagi di bahas, print("Doc Bot: Mau nanya apa kamu tentang kabel laut?")
INPUT , input merupakan data yang dimasukkan dalam komputer lewat input device. Nantinya, data tersebut akan diolah oleh unit pemrosesan dan menghasilkan output.
OUTPUT, Output merupakan data berupa file maupun cetakan yang dihasilkan dari proses pengolahan data input