Arief Rachman Hakim
Format data mentah (RAW data) seringkali menjadi masalah kita dalam menganalisis sebuah data, sehingga diperlukan pengolahan RAW data menjadi data yang siap diolah, contohnya adalah pengambilan data text dari gambar. Salah satu cara yang paling mudah adalah menyalin semua data text dengan menulis ulang text tersebut dengan aplikasi office seperti ms Office. Namun, banyaknya data text yang harus ditulis sering menjadi masalah kita sebagai manusia yang menulisnya, terlebih lagi jika terdapat human-error seperti typo saat menulis ulang text tersebut. Oleh karena itu, saya kali ini akan membuat program untuk mendapatkan data text dari gambar dengan bantuan library pytesseract.
1. Install Library
Proses pertama kali adalah mengupdate mesin cloud (linux) sebelum menginstall engine Tesseract dan library pytesseract
Proses menginstall engine Tesseract
Proses menginstall library pytesseract
2. Import Gdrive
Import drive untuk menggunakan resource gambar
3. Import Library
4. Membuat function untuk mengolah gambar
Proses ini berkerja untuk mengubah warna menjadi RGB dan mengatur figsize dari gambar
5. Membaca Gambar pertama
6. Menggunakan engine tesseract
Untuk mencari engine tesseract yang sudah kita download pergi ke ‘/usr/bin/tesseract’
Menggunakan engine tesseract
7. Hasil image to text dengan pytesseract gambar pertama
8. Membaca gambar kedua
9. Hasil image to text dengan pytesseract pada gambar kedua
10. Dokumentasi Kode
https://drive.google.com/drive/folders/1nT_RxE8Rbn_3IJfImKKL0KE-XjiU61Jg?usp=sharing