Ghazi Taqiyya Al Anshari
Dalam penerapan machine learning untuk pengenalan suara penting untuk melakukan ekstraksi data audio yang kita miliki. Hal tersebut karena model machine learning tidak dapat memproses data mentah dalam bentuk audio. Oleh karena itu, kemampuan untuk mengekstraksi fitur ucapan sangat penting sebelum mendalami speech recognition. Disini saya berhasil melakukan ekstraksi pada kumpulan data audio yang mengandung beberapa jenis emosi. Dengan hasil ekstraksi ini, sangat mungkin untuk digunakan dalam machine learning khususnya untuk emotion recognition.
Mengapa Perlu Mengekstraksi Fitur Audio untuk Machine Learning?
Pernah berfikir bagaimana membuat sebuah model machine learning dengan data audio? apakah bisa data audio langsung dilatih dalam model machine learning? jawabannya tentu saja tidak bisa. Model machine learning hanya bisa mengolah data-data numerik saja. Lalu, bagaimana perusahaan-perusahaan diluar sana membuat aplikasi untuk mendeteksi suara? bukankah mereka membuat model menggunakan data audio yang mereka miliki?. Mereka dapat membuat model-model tersebut menggunakan kumpulan data audio yang telah mereka ekstraksi fitur-fiturnya. Fitur-fitur tersebut berupa kumpulan data angka yang kemudian bisa digunakan untuk melatih model yang mereka miliki. Sederhananya itulah perlunya kita mengekstraksi data audio sebelum memasukkannya kedalam model machine learning.
Fitur-Fitur Audio
Disini saya melakukan ekstraksi fitur dari beberapa data audio yang berasal dari Course Speech Feature Extraction BISA AI Academy. Data audio tersebut berisi ucapan dengan beberapa emosi seperti marah, bahagis, dan sedih. Beberapa fitur yang berhasil dari audio tersebut antara lain
Tools
Beberapa tools yang saya gunakan dalam proses ekstraksi meliputi
Hasil
Hasil dataset fitur-fitur tersebut dapat diakses pada laman saya di platform Kaggle pada link dibawah ini.
Dataset : https://www.kaggle.com/datasets/taqiyyaghazi/emotion-speech-features-for-speech-recognition