Al Fathjri Wisesa
Speech preprocessing adalah proses pra-pemrosesan yang dilakukan pada data suara atau ucapan sebelum dijalankan melalui algoritma pemrosesan ucapan atau sistem pengenalan ucapan.Dataset yang digunakan dalam preprocessing speech adalah data speech emotion, pada data terdapat 5 jenis emoticon yaitu, angry, calm, fear, sad, happy. Pada preprocessing menggunakan Calm Emotion.
Speech preprocessing adalah proses pra-pemrosesan yang dilakukan pada data suara atau ucapan sebelum dijalankan melalui algoritma pemrosesan ucapan atau sistem pengenalan ucapan. Tujuan dari speech preprocessing adalah untuk meningkatkan kualitas data suara, mengurangi noise atau gangguan, dan menghasilkan representasi yang lebih baik dari ucapan yang dapat digunakan oleh algoritma pengenalan ucapan.
Dataset
Dataset yang digunakan dalam preprocessing speech adalah data speech emotion, pada data terdapat 5 jenis emoticon yaitu, angry, calm, fear, sad, happy. Tiap-tiap data menggambarkan emotion masing-masing. Pada preprocessing menggunakan Calm Emotion.
Model
Mengimport Library dan Menginstall Librosa, digunakan untuk pemrosesan dan analisis sinyal suara. Librosa menyediakan berbagai fitur dan fungsi untuk membantu dalam ekstraksi fitur suara, visualisasi, pemrosesan audio, dan analisis audio secara umum.
Menampilkan Jenis Speech Emotion
Melihat visualisasi waveform dari file audio yang dimuat menggunakan Librosa.
RMSE (Root Mean Square Energy)
Metrik yang digunakan untuk mengukur kesalahan atau deviasi antara sinyal suara asli dan sinyal suara yang diprediksi atau direkonstruksi. RMSE menghitung akar dari rata-rata kuadrat selisih antara amplitudo sinyal suara asli dan sinyal suara yang diprediksi
Zero Crossing Rate
Menggambarkan jumlah kali suara melewati nol dalam satu unit waktu. Ini digunakan untuk mengidentifikasi dan mengukur tingkat perubahan tanda dalam sinyal suara.
Chromagram
representasi visual dari distribusi energi frekuensi dalam sinyal suara terhadap skala nada atau chroma. Chromagram mewakili spektrum frekuensi sinyal suara dalam domain musik, di mana setiap bin mewakili tingkat energi frekuensi yang sesuai dengan nada-nada dalam skala musik.
Spectogram
energi frekuensi berubah seiring waktu, di mana sumbu horizontal mewakili waktu, sumbu vertikal mewakili frekuensi, dan intensitas warna mewakili tingkat energi. Spectrogram sangat penting dalam analisis sinyal suara, seperti pemrosesan ucapan, deteksi dan pemisahan sumber suara, pengenalan ucapan, dan aplikasi lainnya