Speech Emotion Calm Pre Processing

Al Fathjri Wisesa

Sosial Media


0 orang menyukai ini
Suka

Summary

Speech preprocessing adalah proses pra-pemrosesan yang dilakukan pada data suara atau ucapan sebelum dijalankan melalui algoritma pemrosesan ucapan atau sistem pengenalan ucapan.Dataset yang digunakan dalam preprocessing speech adalah data speech emotion, pada data terdapat 5 jenis emoticon yaitu, angry, calm, fear, sad, happy. Pada preprocessing menggunakan Calm Emotion.

Description

Speech preprocessing adalah proses pra-pemrosesan yang dilakukan pada data suara atau ucapan sebelum dijalankan melalui algoritma pemrosesan ucapan atau sistem pengenalan ucapan. Tujuan dari speech preprocessing adalah untuk meningkatkan kualitas data suara, mengurangi noise atau gangguan, dan menghasilkan representasi yang lebih baik dari ucapan yang dapat digunakan oleh algoritma pengenalan ucapan.
Dataset

Dataset yang digunakan dalam preprocessing speech adalah data speech emotion, pada data terdapat 5 jenis emoticon yaitu, angry, calm, fear, sad, happy. Tiap-tiap data menggambarkan emotion masing-masing. Pada preprocessing menggunakan Calm Emotion.

Model


Mengimport Library dan Menginstall Librosa, digunakan untuk pemrosesan dan analisis sinyal suara. Librosa menyediakan berbagai fitur dan fungsi untuk membantu dalam ekstraksi fitur suara, visualisasi, pemrosesan audio, dan analisis audio secara umum.

Menampilkan Jenis Speech Emotion


 

Melihat visualisasi waveform dari file audio yang dimuat menggunakan Librosa.

RMSE (Root Mean Square Energy)

Metrik yang digunakan untuk mengukur kesalahan atau deviasi antara sinyal suara asli dan sinyal suara yang diprediksi atau direkonstruksi. RMSE menghitung akar dari rata-rata kuadrat selisih antara amplitudo sinyal suara asli dan sinyal suara yang diprediksi

Zero Crossing Rate

Menggambarkan jumlah kali suara melewati nol dalam satu unit waktu. Ini digunakan untuk mengidentifikasi dan mengukur tingkat perubahan tanda dalam sinyal suara.

Chromagram

representasi visual dari distribusi energi frekuensi dalam sinyal suara terhadap skala nada atau chroma. Chromagram mewakili spektrum frekuensi sinyal suara dalam domain musik, di mana setiap bin mewakili tingkat energi frekuensi yang sesuai dengan nada-nada dalam skala musik.

Spectogram

energi frekuensi berubah seiring waktu, di mana sumbu horizontal mewakili waktu, sumbu vertikal mewakili frekuensi, dan intensitas warna mewakili tingkat energi. Spectrogram sangat penting dalam analisis sinyal suara, seperti pemrosesan ucapan, deteksi dan pemisahan sumber suara, pengenalan ucapan, dan aplikasi lainnya

Informasi Course Terkait
  Kategori: Artificial Intelligence
  Course: Speech Pre Processing