Rafly Rangghani Putra
Pemrosesan audio menjadi salah satu aspek yang semakin relevan dalam dunia teknologi saat ini. Dengan kemajuan dalam bidang kecerdasan buatan, analisis data, dan pengembangan aplikasi, kemampuan untuk bekerja dengan audio dalam konteks pemrograman menjadi keterampilan yang sangat berharga. Python, dengan ekosistemnya yang luas dan pustaka-pustaka yang kuat, telah menjadi salah satu pilihan utama bagi para pengembang untuk melakukan pemrosesan audio.
Pada portofolio ini, akan menjelajahi topik "Working with Audio in Python." Dimana akan menggali dasar-dasar pemrosesan audio, memperkenalkan pustaka-pustaka yang penting dalam Python, serta memberikan contoh implementasi yang praktis.
Speech Processing
Speech processing adalah bidang studi yang berfokus pada pengolahan sinyal suara manusia. Ini mencakup analisis, pengenalan, sintesis, dan pemahaman berbagai aspek dari suara yang dihasilkan oleh manusia. Beberapa aplikasi speech processing termasuk speech recognition (pengenalan ucapan), speech synthesis (pembuatan ucapan), speaker recognition (pengenalan pembicara), dan analisis emosi dari ucapan.
Istilah-istilah yang Perlu Diketahui Untuk Audio dalam Bentuk Digital
Implementasi Pyhton dalam Speech Processing
Jenis-jenis representasi visual dari sinyal audio yang menunjukkan perubahan energi atau amplitudo dari berbagai frekuensi suara terhadap waktu:
Spectogram
Spectrogram adalah representasi visual dari spektrum frekuensi suatu sinyal audio terhadap waktu. Ini adalah grafik tiga dimensi yang menampilkan bagaimana energi frekuensi dalam sinyal audio berubah seiring dengan waktu.
Spectrogram biasanya direpresentasikan dalam dua dimensi, dengan sumbu horizontal mewakili waktu, sumbu vertikal mewakili frekuensi, dan intensitas warna (misalnya, skala warna atau grayscale) merepresentasikan amplitudo atau kekuatan energi pada frekuensi tertentu pada waktu tertentu.
Mel Spectogram
Mel Spectrogram adalah versi modifikasi dari spektrogram standar yang memiliki sumbu frekuensi yang diubah menjadi skala Mel. Skala Mel adalah skala yang lebih sesuai dengan cara pendengaran manusia mempersepsikan frekuensi suara.
Dalam pemrosesan audio, skala Mel digunakan untuk mengubah representasi frekuensi yang diukur dalam Hertz (Hz) menjadi unit Mel, yang lebih menggambarkan persepsi manusia terhadap tinggi rendahnya suara. Skala Mel lebih memperhitungkan cara pendengaran manusia merasakan perbedaan frekuensi, di mana perbedaan frekuensi yang kecil pada frekuensi rendah akan terdengar lebih besar daripada pada frekuensi tinggi.