Peneliti Kembangkan 'SpeechSSM', Membuka Peluang Asisten Suara AI yang Aktif 24 Jam

Selasa 08-07-2025,11:55 WIB
Reporter : agung wahyudi
Editor : Hanida Syafrina

PALTV.CO.ID,- Baru-baru ini, model bahasa lisan atau Spoken Language Models (SLM) mulai mendapat perhatian sebagai teknologi generasi berikutnya yang mampu melampaui batasan model bahasa berbasis teks.

SLM belajar langsung dari ucapan manusia tanpa teks, sehingga dapat memahami dan menghasilkan informasi linguistik maupun non-linguistik.

Namun, model-model yang ada saat ini masih memiliki keterbatasan besar dalam menghasilkan konten berdurasi panjang yang dibutuhkan untuk podcast, buku audio, dan asisten suara.

Sejin Park, kandidat Ph.D. dari tim riset Profesor Yong Man Ro di School of Electrical Engineering, Korea Advanced Institute of Science and Technology (KAIST), berhasil mengatasi keterbatasan tersebut dengan mengembangkan “SpeechSSM”.

Teknologi SpeechSSM  memungkinkan generasi suara yang konsisten dan alami tanpa batasan waktu.

Temuan ini telah diunggah ke arXiv dan tengah bersiap untuk diperkenalkan kepada komunitas ilmiah global di International Conference on Machine Learning (ICML) 2025.

BACA JUGA:Yamaha X Versi 2025: Tetap Eksis dengan Sentuhan Segar yang Lebih Kekinian

BACA JUGA:Gubernur Sumsel Tegaskan Larangan Angkutan Batubara Melintasi Jembatan Muara Lawai

Salah satu keunggulan utama SLM adalah kemampuannya memproses suara secara langsung tanpa harus dikonversi ke teks terlebih dahulu.

Model ini juga mampu memanfaatkan ciri akustik unik dari tiap pembicara, sehingga memungkinkan generasi suara berkualitas tinggi secara cepat, bahkan pada model berskala besar.

Namun, model-model yang ada sebelumnya kesulitan menjaga konsistensi makna dan karakter suara pada ucapan berdurasi panjang.

Hal ini disebabkan oleh meningkatnya resolusi token suara dan konsumsi memori yang besar saat model mencoba menangkap detail yang sangat halus dengan memecah suara menjadi potongan-potongan kecil.


model bahasa lisan atau Spoken Language Models (SLM) mulai mendapat perhatian--Freepik.com

SpeechSSM menggunakan struktur hybrid yang menggabungkan attention layers (yang fokus pada informasi terbaru) dan recurrent layers (yang mempertahankan alur cerita secara keseluruhan atau konteks jangka panjang).

BACA JUGA:Kemenkum Sumsel Gandeng Fakultas Hukum, Mahasiswa KKN Siap Perkuat Posbakum Desa

Kategori :