Apa Teknologi AI yang Dapat Mengubah Teks Menjadi Suara? Inilah Teknologi Text-to-Speech dan Cara Kerjanya!

Sabtu 13-01-2024,16:00 WIB
Reporter : Muchlisin
Editor : Abidin Riwanto

Lalu bagaimana cara teknologi Text-to-Speech ini bekerja? Berikut ini tahapan cara kerja dari teknologi Text-to-Speech dalam menjalankan tugasnya.

Mendeskripsikan Teks Menjadi Bagian Dari Kata-Kata Baku

Pada tahapan ini, sistem diharuskan untuk mempelajari lalu mengubah seluruh teks yang disediakan menjadi kata-kata yang baku.

Pada sistem ini, machine learning juga akan mengubah teks seperti angka, simbol, atau singkatan yang lainnya menjadi sebuah kata yang lebih dapat dimengerti untuk menuju proses selanjutnya.

Setelah semua teks selesai diubah dan dipelajari, proses selanjutnya yaitu membagi kata-kata tersebut menjadi berbagai frase yang berbeda.


Apa Teknologi AI yang Dapat Mengubah Teks Menjadi Suara? Inilah Teknologi Text-to-Speech dan Cara Kerjanya!-freepik-freepik

Dalam proses ini machine learning akan mendeteksi dan melakukan pencocokan dengan intonasi dari setiap kata yang tersedia.

Melengkapi Transkripsi

Setelah langkah mendeskripsikan semua teks menjadi bagian dari kata baku selesai dan telah membagi menjadi frase-frase, machine learning akan mengelaborasi kamus bawaan sebagai rujukan untuk dapat melakukan koreksi pengucapan serta intonasi.

Proses ini disebut dengan proses fonem atau phoneme processing. Fonem sendiri dapat diartikan sebagai salah satu istilah linguistik yang merupakan satuan terkecil dalam sebuah bahasa dan masih dapat menunjukkan perbedaan makna.

Pada proses ini, bagian konverter teks ke fonem akan bertugas mengubah input tulisan menjadi rangkaian kode-kode bunyi yang umumnya direpresentasikan dengan menggunakan kode fonem, durasi, serta pitch (voice generation).

BACA JUGA: Kejati Sumsel Terima Tahap II Tersangka Pembobol Rekening Nasabah 2,4 Miliar Modus APK Tilang Kepolisian

Selanjutnya terdapat proses yang mengubah bagian konverter fonem menjadi ucapan. Proses ini akan menerima kode-kode fonem, durasi, dan pitch tersebut, lalu menghasilkan sebuah gelombang sinyal ucapan yang sesuai dengan kalimat yang diinginkan.

Selama proses ini berlangsung, sistem akan melakukan identifikasi terhadap setiap kata melalui berbagai unit yang beragam.

Lalu akan dirangkum dengan penyusunan intonasi utuh yang menggunakan data dari setiap kata dan kalimat yang fonemnya telah berhasil diidentifikasi.

Konversi Hasil Teks Menjadi Suara

Kategori :