Sebagai peneliti Oskar mengatakan keterbatasan suara menjadi kendala terbesarnya selama 20 tahun mengembangkan sistem transkripsi suara.
Pria yang mengantongi gelar Master Speech Recognition dari Advanced Institute of Science and Technology, Jepang ini mengatakan hingga 2018 tidak ada satu pun sumber suara bahasa Indonesia yang bisa diakses publik. Kalaupun ada, biasanya hanya dipegang oleh masing-masing pemegang data suara.
"Sumber data suara dan teks bahasa Indonesia jumlahnya sangat minim. Mau enggak mau sejak awal kami mengembangkan sistem transkripsi suara hingga sekarang harus melakukan rekaman sendiri," keluhnya.
ADVERTISEMENT
SCROLL TO CONTINUE WITH CONTENT
Oskar menutuskan keterbatasan risetnya tak berhenti sampai di situ. Banyaknya dialek di Indonesia menjadi kendala besar yang harus dihadapi saat proses pengambilan sampel suara.
"Kalau merekam pakai data suara Jawa, lalu yang ngomong orang Medan nanti sistem tidak mengenali. Akhirnya kami mengambil data suara sesuai demografi dan direkam secara proporsional agar sistem bisa mengenali berbagai dialek dari Papua sampai Aceh," ungkapnya.
Hanya saja, menurutnya kendala dialek juga masih ditambah dengan penggunaan bahasa asing saat percakapan sehari-hari hingga forum rapat resmi. Untuk mengatasi kendala tersebut, Oskar dan tim juga mengambil sampel data suara saat orang menggunakan bahasa campur-campur ala 'anak Jaksel'.
Kendala kedua terbesar dijelaskannya yakni dari segi penutur. Teknologi pengenal suara tidak bisa mengenali suara anak-anak jika sampel yang diambil adalah suara orang dewasa.
Sementara faktor mahalnya infrastruktur juga jadi kendala lainnya. Sejak tahun 2007 hingga 2009, harga perangkat keras tergolong sangat mahal sehingga tidak bisa mengembangkan ke dalam skala besar.
Namun, ia mengakui kendala infrastruktur saat ini sudah teratasi berkat harga perangkat yang kian terjangkau.
"Kalau masalah infrastruktur sudah bisa diatasi karena harga komputer semakin terjangkau. Kami mulai bisa mengejar ketertinggalan dengan pengembangan sistem suara dari raksasa teknologi; hanya tergantung variasi data," imbuhnya.
Sementara masalah ketiga dari sisi operasional untuk memproduksi sistem suara dalam skala besar. Menurutnya, teknologi suara biaya komputasinya sangat tinggi untuk menggunakan layanan penyimpanan awan
(cloud computing).
 Aplikasi transkrip suara menjadi teks, Kutulis. (Foto: CNN Indonesia/Ervina Anggraini) |
Jajaki Tahap BaruOskar mengatakan pihaknya tengah menyiapkan rencana untuk merambah lini gaya hidup agar sistem transkripsi suara bisa dipakai lebih luas. Mengingat sejauh ini, sistem Notula baru digunakan di lembaga pemerintahan untuk kebutuhan rapat dan persidangan.
Selain berencana merambah pengguna lewat aplikasi ponsel, Oskar menargetkan Notula bisa dipakai perusahaan swasta untuk merekam percakapan telepon.
"Selama ini kendala transkrip suara perlu waktu lama dan harga mahal. Kami menyasar penulis, peneliti, advokat, wartawan,
marketing bisa pakai karena sangat murah dan waktunya pendek," katanya.
Sama halnya dengan sistem yang sudah ada, nantinya aplikasi ponsel beserta speaker pintar dan smart home akan berbasis perintah suara. Aplkasi ponsel akan mentranskrip suara menjadi teks, sementara speaker dan peranti rumah tangga akan mengombinasikan suara ke teks hingga menjadi tindakan.
Dengan cara ini, Oskar menuturkan pengguna akan kembali ke naluri alamiahnya yakni berbicara. Menurutnya, ke depan antarmuka berbasis suara akan menjadi tren yang tidak bisa terbantahkan dan diusung di berbagai perangkat.
"Saya membaca tren seperti itu, masuk ke
voice mulai ada permintaannya. Kalau perorangan nanti gampang bisa minta
speaker pesankan ojek atau belanja kebutuhan langsung ke marketplace tanpa perlu mengetik. Sementara perusahaan saat ini sudah ada permintaan membuat voice
chatbot," ucapnya.
Menyoal aspek keamanan dan teknologi yang diadopsi, Oskar memastikan jika pihaknya selalu mengadopsi teknologi terbaru. Mengandalkan 25 tim untuk riset dan pengembangan, Oskar menyebut sistem dan produknya sudah diajarkan memahami pemrosesan bahasa dan melakukan analisis hingga tindakan.
Untuk membuat sistem dan perangkat 'kian pintar', transkripsi suara dibekali teknologi kecerdasan buatan (AI) dan deep learning. Disamping cara itu, ia mengatakan juga kerap mengambil sampel dari channel YouTube,
streaming radio dan televisi, naskah berita koran dan milis
(mailing list).
Selain bersiap memperkenalkan aplikasi dan perangkat pintar, Oskar mengatakan masih menyimpan misi sosial untuk membantu difabel dalam mengakses teknologi. Terlebih setelah proyek Lisan terhenti di 2008, ia berencana mengembangkan sistem berbasis suara untuk difabel dan konservasi bahasa daerah.
"Bukan hanya menapaki bisnis, saya menyimpan misi sosial terutama untuk kaum difabel dan bahasa daerah yang terancam punah agar bisa dilakukan konservasi," ungkap dia.
(evn/asa)