Jakarta, CNN Indonesia -- Teknologi pengenal suara kian mudah ditemui pada ponsel hingga perangkat rumah tangga yang bisa mengenali bahasa asing hingga perintah berbahasa Indonesia. Di tengah gempuran produk dan layanan berbasis perintah suara seperti
Google Assistant,
Siri hingga
Amazon Echo, peneliti asal Indonesia membuat teknologi untuk konservasi bahasa Indonesia.
Oskar Riandi menuturkan ketertarikannya di bidang transkripsi suara berawal ketika ia menonton film
Star Trek saat masih kecil. Kala itu, ia merasa tertantang melihat bagaimana mesin bisa mengeluarkan suara dan merespons perintah manusia.
"Waktu kecil, saya sering nonton film Star Trek dan melihat mesin bisa merespons pakai suara. Yang ada di benak saya, suatu hari harus bisa bikin sesuatu seperti itu -- membuat mesin yang berpikir seperti manusia," jelasnya saat berbincang di kantor
CNNIndonesia.com di Mampang Prapatan, Jakarta Selatan, akhir Januari lalu.
ADVERTISEMENT
SCROLL TO CONTINUE WITH CONTENT
Selepas SMA, Oskar melanjutkan studi teknik elektro di Institut Teknologi Bandung selama sebulan hingga mengantongi beasiswa untuk studi
neural network di Waseda University, Jepang.
Ketertarikannya di bidang transkripsi suara kian terasah saat membantu riset proyek agen pintar berbentuk robot, Galatea yang bisa berinteraksi hingga menunjukkan emosi saat berhadapan dengan manusia. Lulus di tahun 1992, Oskar kembali ke Indonesia dengan melakukan berbagai riset berbasis transkripsi suara.
Di tahun 2006, pria kelahiran Cirebon ini mengembangkan riset otomatisasi
subtitling televisi dan mengajukan pendanaan. Namun saat itu ia harus menelan pil pahit lantaran proposalnya tidak lolos pendanaan karena dianggap belum waktunya teknologi transkripsi suara diadopsi di Indonesia.
Tak patah arang, ia kemudian mengajukan pendanaan lewat kerja sama dengan Telkom RDC ke Asia Pacific Telecommunity. Proposalnya dinyatakan lolos dan ia berhak untuk mendapat pendanaan riset transkripsi suara.
"Saat itu dapat pendanaan riset dari asing. Fokus saya memang ICT untuk berkebutuhan khusus, saya mengembangkan sistem berupa transkripsi suara agar difabel bisa mengoperasikan komputer," ucapnya.
Lisan yang dirilis pada 2008 dibekali fitur perintah, pengendali, dan pendiktean menggunakan suara. Sistem ini kemudian digunakan untuk membantu siswa SLB di Cicendo, Bandung.
Transkripsi suara berbasis Linux inilah yang kemudian mendorong Oskar mengembangkan idenya menjadi layanan transkripsi suara yang bisa dipakai di berbagai kebutuhan.
Oskar kemudian mengajukan paten sistem transkripsi otomatis ke tempatnya bekerja selama puluhan tahun, Badan Pengkajian dan Penerapan Teknologi (BPPT).
Paten sistem transkripsi otomatis disetujui pada tahun 2011 dan produknya sempat dikomersialisasi. Di saat bersamaan, Oskar harus menghadapi gempuran dari luar negeri yang juga mulai melakukan riset teknologi transkripsi suara berbahasa Indonesia.
"Jujur sebagai peneliti saya sempat syok karena dua raksasa teknologi dunia saat itu juga mengembangkan mesin transkripsi bahasa Indonesia yang jauh lebih bagus dari punya saya," katanya.
Untuk mengejar ketertinggalan, Oskar memutuskan hengkang dari BPPT di tahun 2013. Tujuannya tak lain untuk fokus melakukan riset dan pengembangan sistem transkripsi suara berbahasa Indonesia.
Agar layanan yang dibuat berbeda dengan paten yang diajukannya, ayah tiga anak ini kemudian mendirikan BahasaKita-- dengan produk Notule yang fokus pada transkripsi dan analisis suara menjadi teks.
"Dari situ (Notula) berkembang ke mana-mana dengan teknologi suara bisa menjadi teks, analisis biometrik, hingga catatan kesehatan agar datanya bisa tersimpan dan lebih jelas," jelasnya.
Sebagai peneliti Oskar mengatakan keterbatasan suara menjadi kendala terbesarnya selama 20 tahun mengembangkan sistem transkripsi suara.
Pria yang mengantongi gelar Master Speech Recognition dari Advanced Institute of Science and Technology, Jepang ini mengatakan hingga 2018 tidak ada satu pun sumber suara bahasa Indonesia yang bisa diakses publik. Kalaupun ada, biasanya hanya dipegang oleh masing-masing pemegang data suara.
"Sumber data suara dan teks bahasa Indonesia jumlahnya sangat minim. Mau enggak mau sejak awal kami mengembangkan sistem transkripsi suara hingga sekarang harus melakukan rekaman sendiri," keluhnya.
Oskar menutuskan keterbatasan risetnya tak berhenti sampai di situ. Banyaknya dialek di Indonesia menjadi kendala besar yang harus dihadapi saat proses pengambilan sampel suara.
"Kalau merekam pakai data suara Jawa, lalu yang ngomong orang Medan nanti sistem tidak mengenali. Akhirnya kami mengambil data suara sesuai demografi dan direkam secara proporsional agar sistem bisa mengenali berbagai dialek dari Papua sampai Aceh," ungkapnya.
Hanya saja, menurutnya kendala dialek juga masih ditambah dengan penggunaan bahasa asing saat percakapan sehari-hari hingga forum rapat resmi. Untuk mengatasi kendala tersebut, Oskar dan tim juga mengambil sampel data suara saat orang menggunakan bahasa campur-campur ala 'anak Jaksel'.
Kendala kedua terbesar dijelaskannya yakni dari segi penutur. Teknologi pengenal suara tidak bisa mengenali suara anak-anak jika sampel yang diambil adalah suara orang dewasa.
Sementara faktor mahalnya infrastruktur juga jadi kendala lainnya. Sejak tahun 2007 hingga 2009, harga perangkat keras tergolong sangat mahal sehingga tidak bisa mengembangkan ke dalam skala besar.
Namun, ia mengakui kendala infrastruktur saat ini sudah teratasi berkat harga perangkat yang kian terjangkau.
"Kalau masalah infrastruktur sudah bisa diatasi karena harga komputer semakin terjangkau. Kami mulai bisa mengejar ketertinggalan dengan pengembangan sistem suara dari raksasa teknologi; hanya tergantung variasi data," imbuhnya.
Sementara masalah ketiga dari sisi operasional untuk memproduksi sistem suara dalam skala besar. Menurutnya, teknologi suara biaya komputasinya sangat tinggi untuk menggunakan layanan penyimpanan awan
(cloud computing).
 Aplikasi transkrip suara menjadi teks, Kutulis. (Foto: CNN Indonesia/Ervina Anggraini) |
Jajaki Tahap BaruOskar mengatakan pihaknya tengah menyiapkan rencana untuk merambah lini gaya hidup agar sistem transkripsi suara bisa dipakai lebih luas. Mengingat sejauh ini, sistem Notula baru digunakan di lembaga pemerintahan untuk kebutuhan rapat dan persidangan.
Selain berencana merambah pengguna lewat aplikasi ponsel, Oskar menargetkan Notula bisa dipakai perusahaan swasta untuk merekam percakapan telepon.
"Selama ini kendala transkrip suara perlu waktu lama dan harga mahal. Kami menyasar penulis, peneliti, advokat, wartawan,
marketing bisa pakai karena sangat murah dan waktunya pendek," katanya.
Sama halnya dengan sistem yang sudah ada, nantinya aplikasi ponsel beserta speaker pintar dan smart home akan berbasis perintah suara. Aplkasi ponsel akan mentranskrip suara menjadi teks, sementara speaker dan peranti rumah tangga akan mengombinasikan suara ke teks hingga menjadi tindakan.
Dengan cara ini, Oskar menuturkan pengguna akan kembali ke naluri alamiahnya yakni berbicara. Menurutnya, ke depan antarmuka berbasis suara akan menjadi tren yang tidak bisa terbantahkan dan diusung di berbagai perangkat.
"Saya membaca tren seperti itu, masuk ke
voice mulai ada permintaannya. Kalau perorangan nanti gampang bisa minta
speaker pesankan ojek atau belanja kebutuhan langsung ke marketplace tanpa perlu mengetik. Sementara perusahaan saat ini sudah ada permintaan membuat voice
chatbot," ucapnya.
Menyoal aspek keamanan dan teknologi yang diadopsi, Oskar memastikan jika pihaknya selalu mengadopsi teknologi terbaru. Mengandalkan 25 tim untuk riset dan pengembangan, Oskar menyebut sistem dan produknya sudah diajarkan memahami pemrosesan bahasa dan melakukan analisis hingga tindakan.
Untuk membuat sistem dan perangkat 'kian pintar', transkripsi suara dibekali teknologi kecerdasan buatan (AI) dan deep learning. Disamping cara itu, ia mengatakan juga kerap mengambil sampel dari channel YouTube,
streaming radio dan televisi, naskah berita koran dan milis
(mailing list).
Selain bersiap memperkenalkan aplikasi dan perangkat pintar, Oskar mengatakan masih menyimpan misi sosial untuk membantu difabel dalam mengakses teknologi. Terlebih setelah proyek Lisan terhenti di 2008, ia berencana mengembangkan sistem berbasis suara untuk difabel dan konservasi bahasa daerah.
"Bukan hanya menapaki bisnis, saya menyimpan misi sosial terutama untuk kaum difabel dan bahasa daerah yang terancam punah agar bisa dilakukan konservasi," ungkap dia.