Kyle Wiggers dari TechCrunch menyelidiki masalah ini bulan lalu dan berbicara dengan Sheridan Feucht, seorang mahasiswa PhD di Northeastern University yang mempelajari interpretabilitas LLM.
"Agak sulit untuk menjawab pertanyaan tentang apa sebenarnya 'kata' yang seharusnya untuk model bahasa, dan bahkan jika kita mendapatkan pakar manusia untuk menyetujui kosakata token yang sempurna, model mungkin masih akan merasa berguna untuk 'mengelompokkan' hal-hal lebih jauh lagi," kata Feucht kepada TechCrunch.
"Dugaan saya adalah tidak ada yang namanya tokenizer sempurna karena ketidakjelasan semacam ini."
ADVERTISEMENT
SCROLL TO CONTINUE WITH CONTENT
Masalah ini menjadi lebih rumit saat LLM mempelajari lebih banyak bahasa.
Misalnya, beberapa metode tokenisasi mungkin berasumsi bahwa spasi dalam kalimat akan selalu mendahului kata baru, tetapi banyak bahasa seperti Cina, Jepang, Thailand, Laos, Korea, Khmer, dan lainnya tidak menggunakan spasi untuk memisahkan kata.
Peneliti AI Google DeepMind Yennie Jun menemukan dalam sebuah studi pada 2023 bahwa beberapa bahasa membutuhkan token hingga 10 kali lebih banyak daripada bahasa Inggris untuk mengomunikasikan makna yang sama.
"Mungkin lebih baik membiarkan model melihat karakter secara langsung tanpa menerapkan tokenisasi, tetapi saat ini hal itu tidak layak secara komputasi untuk transformer," kata Feucht.
Generator gambar seperti Midjourney dan DALL-E tidak menggunakan arsitektur transformer yang ada di balik generator teks seperti ChatGPT.
Sebaliknya, generator gambar biasanya menggunakan model difusi, yang merekonstruksi gambar dari noise. Model difusi dilatih pada basis data gambar yang besar, dan mereka diberi insentif untuk mencoba menciptakan kembali sesuatu seperti yang mereka pelajari dari data pelatihan.
Asmelash Teka Hadgu, salah satu pendiri Lesan dan seorang peneliti di DAIR Institute, mengatakan kepada TechCrunch, bahwa generator gambar cenderung bekerja lebih baik pada artefak seperti mobil dan wajah orang.
"Dan kurang baik pada hal-hal yang lebih kecil seperti jari dan tulisan tangan."
Ini bisa jadi karena detail yang lebih kecil ini tidak sering muncul secara mencolok dalam set pelatihan seperti konsep seperti bagaimana pohon biasanya memiliki daun hijau.
Namun, masalah dengan model difusi mungkin lebih mudah diperbaiki daripada yang mengganggu transformer. Beberapa generator gambar telah ditingkatkan dalam merepresentasikan tangan, misalnya, dengan melatih lebih banyak gambar tangan manusia yang nyata.
"Bahkan tahun lalu, semua model ini sangat buruk dalam hal jari, dan itu masalah yang sama persis dengan teks," jelas Guzdial.
"Mereka sangat ahli dalam hal ini secara lokal, jadi jika Anda melihat tangan dengan enam atau tujuh jari, Anda bisa berkata, 'Wah, itu terlihat seperti jari.' Begitu pula dengan teks yang dihasilkan, Anda bisa berkata, itu terlihat seperti 'H,' dan itu terlihat seperti 'P,' tetapi mereka sangat buruk dalam menyusun semua hal ini secara bersamaan."
Itulah sebabnya, jika Anda meminta generator gambar AI untuk membuat menu untuk restoran Meksiko, Anda mungkin akan mendapatkan item biasa seperti "Tacos," tetapi Anda akan lebih mungkin menemukan penawaran seperti "Tamilos," "Enchidaa" dan "Burhiltos."
Saat meme tentang ejaan "strawberry" ini tersebar di internet, OpenAI tengah mengerjakan produk AI baru dengan nama kode Strawberry, yang seharusnya lebih mahir dalam penalaran.
Pertumbuhan LLM telah dibatasi oleh fakta bahwa tidak ada cukup data pelatihan di dunia untuk membuat produk seperti ChatGPT lebih akurat.
Namun, Strawberry dilaporkan dapat menghasilkan data sintetis yang akurat untuk membuat LLM OpenAI lebih baik lagi.
Menurut The Information, Strawberry dapat memecahkan teka-teki kata Connections dari New York Times, yang memerlukan pemikiran kreatif dan pengenalan pola untuk menyelesaikannya dan dapat memecahkan persamaan matematika yang belum pernah dilihatnya sebelumnya.
(pua/pua)