Kenapa AI Tak Bisa Mengeja 'Strawberry'?

CNN Indonesia

Kamis, 29 Agu 2024 15:00 WIB

Meski tampak canggih, nyatanya AI memiliki keterbatasan yang signifikan, tidak bisa mengenali jumlah huruf "r" dalam kata "strawberry". Mengapa demikian? — Ilustrasi. Meski canggih, nyatanya AI tidak bisa mengeja kata

Jakarta, CNN Indonesia --

Meski tampak canggih, nyatanya AI memiliki keterbatasan yang signifikan. Salah satunya yaitu AI tidak bisa mengenali jumlah huruf "r" dalam kata "strawberry".

Lalu apa penyebab AI tak bisa mengeja 'strawberry'?

Model bahasa besar (LLM) dapat menulis esai dan memecahkan persamaan dalam hitungan detik. Mereka dapat mensintesiskan terabyte data lebih cepat daripada manusia dapat membuka buku.

SCROLL TO CONTINUE WITH CONTENT

Namun, AI nampaknya membuat kegagalan besar hingga membuat banyak orang 'senang' dan ramai-ramai membuat meme yang viral.

Menurut produk AI seperti GPT-4o dan Claude, saat muncul pertanyaan; berapa kali huruf "r" muncul dalam kata "strawberry", maka jawabannya adalah dua kali. Jawaban tersebut sudah pasti salah karena jawaban yang benar adalah ada tiga huruf "r" dalam kata strawberry.

Pilihan Redaksi

Mengapa demikian?

Kegagalan model bahasa yang besar untuk memahami konsep huruf dan suku kata merupakan indikasi kebenaran yang lebih besar yang sering kita lupakan: Benda-benda ini tidak punya otak.

Mereka tidak berpikir seperti manusia. Mereka bukan manusia, bahkan tidak mirip manusia.

Sebagian besar LLM dibangun di atas transformer, semacam arsitektur pembelajaran mendalam. Model transformer memecah teks menjadi token, yang dapat berupa kata-kata lengkap, suku kata, atau huruf, tergantung pada modelnya.

"LLM didasarkan pada arsitektur transformer ini, yang secara khusus tidak benar-benar membaca teks. Apa yang terjadi ketika Anda memasukkan perintah adalah perintah tersebut diterjemahkan ke dalam sebuah enkode," kata Matthew Guzdial, seorang peneliti AI dan asisten profesor di University of Alberta, kepada TechCrunch.

"Ketika melihat kata 'the,' ia memiliki satu enkode tentang apa arti 'the', tetapi tidak mengetahui tentang 'T,' 'H,' 'E.'"

Hal ini karena transformer tidak dapat menerima atau mengeluarkan teks yang sebenarnya secara efisien.

Sebaliknya, teks tersebut diubah menjadi representasi numerik dari dirinya sendiri, yang kemudian dikontekstualisasikan untuk membantu AI menghasilkan respons yang logis.

Dengan kata lain, AI mungkin mengetahui bahwa token "straw" dan "berry" membentuk "strawberry," tetapi mungkin tidak memahami bahwa "strawberry" terdiri dari huruf "s," "t," "r," "a," "w," "b," "e," "r," "r," dan "y," dalam urutan tertentu.

Oleh karena itu, ia tidak dapat memberi tahu Anda berapa banyak huruf - apalagi berapa banyak huruf "r" - yang muncul dalam kata "strawberry."

Ini bukan masalah yang mudah untuk diperbaiki, karena masalah ini tertanam dalam arsitektur yang membuat LLM ini berfungsi.

Baca selengkapnya di halaman berikutnya...

Kyle Wiggers dari TechCrunch menyelidiki masalah ini bulan lalu dan berbicara dengan Sheridan Feucht, seorang mahasiswa PhD di Northeastern University yang mempelajari interpretabilitas LLM.

"Agak sulit untuk menjawab pertanyaan tentang apa sebenarnya 'kata' yang seharusnya untuk model bahasa, dan bahkan jika kita mendapatkan pakar manusia untuk menyetujui kosakata token yang sempurna, model mungkin masih akan merasa berguna untuk 'mengelompokkan' hal-hal lebih jauh lagi," kata Feucht kepada TechCrunch.

"Dugaan saya adalah tidak ada yang namanya tokenizer sempurna karena ketidakjelasan semacam ini."

Masalah ini menjadi lebih rumit saat LLM mempelajari lebih banyak bahasa.

Misalnya, beberapa metode tokenisasi mungkin berasumsi bahwa spasi dalam kalimat akan selalu mendahului kata baru, tetapi banyak bahasa seperti Cina, Jepang, Thailand, Laos, Korea, Khmer, dan lainnya tidak menggunakan spasi untuk memisahkan kata.

Peneliti AI Google DeepMind Yennie Jun menemukan dalam sebuah studi pada 2023 bahwa beberapa bahasa membutuhkan token hingga 10 kali lebih banyak daripada bahasa Inggris untuk mengomunikasikan makna yang sama.

Lihat Juga :

Survei: 34 Persen Pilih AI Jadi Bos daripada Manusia karena Lebih Adil

"Mungkin lebih baik membiarkan model melihat karakter secara langsung tanpa menerapkan tokenisasi, tetapi saat ini hal itu tidak layak secara komputasi untuk transformer," kata Feucht.

Generator gambar seperti Midjourney dan DALL-E tidak menggunakan arsitektur transformer yang ada di balik generator teks seperti ChatGPT.

Sebaliknya, generator gambar biasanya menggunakan model difusi, yang merekonstruksi gambar dari noise. Model difusi dilatih pada basis data gambar yang besar, dan mereka diberi insentif untuk mencoba menciptakan kembali sesuatu seperti yang mereka pelajari dari data pelatihan.

Asmelash Teka Hadgu, salah satu pendiri Lesan dan seorang peneliti di DAIR Institute, mengatakan kepada TechCrunch, bahwa generator gambar cenderung bekerja lebih baik pada artefak seperti mobil dan wajah orang.

"Dan kurang baik pada hal-hal yang lebih kecil seperti jari dan tulisan tangan."

Lihat Juga :

Google Luncurkan Gemini Live, AI yang Bisa Diajak Ngobrol

Ini bisa jadi karena detail yang lebih kecil ini tidak sering muncul secara mencolok dalam set pelatihan seperti konsep seperti bagaimana pohon biasanya memiliki daun hijau.

Namun, masalah dengan model difusi mungkin lebih mudah diperbaiki daripada yang mengganggu transformer. Beberapa generator gambar telah ditingkatkan dalam merepresentasikan tangan, misalnya, dengan melatih lebih banyak gambar tangan manusia yang nyata.

"Bahkan tahun lalu, semua model ini sangat buruk dalam hal jari, dan itu masalah yang sama persis dengan teks," jelas Guzdial.

"Mereka sangat ahli dalam hal ini secara lokal, jadi jika Anda melihat tangan dengan enam atau tujuh jari, Anda bisa berkata, 'Wah, itu terlihat seperti jari.' Begitu pula dengan teks yang dihasilkan, Anda bisa berkata, itu terlihat seperti 'H,' dan itu terlihat seperti 'P,' tetapi mereka sangat buruk dalam menyusun semua hal ini secara bersamaan."

Itulah sebabnya, jika Anda meminta generator gambar AI untuk membuat menu untuk restoran Meksiko, Anda mungkin akan mendapatkan item biasa seperti "Tacos," tetapi Anda akan lebih mungkin menemukan penawaran seperti "Tamilos," "Enchidaa" dan "Burhiltos."

Lihat Juga :

Cara Hapus Watermark usai Viral Jokowi Unggah Foto Veddriq Leonardo

Saat meme tentang ejaan "strawberry" ini tersebar di internet, OpenAI tengah mengerjakan produk AI baru dengan nama kode Strawberry, yang seharusnya lebih mahir dalam penalaran.

Pertumbuhan LLM telah dibatasi oleh fakta bahwa tidak ada cukup data pelatihan di dunia untuk membuat produk seperti ChatGPT lebih akurat.

Namun, Strawberry dilaporkan dapat menghasilkan data sintetis yang akurat untuk membuat LLM OpenAI lebih baik lagi.

Menurut The Information, Strawberry dapat memecahkan teka-teki kata Connections dari New York Times, yang memerlukan pemikiran kreatif dan pengenalan pola untuk menyelesaikannya dan dapat memecahkan persamaan matematika yang belum pernah dilihatnya sebelumnya.

Lebih sulit dari pelajari banyak bahasa BACA HALAMAN BERIKUTNYA

HALAMAN:

1 2

Search History

Kenapa AI Tak Bisa Mengeja 'Strawberry'?

Survei: 34 Persen Pilih AI Jadi Bos daripada Manusia karena Lebih Adil

Google Rilis Versi Terbaru Imagen 3, Generator Gambar Berbasis AI

Cara Buat Video Viral AI Berpelukan, Berguna Buat Bernostalgia

Mengapa demikian?

Lihat Juga :

Lihat Juga :

Lihat Juga :