Model AI Generatif tidak memproses teks sama seperti manusia. Memahami lingkungan internal berbasis 'token' mereka mungkin dapat menjelaskan beberapa perilaku aneh mereka - dan keterbatasan yang keras kepala.
Banyak model, mulai dari yang kecil di perangkat seperti Gemma hingga GPT-4o terkemuka industri OpenAI, dibangun di atas arsitektur yang dikenal sebagai transformer. Karena cara transformer menciptakan asosiasi antara teks dan jenis data lain, mereka tidak dapat menerima atau mengeluarkan teks mentah - setidaknya tidak tanpa jumlah komputasi yang besar.
Jadi, atas alasan yang pragmatis dan teknis, model transformer saat ini bekerja dengan teks yang sudah dipecah menjadi potongan-potongan lebih kecil yang disebut token - proses yang dikenal sebagai tokenisasi.
Token bisa berupa kata, seperti “fantastis.” Atau mereka bisa berupa suku kata, seperti “fan,” “tas” dan “tic.” Bergantung pada tokenizer - model yang melakukan tokenisasi - mereka bahkan bisa menjadi karakter individu dalam kata-kata (misalnya, “f,” “a,” “n,” “t,” “a,” “s,” “t,” “i,” “c”).
Dengan menggunakan metode ini, transformer bisa menerima lebih banyak informasi (dalam arti semantik) sebelum mencapai batas atas yang dikenal sebagai jendela konteks. Tetapi tokenisasi juga bisa memperkenalkan bias.
Beberapa token memiliki spasi aneh, yang dapat mengacaukan transformer. Seorang tokenizer mungkin mengkodekan “pernah suatu waktu” sebagai “pernah,” “di atas,” “a,” “waktu,” misalnya, sementara mengodekan “pernah di atas” (yang memiliki spasi di belakang) sebagai “pernah,” “di atas,” “a,” ” .” Tergantung pada bagaimana suatu model dipicu - dengan “pernah di atas” atau “pernah di atas ,” - hasilnya mungkin benar-benar berbeda, karena model tidak mengerti (seperti manusia) bahwa maknanya sama.
Tokenizer memperlakukan huruf besar berbeda, juga. “Halo” tidak selalu sama dengan “HALO” bagi model; “halo” biasanya satu token (tergantung pada tokenizer), sementara “HALO” bisa menjadi banyak hingga tiga (“HE,” “El,” dan “O”). Itulah mengapa banyak transformer gagal uji huruf kapital.
“Sulit untuk menghindari pertanyaan apa sebenarnya 'kata' harusnya bagi model bahasa, dan bahkan jika kita mendapatkan ahli manusia setuju pada kosakata token yang sempurna, model juga mungkin masih menemukannya berguna untuk 'memecah' hal-hal lebih jauh,” kata Sheridan Feucht, seorang mahasiswa PhD yang mempelajari interpretabilitas model bahasa besar di Universitas Northeastern, kepada TechCrunch. “Dugaan saya adalah bahwa tidak ada yang namanya tokenizer yang sempurna karena jenis kekaburan ini.”
“Kabur” ini menciptakan lebih banyak masalah dalam bahasa-bahasa selain Inggris.
Banyak metode tokenisasi menganggap bahwa spasi dalam sebuah kalimat menunjukkan kata baru. Itu karena mereka dirancang dengan bahasa Inggris dalam pikiran. Tetapi tidak semua bahasa menggunakan spasi untuk memisahkan kata. Tionghoa dan Jepang tidak melakukannya - begitu pula bahasa Korea, Thai, atau Khmer.
Sebuah studi Oxford 2023 menemukan bahwa, karena perbedaan dalam cara bahasa-bahasa non-Inggris ditokenisasi, bisa memakan waktu dua kali lebih lama bagi sebuah transformer untuk menyelesaikan tugas yang diformulasikan dalam bahasa non-Inggris daripada tugas yang sama diformulasikan dalam bahasa Inggris. Studi yang sama - dan lainnya - menemukan bahwa pengguna bahasa yang kurang “efisien” dalam token cenderung melihat kinerja model yang lebih buruk namun membayar lebih banyak untuk penggunaan, mengingat banyak vendor AI mengenakan biaya per token.
Tokenizer sering kali memperlakukan setiap karakter dalam sistem penulisan logograf - sistem di mana simbol-simbol cetak mewakili kata tanpa kaitannya dengan pengucapan, seperti bahasa Tionghoa - sebagai token yang berbeda, menyebabkan jumlah token tinggi. Demikian juga, tokenizer yang memproses bahasa aglutinatif - bahasa di mana kata-kata terdiri dari elemen kata makna kecil yang disebut morfem, seperti bahasa Turki - cenderung mengubah setiap morfem menjadi token, meningkatkan jumlah total token. (Kata yang setara dengan “halo” dalam bahasa Thai, สวัสดี, adalah enam token.)
Pada tahun 2023, peneliti AI Google DeepMind Yennie Jun melakukan analisis membandingkan tokenisasi dari berbagai bahasa dan efek turunannya. Dengan menggunakan kumpulan data teks paralel yang diterjemahkan ke dalam 52 bahasa, Jun menunjukkan bahwa beberapa bahasa membutuhkan hingga 10 kali lebih banyak token untuk menangkap arti yang sama dalam bahasa Inggris.
Di luar ketidaksetaraan bahasa, tokenisasi mungkin menjelaskan mengapa model saat ini buruk dalam matematika.
Sangat jarang digit di-tokenisasi secara konsisten. Karena mereka tidak benar-benar tahu apa itu angka, tokenizer mungkin memperlakukannya “380” sebagai satu token, tetapi mewakili “381” sebagai sepasang (“38” dan “1”) - efektif menghancurkan hubungan antara digit dan hasil dalam persamaan dan rumus. Akibatnya adalah kebingungan transformer; sebuah makalah terbaru menunjukkan bahwa model kesulitan memahami pola numerik berulang dan konteks, terutama data temporal. (Lihat: GPT-4 mengira 7.735 lebih besar dari 7.926).
Itulah juga alasan mengapa model tidak hebat dalam menyelesaikan masalah anagram atau membalik kata.
Jadi, tokenisasi jelas menimbulkan tantangan bagi AI generatif. Bisakah mereka dipecahkan?
Mungkin.
Feucht menunjuk ke model ruang status berbasis byte seperti MambaByte, yang dapat menyerap lebih banyak data daripada transformer tanpa hukuman kinerja dengan menghapus tokenisasi sepenuhnya. MambaByte, yang bekerja langsung dengan byte mentah yang mewakili teks dan data lain, bersaing dengan beberapa model transformer pada tugas analisis bahasa sambil menangani lebih baik “noise” seperti kata dengan karakter tertukar, spasi dan karakter kapital.
Model seperti MambaByte masih dalam tahap penelitian awal, namun.
“Mungkin yang terbaik adalah membiarkan model melihat karakter langsung tanpa memaksa tokenisasi, tetapi saat ini secara komputasi tidak mungkin untuk transformer,” kata Feucht. “Untuk model transformer khususnya, komputasi berkembang kuadratik dengan panjang urutan, jadi kita benar-benar ingin menggunakan representasi teks pendek.”
Kecuali ada terobosan dalam tokenisasi, tampaknya arsitektur model baru akan menjadi kunci.