Szeretném megosztani a nagy nyelvi modellek eredettörténetének egy olyan részét, amely nem széles körben ismert. A természetes nyelvfeldolgozás (NLP) területén végzett korai munkák nagy részét az amerikai katonai hírszerző ügynökségek finanszírozták, amelyeknek gépi fordítási és beszédfelismerő képességekre volt szükségük. Akkoriban, akárcsak most, az ilyen ügynökségek nagy mennyiségű szöveget és rögzített beszédet elemeztek különböző nyelveken. Évtizedeken keresztül pénzt öltek a gépi fordítás és a beszédfelismerés kutatásába, ami arra ösztönözte a kutatókat, hogy az NLP más felhasználási területeivel szemben aránytalanul nagy figyelmet szenteljenek ezeknek az alkalmazásoknak.
Ez megmagyarázza, hogy az NLP számos fontos technikai áttörése a fordítás tanulmányozásából származik – több, mint azt a fordítás jelenlegi alkalmazásokban betöltött szerény szerepe alapján gondolnánk. Például a Google Brain csapatának ünnepelt transzformációs cikke, az “Attention is All You Need” (Figyelemre van szükséged) egy olyan technikát mutatott be, amellyel az egyik nyelvi mondatot le lehet képezni egy másik nyelvi fordítással. Ez megalapozta az olyan nagy nyelvi modelleket (LLM), mint a ChatGPT, amelyek egy felszólítást egy generált válaszra képeznek le.
Vagy tekintsük a BLEU pontszámot, amelyet alkalmanként még mindig használnak az LLM-ek értékelésére, összehasonlítva a kimeneteiket az alapigazság példákkal. Ezt 2002-ben fejlesztették ki annak mérésére, hogy egy gépi fordítás mennyire hasonlítható össze egy alapigazsággal, az ember által készített fordítással.
Az LLM-ek kulcsfontosságú eleme a tokenizálás, azaz a nyers bemeneti szöveg részszavakra való bontása, amelyek a feldolgozandó tokenekké válnak. Például az előző mondat első része így bontható tokenekre:
/Az /LLM/ek/ kulcs /fontos /ságú/ eleme / a / token / izálás/.
A szövegek tokenizálására ma a legszélesebb körben használt algoritmus a Byte Pair Encoding (BPE), amely Sennrich et al. 2015-ös tanulmánya után vált népszerűvé az NLP-ben. A BPE az egyes karakterekből mint tokenekből indul ki, és a gyakran együtt előforduló tokeneket ismételten összevonja. Végül egész szavak és gyakori részszavak is tokenekké válnak. Hogyan jött létre ez a technika? A szerzők olyan modellt akartak létrehozni, amely képes lefordítani olyan szavakat, amelyek nem voltak reprezentálva a képzési adatokban. Úgy találták, hogy a szavak részszavakra bontása olyan bemeneti reprezentációt hozott létre, amely lehetővé tette a modell számára, hogy ha látta a “token” és az “izálás” szavakat, akkor kitalálja egy olyan szó jelentését, amelyet korábban esetleg nem látott, mint például a “tokenization”.