Tokens dienen als de fundamentele eenheden van data voor LLMs, vergelijkbaar met hoe woorden de basis vormen van zinnen. Een token kan echter van vorm verschillen: het kan deel van een woord zijn, een heel woord, of zelfs leestekens. LLMs functioneren als next-token predictors, die de kans op de volgende token berekenen op basis van de reeks voorgaande tokens.
Laten we token zelf als voorbeeld nemen. "Tokens" is 1 token, maar "tokenize" kunnen er 2 zijn.
- Deze zin is 7 tokens.
- We moeten de tekst tokenizen voor betere analyse.
De vraag of "tokenize" een of twee tokens is, hangt af van de frequentie van het woord in de trainingsset van het Large Language Model. In modellen die zijn getraind op uitgebreide woordenschatten, waar er minder noodzaak is om bekende woorden op te splitsen in kleinere eenheden, zou "tokenize" doorgaans als een enkele token worden weergegeven. In tegenstelling daarmee kan het in situaties waarin de woordenschat minder uitgebreid is of het woord minder gangbaar is, worden opgesplitst in twee tokens.
Verschillen in tokengebruik tussen talen
De prestaties van Large Language Models varieren tussen verschillende talen. Hoewel we hier niet diep op de details ingaan, is het belangrijk om de verschillen op te merken in het aantal tokens dat nodig is om een typische zin in verschillende talen samen te stellen.
Engels, met zijn duizenden woorden die doorgaans als enkele tokens worden weergegeven, is vaak zuiniger in tokengebruik. Deze efficientie komt deels door de codeerstructuur van de LLM, die de neiging heeft Engels te bevoordelen vanwege de dominante aanwezigheid ervan in de trainingsdatasets. Daardoor is Engels een kostenefficiente taal voor LLM-operaties.
Neem bijvoorbeeld het woord "probability", een relatief lang woord in het Engels, en toch telt het als slechts een token. Wanneer het naar andere talen wordt vertaald, is het aantal tokens anders:
- NL - Kans - 2 tokens
- DE - Wahrscheinlichkeit - 4 tokens
- FR - Probabilite - 2 tokens
- ES - Probabilidad - 2 tokens
Een exacte vergelijking maken is lastig, maar als het gaat om tokengebruik, zijn grote Europese talen zoals Duits, Frans, Spaans en Nederlands (geen grote taal, dat weten we 😀) ongeveer 1,5 tot 1,7 keer token-intensiever dan Engels. Kleinere Europese talen kunnen nog veeleisender zijn, met Hongaars dat ongeveer 2,5 keer kost, en Grieks dat ongeveer 4 keer het tokengebruik van Engels bereikt.
Voor een grote taal als Hindi is de tokenuitgave ongeveer 5 keer die van Engels. Deze hogere kosten zijn niet alleen een gevolg van de complexiteit van de taal, maar ook van de ingewikkelde schriftregels en het gebruik van conjuncte karakters.

Waarom is dit belangrijk?
Aangezien we begonnen met de premisse dat tokengebruik gelijkstaat aan kosten, is het duidelijk dat talen die meer tokens nodig hebben om dezelfde inhoud uit te drukken, aanzienlijk duurder kunnen zijn.
Daarnaast is het concept van het context window hier nauw mee verbonden. Het context window is de hoeveelheid tekst (gemeten in tokens) die een model in een keer kan verwerken bij het genereren van een antwoord of het begrijpen van een tekst. Dit betekent dat werken in een taal als Hindi niet alleen de operationele kosten verhoogt, maar ook de hoeveelheid context beperkt die je in antwoorden kunt opnemen. We verkennen context windows in meer detail in een aankomende blogpost.
Terwijl grote spelers als OpenAI en Anthropic per token rekenen, heeft Google's PaLM2-model het rekenen per karakter geintroduceerd, wat onder bepaalde omstandigheden de kosten zou kunnen verlagen. Een ander alternatief is het deployen van een open-source model, doorgaans gefactureerd per uur gebruik. Deze optie brengt echter vaak hogere setup- en vaste maandelijkse kosten met zich mee, waardoor het meer een optimalisatie is dan een launch-strategie. Bovendien voldoet de kwaliteit van open-source modellen mogelijk niet aan de eisen voor bepaalde use-cases.
Om de meest geschikte optie voor jouw behoeften te bepalen, kun je eens kijken naar onze design sprints. We bekijken je content en helpen je de beste aanpak voor jouw specifieke situatie te identificeren.
