In 2012 versloeg het inmiddels beroemde AlexNet de andere modellen overtuigend in de ImageNet-competitie, wat de brede adoptie van Convolutional Neural Networks (CNNs) inluidde. Vrijwel van de ene op de andere dag halveerde deze specifieke variant van deep learning-modellen het foutpercentage ten opzichte van andere state-of-the-art computer vision-technieken. Het markeerde het begin van een dramatische verbetering in de prestaties van computer vision-modellen, die in rap tempo de nauwkeurigheid van mensen benaderden.
En nu, in 2024, bevinden we ons midden in een nieuwe computer vision-revolutie. Waar de revolutie van 2012 een flinke sprong in prestaties betekende, belooft deze nieuwe revolutie een grote sprong in toegankelijkheid van generalistische computer vision-modellen die in staat zijn een breed scala aan taken op te lossen. Net als bij de vooruitgang in natural language processing wordt deze revolutie aangedreven door de krachtige Transformer-architectuur, hetzelfde model dat ook ten grondslag ligt aan Large Language Models en ChatGPT.
De manier waarop we computers laten zien gaat veranderen
Het huidige paradigma van computer vision draait om het verzamelen van enorme hoeveelheden beelden, uitgebreid labelen en het trainen van gespecialiseerde modellen voor elke specifieke taak. Zodra ze getraind zijn, worden de modellen gevalideerd op data, in de hoop dat ze robuust genoeg zijn om de echte wereld aan te kunnen, die vol zit met edge cases. Dit proces is behoorlijk omslachtig, en het is geen verrassing dat het heeft geleid tot het ontstaan van veel gespecialiseerde computer vision-bedrijven die zich richten op het helpen van computers bij het oplossen van taken, waarvan sommige voor mensen behoorlijk alledaags zijn.
Maar met de komst van Multimodale LLMs gaat dit allemaal veranderen, en de verschuiving gaat nog vrij onopgemerkt voorbij, zoals ook wordt genoemd in deze recente tweet van Ethan Mollick:

Ethan Mollick merkt op hoe weinig aandacht er is voor het verkennen van de werkelijke kracht van AI-vision.
Wanneer je begint te experimenteren met multimodale modellen zoals OpenAI's GPT-4o, Anthropic's Claude Sonnet 3.5, Google's PaliGemma of Tencent's YoloWorld, voel je dat we op de drempel van een transformerende fase staan. We gaan van een wereld waarin modellen alleen toegankelijk waren voor experts naar een wereld waarin je een generalistisch model eenvoudig kunt vertellen (prompten) welke vision-taak het moet oplossen, en het doet het gewoon!

Kijk, ik heb een gat-detector getraind, uhh, geprompt
Het is nog vroeg dag, dus verwacht geen perfectie
Vandaag kun je de magie van multimodale LLMs al voelen bij het oplossen van uiteenlopende computer vision-taken, maar het is belangrijk te onthouden dat deze systemen nog steeds hun problemen hebben. Dus zou je Multimodale LLMs moeten toevoegen aan je computer vision-oplossingen? Tja, zoals met alles in het leven: "het hangt ervan af".
Als je complexe vision-taken oplost waar mensen doorgaans moeite mee hebben en nauwkeurigheid cruciaal is, dan is het toevoegen van een LLM aan je stack misschien (nog) niet het beste idee. Maar als je werkt aan oplossingen met eenvoudigere vision-taken waarbij incidentele fouten acceptabel zijn, dan is experimenteren met Multimodale LLMs het overwegen waard, vooral tijdens de prototyping- of opschalingsfase.
Zodra je oplossing zich nuttig bewijst, kun je altijd overstappen op het trainen van je eigen computer vision-modellen, wat goedkoper en sneller kan zijn. Een alternatief is om de kracht van deze grote modellen te distilleren naar kleinere modellen die bijvoorbeeld op edge devices kunnen draaien, zoals te zien is in deze blogpost: LLM Knowledge Distillation: GPT-4o.
Evaluatie blijft een cruciale factor voor succes
Het gebruik van deze nieuwe LLM-systemen ontslaat je van de uitdaging om zelf je modellen te moeten trainen, want dat is al gedaan door bedrijven als OpenAI. Maar dat betekent niet dat je ontslagen bent van de noodzaak om data te verzamelen en een goede evaluatie uit te voeren.
In het huidige computer vision-paradigma verzamel je veel beelden om je model te trainen en gebruik je een deel van die data voor evaluatie. In het nieuwe paradigma hoef je geen model te trainen, maar je moet nog steeds je prompts optimaliseren en de prestaties van je systeem valideren. Dus evaluatie blijft net zo cruciaal als altijd! En om een goede evaluatie uit te voeren heb je nog steeds data nodig, maar gelukkig niet zoveel als je nodig zou hebben om een model vanaf nul te trainen.
Bij de huidige generatie LLMs zijn er nog steeds vervelende failure modes; dat is niets nieuws. Of je nu LLMs gebruikt voor Retrieval-Augmented Generation (RAG), het genereren van tekst, of, in dit geval, het oplossen van computer vision-taken, goede evaluaties zijn essentieel om succes te behalen. Zie bijvoorbeeld een van onze eerdere blogposts over Pushing a RAG Prototype to Production.
Onderschat het potentiele voordeel van een eerste succes niet
Is het je al gelukt om je computer vision-probleem voldoende op te lossen met een multimodale LLM? Gefeliciteerd, je zit nu in een geweldige positie! Waarom? Je bent nu klaar om mee te liften op de golf waar de huidige LLM-markt snel naartoe beweegt: betere modellen tegen lagere prijzen (zie ook onze vorige blog over dit onderwerp: The Era of Choice in AI).
Met minimale inspanning zal je oplossing blijven verbeteren en goedkoper worden om te draaien. Het enige dat je hoeft te doen is je evaluaties in de gaten houden en je prompts afstemmen op nieuwere modellen. Wie zegt daar nee tegen?
Nu we op de drempel staan van dit nieuwe tijdperk in computer vision, is een ding glashelder: de toekomst gaat niet langer alleen over het verbeteren van de prestaties, maar over het eenvoudiger en toegankelijker maken ervan voor iedereen!
