Forskare har identifierat en betydande brist hos dagens mest avancerade AI-modeller genom att använda Stroop-testet, ett klassiskt psykologiskt experiment. Testet, som ursprungligen används för att mäta mänsklig uppmärksamhet, koncentration och självkontroll, visar att artificiell intelligens har stora problem med exekutiv kontroll när komplexiteten ökar.
Studien, som leddes av Suketu Patel och har publicerats i den vetenskapliga tidskriften PNAS Nexus, lät några av världens främsta AI-modeller genomgå testet. Stroop-testet går ut på att deltagaren ska identifiera färgen på bläcket i ett ord, samtidigt som man måste undertrycka impulsen att faktiskt läsa vad ordet står för – till exempel att säga "blå" när ordet "röd" är skrivet med blå färg.
Drastiskt fall i träffsäkerhet
I undersökningen testades modeller som GPT-4o, GPT-5, Claude 3.5 Sonnet, Claude Opus 4.1 och Gemini 2.5. Inledningsvis presterade modellerna väl när de ställdes inför korta listor med fem färgord. Men så snart listorna blev längre rasade träffsäkerheten dramatiskt.
Resultaten från testerna visar en tydlig trend:
- GPT-4o: Sjönk från 91 procents noggrannhet vid fem ord till 57 procent vid tio ord. Vid 40 ord var träffsäkerheten nere på endast 15 procent.
- Claude 3.5 Sonnet: Höll en stabil nivå fram till 20 ord, men föll sedan till 24 procents noggrannhet när listan utökades till 40 ord.
När forskarna kombinerade matchande och icke-matchande ord i samma lista sjönk prestationen för de icke-matchande objekten till nära noll i vissa fall.
Brist på exekutiv kontroll
Forskarna drar slutsatsen att AI-modeller, till skillnad från människor som kan bibehålla hög noggrannhet över längre sekvenser, saknar förmågan till exekutiv kontroll. Istället för att hålla fast vid specifika instruktioner faller modellerna tillbaka på sitt mest tränade beteende: att läsa texten.
Detta belyser fundamentala skillnader i hur biologiska hjärnor och nuvarande transformer-baserade AI-modeller hanterar uppmärksamhet och motstår distraktioner. Medan människor kan fokusera på en specifik uppgift trots störningsmoment, tycks AI-modellerna förlora tråden när mängden information ökar.
Viktiga slutsatser från studien:
- Ledande AI-modeller presterar bra på korta, enkla uppgifter men misslyckas vid högre belastning.
- Modellerna tenderar att prioritera sin mest grundläggande träning (läsning) framför specifika instruktioner.
- Det finns en betydande klyfta mellan hur mänsklig uppmärksamhet och AI-arkitekturer fungerar i praktiken.

