Klassiskt psykologtest avslöjar AI-modellernas största svaghet

2026-06-15

6

Forskare har identifierat en betydande brist hos dagens mest avancerade AI-modeller genom att använda Stroop-testet, ett klassiskt psykologiskt experiment. Testet, som ursprungligen används för att mäta mänsklig uppmärksamhet, koncentration och självkontroll, visar att artificiell intelligens har stora problem med exekutiv kontroll när komplexiteten ökar.

Studien, som leddes av Suketu Patel och har publicerats i den vetenskapliga tidskriften PNAS Nexus, lät några av världens främsta AI-modeller genomgå testet. Stroop-testet går ut på att deltagaren ska identifiera färgen på bläcket i ett ord, samtidigt som man måste undertrycka impulsen att faktiskt läsa vad ordet står för – till exempel att säga "blå" när ordet "röd" är skrivet med blå färg.

Drastiskt fall i träffsäkerhet

I undersökningen testades modeller som GPT-4o, GPT-5, Claude 3.5 Sonnet, Claude Opus 4.1 och Gemini 2.5. Inledningsvis presterade modellerna väl när de ställdes inför korta listor med fem färgord. Men så snart listorna blev längre rasade träffsäkerheten dramatiskt.

Resultaten från testerna visar en tydlig trend:

GPT-4o: Sjönk från 91 procents noggrannhet vid fem ord till 57 procent vid tio ord. Vid 40 ord var träffsäkerheten nere på endast 15 procent.
Claude 3.5 Sonnet: Höll en stabil nivå fram till 20 ord, men föll sedan till 24 procents noggrannhet när listan utökades till 40 ord.

När forskarna kombinerade matchande och icke-matchande ord i samma lista sjönk prestationen för de icke-matchande objekten till nära noll i vissa fall.

Brist på exekutiv kontroll

Forskarna drar slutsatsen att AI-modeller, till skillnad från människor som kan bibehålla hög noggrannhet över längre sekvenser, saknar förmågan till exekutiv kontroll. Istället för att hålla fast vid specifika instruktioner faller modellerna tillbaka på sitt mest tränade beteende: att läsa texten.

Detta belyser fundamentala skillnader i hur biologiska hjärnor och nuvarande transformer-baserade AI-modeller hanterar uppmärksamhet och motstår distraktioner. Medan människor kan fokusera på en specifik uppgift trots störningsmoment, tycks AI-modellerna förlora tråden när mängden information ökar.

Viktiga slutsatser från studien:

Ledande AI-modeller presterar bra på korta, enkla uppgifter men misslyckas vid högre belastning.
Modellerna tenderar att prioritera sin mest grundläggande träning (läsning) framför specifika instruktioner.
Det finns en betydande klyfta mellan hur mänsklig uppmärksamhet och AI-arkitekturer fungerar i praktiken.

Källor

sciencedaily

Föregående artikel

Anthropic tvingas stänga ner Claude Fable 5 efter order från amerikanska regeringen

Nästa artikel

Uppgifter: Kina kan ha kommit över Anthropics kraftfulla AI-modell Mythos

Klassiskt psykologtest avslöjar AI-modellernas största svaghet

Drastiskt fall i träffsäkerhet

Brist på exekutiv kontroll

Källor

Relaterade artiklar

Zhipu AI släpper GLM-5.2 som öppen källkod – utmanar med fönster på 1 miljon tokens

Uppgifter: Kina kan ha kommit över Anthropics kraftfulla AI-modell Mythos

Anthropic tvingas stänga ner Claude Fable 5 efter order från amerikanska regeringen

Nytt och Aktuellt

Zhipu AI släpper GLM-5.2 som öppen källkod – utmanar med fönster på 1 miljon tokens

Uppgifter: Kina kan ha kommit över Anthropics kraftfulla AI-modell Mythos

Anthropic tvingas stänga ner Claude Fable 5 efter order från amerikanska regeringen

Google DeepMind lanserar Gemma 4 12B: Kraftfull AI direkt på din laptop

Jeff Bezos nya startup Prometheus: En ”artificiell generell ingenjör” ska förändra industrin

Klassiskt psykologtest avslöjar AI-modellernas största svaghet

Relaterade artiklar

Zhipu AI släpper GLM-5.2 som öppen källkod – utmanar med fönster på 1 miljon tokens

Uppgifter: Kina kan ha kommit över Anthropics kraftfulla AI-modell Mythos

Anthropic tvingas stänga ner Claude Fable 5 efter order från amerikanska regeringen

Nytt och Aktuellt

Zhipu AI släpper GLM-5.2 som öppen källkod – utmanar med fönster på 1 miljon tokens

Uppgifter: Kina kan ha kommit över Anthropics kraftfulla AI-modell Mythos

Anthropic tvingas stänga ner Claude Fable 5 efter order från amerikanska regeringen

Google DeepMind lanserar Gemma 4 12B: Kraftfull AI direkt på din laptop

Jeff Bezos nya startup Prometheus: En ”artificiell generell ingenjör” ska förändra industrin

Klassiskt psykologtest avslöjar AI-modellernas största svaghet

Related Articles

Zhipu AI släpper GLM-5.2 som öppen källkod – utmanar med fönster på 1 miljon tokens

Uppgifter: Kina kan ha kommit över Anthropics kraftfulla AI-modell Mythos

Anthropic tvingas stänga ner Claude Fable 5 efter order från amerikanska regeringen

Latest Articles

Zhipu AI släpper GLM-5.2 som öppen källkod – utmanar med fönster på 1 miljon tokens

Uppgifter: Kina kan ha kommit över Anthropics kraftfulla AI-modell Mythos

Anthropic tvingas stänga ner Claude Fable 5 efter order från amerikanska regeringen

Google DeepMind lanserar Gemma 4 12B: Kraftfull AI direkt på din laptop

Jeff Bezos nya startup Prometheus: En ”artificiell generell ingenjör” ska förändra industrin