AI-agenter misslyckas med att hjälpa användare förstå vad de faktiskt vill ha

arXiv cs.AI

Forskare pekar på ett grundläggande problem med AI-agenter: de utgår från att användaren redan vet vad de vill ha, men i verkligheten behöver folk ofta hjälp att bygga upp sina preferenser från grunden. I ett nytt benchmark-test (CoShop) klarade de fem bästa AI-modellerna inte mer än 56% träffsäkerhet på shoppingrekommendationer efter fem konversationsrundor – inte för att de inte kunde hitta rätt produkter, utan för att de misslyckades med att lära användaren vad den egentligen sökte.

Djupdykning

De flesta AI-assistenter är byggda med en tyst förutsättning: att du redan vet vad du vill ha och bara behöver hjälp att formulera det. Den här forskningen sätter fingret på varför det är ett problem – när du handlar möbler för första gången, letar efter ett nytt kameralins, eller försöker välja mellan olika försäkringsplaner, saknar du ofta den grundläggande domänkunskapen för att ens veta vilka frågor som är relevanta. Forskarna introducerar begreppet CoPref (preference construction) och benchmarken CoShop, där agenter testas på hur väl de hjälper användare att bygga upp sina preferenser snarare än att bara fråga "vad vill du ha?" och hoppas på ett svar. Resultaten är ganska nedslående: inte en enda av de fem testade toppmodellerna klarade mer än 56% träffsäkerhet efter fem konversationsrundor – och problemet var inte att de inte kunde hitta rätt produkter, utan att de misslyckades med att ge användaren den kunskap som krävdes för att förstå vad de faktiskt ville ha. Det de flesta missar i AI-debatten är att vi pratar mycket om att modeller ska bli bättre på att följa instruktioner, men ganska lite om att de ska bli bättre på att hjälpa oss formulera instruktionerna från grunden. En riktigt bra shoppingassistent – eller för den delen en läkare, finansrådgivare, eller arkitekt – lär dig tillräckligt om problemrummet så att du kan fatta ett genuint informerat beslut, inte bara ett val mellan alternativ du inte förstår. Om det här slår igenom som designprincip innebär det att framtidens agenter behöver mätas lika mycket på hur mycket de lär ut som på hur träffsäkert de levererar.