Nytt verktyg mäter komplexiteten i AI-applikationer – inte bara koden

arXiv cs.AI

Forskare har tagit fram HECATE, ett verktyg som mäter hur komplex en LLM-baserad applikation egentligen är – och det visar sig att promptlagret (den text som styr AI:ns beteende) behöver mätas separat från koden. Av 52 testade mätvärden klarade bara tio sig i validering mot 118 komponenter från 18 öppna kodrepon, och sju av dem kom från forskarnas egna nyutvecklade mätmetoder. Det intressanta är att prompt-komplexiteten visade sig vara en självständig dimension som påverkar underhållsbördan, oavsett hur komplex koden i sig är.

Djupdykning

Mjukvara har länge mätts med verktyg som räknar kodrader, förgreningar och anrop – men LLM-applikationer är fundamentalt annorlunda eftersom en stor del av logiken lever i prompten, alltså den naturliga text du skickar till modellen, snarare än i koden som omger den. HECATE är ett nytt analysverktyg som behandlar varje prompt som en formell specifikation (inspirerat av Hoare-logik, ett gammalt sätt att bevisa att kod gör vad den ska) och mäter komplexitet i båda lagren samtidigt. Av 52 kandidatmått överlevde bara tio den empiriska testet mot verkliga open-source-repos, och sju av dem var nya – de mäter "strukturell bredd", alltså hur många distinkt olika element som finns, inte bara hur mycket det är totalt. Det som de flesta missar här är att prompten i en LLM-app i praktiken är kod, den styr beteende, hanterar kantfall och definierar gränser – men behandlas idag som fri text utan formell analys, vilket gör den osynlig för alla verktyg som utvecklingsteam faktiskt använder för att bedöma underhållskostnader och teknisk skuld. När promptkomplexitet visar sig vara en självständig dimension som förutsäger hur svårt något är att underhålla, oberoende av kodens komplexitet, innebär det att team som bara optimerar sin kod kan ha en tickande bomb i prompt-lagret som ingen mätare ens visar.

🔗 Läs originalartikeln (arXiv cs.AI)

◀ 9 av 17 ▶