Multi-agent system löser 72,4% av programmeringsuppgifter genom att simulera utvecklingsteam

arXiv cs.AI

Forskare har utvecklat Agyn, ett automatiserat system som använder flera AI-agenter med specialiserade roller som koordinator, utvecklare och granskare för att lösa programmeringsuppgifter. Systemet uppnådde 72,4% framgång på SWE-bench 500-testet genom att replikera hur riktiga utvecklingsteam arbetar med strukturerad kommunikation och metodologi. Resultaten visar att teambaserad organisering kan vara mer effektiv än enskilda AI-agenter för mjukvaruutveckling.

Djupdykning

Forskare har utvecklat Agyn, ett multi-agent system som revolutionerar automatiserad mjukvaruutveckling genom att efterlikna hur riktiga utvecklingsteam arbetar. Systemet fördelar specialiserade AI-agenter på olika roller som koordination, forskning, implementation och granskning, där varje agent arbetar i isolerade sandlådor och följer strukturerade kommunikationsprotokoll. Det mest anmärkningsvärda är att systemet presterar exceptionellt väl (72,4% framgång på SWE-bench 500) trots att det designades för verklig produktionsanvändning snarare än att vara optimerat för benchmarks. Detta visar att framtiden för autonom mjukvaruutveckling kanske inte bara handlar om kraftfullare AI-modeller, utan lika mycket om att designa smarta organisationsstrukturer och agentinfrastruktur som speglar mänskliga arbetsmetoder. Nyckelinsikt: Att organisera AI-agenter som ett verkligt utvecklingsteam med tydliga roller och kommunikationsstrukturer kan vara nyckeln till mer effektiv autonom mjukvaruutveckling än enskilda superagenter.