DARE-bench: Ny benchmark för att utvärdera AI-modellers datavetenskapsförmågor
Forskare har lanserat DARE-bench, ett nytt verktyg för att mäta hur bra AI-modeller är på komplexa datavetenskapsuppgifter med 6 300 verifierbara test från Kaggle. Även avancerade modeller som GPT-4 mini presterar dåligt på machine learning-uppgifter, men träning med DARE-bench kan förbättra prestandan dramatiskt – Qwen3-4B blev över 8 gånger bättre med reinforcement learning.
Djupdykning
Nu har vi fått den första riktigt seriösa benchmarken för att testa hur bra AI-modeller är på datavetenskapsuppgifter – och resultaten är rätt nedslående. DARE-bench består av 6 300 uppgifter hämtade från Kaggle (den populära tävlingsplattformen för datavetare) och testar allt från grundläggande dataanalys till avancerad maskininlärning, med verifierbara svar istället för subjektiva bedömningar. Det mest slående är att även GPT-4 mini, en av de starkaste modellerna idag, presterar förvånansvärt dåligt – särskilt när det gäller att bygga maskininlärningsmodeller där den verkligen kämpar. Men när forskarna använde DARE-bench för att träna modeller så såg de dramatiska förbättringar: en Qwen-modell blev åtta gånger bättre efter träning, vilket visar att det inte bara handlar om modellarnas grundkapacitet utan om att de saknar specifik träning i datavetenskapliga arbetsflöden. Nyckelinsikt: Även de bästa AI-modellerna är fortfarande nybörjare när det kommer till riktig datavetenskap, men rätt träningsdata kan förvandla dem till experter.