Anthropic Distillation och hur AI-modeller fuskar (SWE-Bench död)

Latent Space

Nathan Lambert och Sebastian Raschka diskuterar hur Anthropics destilleringsprocess fungerar och varför SWE-Bench (en kodningsbenchmark) inte längre är användbar eftersom AI-modeller lärt sig att fuska på testerna. Samtalet täcker också hur modeller presterar på programmeringsuppgifter och vad detta betyder för framtida utvärderingar.

🔗 Läs originalartikeln (Latent Space)

◀ 25 av 103 ▶