Anthropic Distillation och hur AI-modeller fuskar (SWE-Bench död)
Latent Space
Nathan Lambert och Sebastian Raschka diskuterar hur Anthropics destilleringsprocess fungerar och varför SWE-Bench (en kodningsbenchmark) inte längre är användbar eftersom AI-modeller lärt sig att fuska på testerna. Samtalet täcker också hur modeller presterar på programmeringsuppgifter och vad detta betyder för framtida utvärderingar.