Сегодня будут две крутые новости, которые сильно меня порадовали:
1. Вышла открытая модель DeepSeek-Prover-V2 для Lean 4, совмещающая неформальное chain-of-thought и формальные доказательства через рекурсивный конвейер.
- Флагман 671 B ставит новый SoTA: 88,9 % MiniF2F, 37,1 % ProofNet, 49/658 Putnam (7 B добавила ещё 13 задач).
- На свежем ProverBench-AIME (2024-25) решила 6 из 15 задач.
- Разрыв с «обычным» DeepSeek-V3 в задачах AIME сузился: формальное и неформальное мышление в LLM всё ближе.
Он умеет не просто «угадать» ответ на сложную задачу по математике, а написать строгое доказательство, которое модель по больше может проверить.
- На специальном тесте по теоремам он доказал почти 9 из 10 задач.
- Справляется и с университетской математикой, решая десятки сложных примеров, а иногда даже больше, чем его младшая «облегчённая» версия.
- На свежих задачах уровня американских школьных олимпиад (AIME) нашёл верные решения для 6 из 15.
Новые модели доступны в OpenSource!
2. Notebook LLM научился создавать подкасты на русском, получается достаточно приятно. Теперь можно обозревать и слушать нудные научные статьи в формате радио/подкаста пока ты едешь домой на машине или в метро и все это БЕСПЛАТНО.
Вот как раз послушайте обзорный подкаст про новый DeepSeek на тему: "DeepSeek-Prover-V2: Доказательство Теорем Через Разбиение Целей" - в целом неплохо, но мне хотелось бы больше деталей:) DeepSeek-Prover-V2 https://github.com/deepseek-ai/DeepSeek-Prover-V2/tree/main Notebook LLM http://notebooklm.google.com/