Autoresearch от Karpathy: мини-репозиторий, чтобы «научить» агента улучшать обучение LLM

Иногда хочется пощупать ML-ресерч руками, но без «инфраструктурного ада»: десятки конфигов, кластер, очереди, метрики, полдня на то, чтобы просто получить первый график.

Andrej Karpathy выложил очень показательный минимальный проект autoresearch: идея в том, чтобы у вас был маленький, но настоящий цикл обучения LLM, и рядом агент, который сам крутит гипотезы и фиксирует улучшения.

Что там интересного

Тренировка сведена к одному файлу и рассчитана на одну GPU. Порог входа сильно ниже: вы можете прочитать код целиком, а не «верить в фреймворк».[1]
Есть разделение ролей:
- человек итеративно уточняет «программу» агента в .md
- агент итеративно меняет тренировочный .py
Самое важное инженерное решение: каждый эксперимент длится фиксированные 5 минут. Это делает сравнение честным. Не нужно гадать, что улучшение произошло потому, что один запуск учился 2 часа, а другой 10 минут.[2]

Зачем вам это читать, если вы не ML-исследователь

Потому что это хороший «учебный стенд» для агентных систем.

Если вы хотите, чтобы агент реально улучшал что-то в коде или пайплайне, вам нужен:

узкий и понятный пространство изменений (что именно можно менять)
измеримый сигнал качества (что считается улучшением)
сопоставимые прогоны (одинаковая длительность, одинаковые условия)

В autoresearch всё это есть, и это можно переносить на любые прикладные циклы: от оптимизации промптов до автотюнинга ETL или моделей ранжирования.

Где смотреть первоисточник

Репозиторий: https://github.com/karpathy/autoresearch

По теме

Я люблю такие «минимальные песочницы»: они быстро показывают, где у агента реально появляются улучшения, а где он просто производит движение.