Ollama — рантайм для локальных и облачных LLM: установка, CLI, API, tool calling и свежая интеграция с Codex CLI. Справочник по возможностям и сценариям.
Grok 4.3 в xAI API: 1M контекста, лидер по tool calling и цена ниже флагманов
xAI выпустила Grok 4.3 в публичный API: 1 миллион токенов контекста, первые места в бенчмарках по агентным tool calls и instruction following и заметно дешевле большинства конкурентов. Разбираю, что это даёт на практике.
xAI выпустили Grok 4.3 в публичный API — и в этот раз новость не про «ещё одну новую модель», а про конкретные цифры, которые меняют расклад на рынке LLM.
Что заявили
По фактам из анонса:
- Grok 4.3 живёт в xAI API — самая быстрая и умная модель xAI на сегодня;
- №1 в лидерборде Artificial Analysis по двум ключевым для агентов метрикам: agentic tool calling и instruction following;
- №1 в Vals AI в корпоративных доменах — case law (юридическая практика) и corporate finance;
- 1 миллион токенов контекста;
- цена: $1.25 за миллион входных токенов, $2.50 за миллион выходных.
Почему это интересно для тех, кто строит агентов
Если упрощать, у современных LLM есть три разных «фронта»:
- Чат и креатив. Кто пишет красивее, кто умнее в диалогах.
- Кодинг. Кто лучше пишет и ревьюит код.
- Агенты и инструменты. Кто аккуратно зовёт tool calls в нужный момент, держит план, не путается в шагах и слушается инструкций.
Третий фронт — самый важный для всего, что связано с реальными агентами: связки в OpenClaw и Codex, MCP-серверы, контентные пайплайны, работа с CRM и базами данных.
И именно тут Grok 4.3 заявляется лидером. На практике это значит, что у нас появляется ещё одна сильная модель для:
- роли исполнителя в многоагентной связке, когда нужно надёжно дёргать инструменты;
- работы со сложными промптами, где много правил и шагов;
- задач, где нужна юридическая или финансовая дисциплина в рассуждениях.
Что значат 1M контекста
1 миллион токенов — это не просто «можно скормить большую книгу». На практике это:
- весь репозиторий среднего проекта в одном запросе;
- многомесячный лог переписки или встреч за раз;
- большой набор документов клиента — без RAG-обвязки на старте.
То есть для прототипов и ресёрча можно сначала «закинуть всё», а уже потом думать про индексацию и embeddings. Это сильно ускоряет фазу, когда вы ещё не знаете, что искать.
Цена в контексте рынка
$1.25 за миллион входных и $2.50 за миллион выходных — заметно дешевле большинства флагманов этого уровня. Для сравнения, премиум-модели GPT- и Claude-класса обычно стоят заметно выше.
Это даёт два прикладных эффекта:
- массовые задачи (классификация, разбор данных, нормализация) становятся реально дешёвыми;
- в многоагентных системах можно поставить Grok 4.3 на роли, где нужен большой контекст и tool calls, не пугаясь счёта в конце месяца.
Что я бы сделал на этой неделе
- Завести API-ключ и прогнать Grok 4.3 на своих типовых промптах — тех, где у вас уже есть бенчмарк по другим моделям.
- Дать ему сценарий с tool calls и проверить, будет ли он слушаться правил или начнёт «свободно интерпретировать» инструкции, как иногда любят более старые модели.
- Попробовать на одной большой задаче (репозиторий, корпус документов, длинный лог встреч), которую раньше не клали в LLM из-за контекста.
Важная оговорка
Цифры в анонсах и реальные цифры в ваших задачах — часто две разные истории. Я бы не торопился перестраивать свою агентную инфраструктуру под новую модель без прогона на «своих» сценариях. Лидерборды дают направление, финальное решение — всегда за вашими собственными прогонами.
По теме
Если хочется не просто переключиться на новую модель, а собрать рабочий контур из нескольких агентов, где у каждой модели своя роль, — у меня есть формат консультации, где мы это делаем вместе. Спокойно разбираем ваш стек, задачи и определяем, кому из агентов в вашей системе действительно стоит поручить что и почему.
Если хотите разобрать свою задачу — напишите мне Если хотите разобрать свою задачу — напишите мне.
Можно прийти с идеей, черновым контекстом или уже живой задачей. Помогу быстро понять, где реальный следующий шаг, а где лишний шум.
Обычно хватает 2–3 сообщений, чтобы понять, могу ли я здесь реально помочь и в каком формате лучше двигаться дальше.
Связанные материалы
Anthropic SDK для Python и TypeScript и Claude Agent SDK: Messages API, tool use, structured outputs, MCP, prompt caching, батчи и обработка ошибок. Практические рецепты для агенто…
DeepSeek API: эндпоинты, модели V и R, tool use, structured outputs, ценообразование. Связка с LiteLLM и OpenAI-совместимыми SDK.