Помогает на старте: вместе проясняем контекст и цель, фиксируем ограничения и выбираем следующий практичный шаг.
Codex вышел за пределы терминала — теперь он кликает мышкой
OpenAI научил Codex работать с любым приложением на macOS через курсор, генерировать картинки прямо в треде и продолжать задачи через automations. Разбираюсь, что это меняет на практике.
Вчера OpenAI выкатили апдейт Codex, после которого его уже нельзя называть просто «агентом в терминале». Он научился работать с интерфейсом — буквально кликать и печатать в любом приложении на macOS.
Разберём по пунктам, что именно добавили и почему это интересно.
Codex теперь видит экран и двигает курсором
На macOS появился режим computer use: у агента есть собственный курсор, он видит окна приложений, кликает по кнопкам, вводит текст. При этом он не перехватывает ваш компьютер — работает в фоне, пока вы заняты другими делами.
Это закрывает главную дыру любых программных агентов: раньше, если у инструмента не было API, агент просто пасовал. Теперь он заходит через тот же интерфейс, что и человек. Фронтенд можно крутить в браузере, приложение — тестировать кликами, а ручные операции в софте без API наконец-то можно делегировать.
Картинки прямо в треде, без API-ключа
В Codex подключили gpt-image-1.5. Можно генерировать и итеративно править изображения прямо в рабочем треде: дизайны интерфейсов, мокапы, ассеты для игр.
Отдельно важное: всё входит в подписку ChatGPT, API-ключ не нужен. Это снимает типичный барьер «хочу попробовать, но надо лезть в биллинг».
Automations живут в одном треде
Раньше автоматизации были отдельной сущностью со своим контекстом. Теперь они запускаются внутри того же треда — Codex подхватывает работу ровно с того места, где остановился, с сохранённым контекстом.
Он умеет ставить себе задачи на будущее и сам просыпаться, чтобы продолжить: довести до конца открытый PR, дождаться ответа, проверить статус. Это уже ближе к привычному цифровому сотруднику, чем к скрипту по расписанию.
Плюс 90+ плагинов
Добавили интеграции с инструментами для документации, project management, код-ревью, креативной работы, деплоев. Короче, Codex теперь подключается к тому, в чём вы и так работаете, и может брать оттуда контекст или совершать действия.
Что с этим делать
Если вы до сих пор смотрели на Codex как на «такой ChatGPT для кода» — самое время пересобрать картинку. Получился полноценный агент, который работает в вашем окружении: видит экран, пишет код, рисует картинки, дёргает внешние сервисы, продолжает задачи сам по себе.
Самый быстрый способ понять, чем это полезно лично вам — взять одну рутинную задачу без API и посмотреть, как Codex прокликает её за вас. Обычно именно после такой пробы становится ясно, где в вашем рабочем дне больше всего ручного труда, который давно пора отдать агенту.
Подробности и документация — на сайте OpenAI, а исходный анонс — в треде OpenAI в X.
По теме
- Статья: Два агента лучше одного: как связать OpenClaw и Hermes Agent в единую систему
- Блог: Пять правил, которые сделают вашего ИИ-агента по-настоящему полезным
- База знаний: Action-Based Workflow Engine: архитектурный паттерн
Если вы думаете, как встроить такого агента в свою работу и не превратить это в очередной «ИИ ради ИИ» — я помогаю собрать рабочий контур под конкретные задачи, от первого прототипа до регулярной практики.