Codex вышел за пределы терминала — теперь он кликает мышкой

OpenAI научил Codex работать с любым приложением на macOS через курсор, генерировать картинки прямо в треде и продолжать задачи через automations. Разбираюсь, что это меняет на практике.

ИИ-агентыИнструменты

Вчера OpenAI выкатили апдейт Codex, после которого его уже нельзя называть просто «агентом в терминале». Он научился работать с интерфейсом — буквально кликать и печатать в любом приложении на macOS.

Разберём по пунктам, что именно добавили и почему это интересно.

Codex теперь видит экран и двигает курсором

На macOS появился режим computer use: у агента есть собственный курсор, он видит окна приложений, кликает по кнопкам, вводит текст. При этом он не перехватывает ваш компьютер — работает в фоне, пока вы заняты другими делами.

Это закрывает главную дыру любых программных агентов: раньше, если у инструмента не было API, агент просто пасовал. Теперь он заходит через тот же интерфейс, что и человек. Фронтенд можно крутить в браузере, приложение — тестировать кликами, а ручные операции в софте без API наконец-то можно делегировать.

Картинки прямо в треде, без API-ключа

В Codex подключили gpt-image-1.5. Можно генерировать и итеративно править изображения прямо в рабочем треде: дизайны интерфейсов, мокапы, ассеты для игр.

Отдельно важное: всё входит в подписку ChatGPT, API-ключ не нужен. Это снимает типичный барьер «хочу попробовать, но надо лезть в биллинг».

Automations живут в одном треде

Раньше автоматизации были отдельной сущностью со своим контекстом. Теперь они запускаются внутри того же треда — Codex подхватывает работу ровно с того места, где остановился, с сохранённым контекстом.

Он умеет ставить себе задачи на будущее и сам просыпаться, чтобы продолжить: довести до конца открытый PR, дождаться ответа, проверить статус. Это уже ближе к привычному цифровому сотруднику, чем к скрипту по расписанию.

Плюс 90+ плагинов

Добавили интеграции с инструментами для документации, project management, код-ревью, креативной работы, деплоев. Короче, Codex теперь подключается к тому, в чём вы и так работаете, и может брать оттуда контекст или совершать действия.

Что с этим делать

Если вы до сих пор смотрели на Codex как на «такой ChatGPT для кода» — самое время пересобрать картинку. Получился полноценный агент, который работает в вашем окружении: видит экран, пишет код, рисует картинки, дёргает внешние сервисы, продолжает задачи сам по себе.

Самый быстрый способ понять, чем это полезно лично вам — взять одну рутинную задачу без API и посмотреть, как Codex прокликает её за вас. Обычно именно после такой пробы становится ясно, где в вашем рабочем дне больше всего ручного труда, который давно пора отдать агенту.

Подробности и документация — на сайте OpenAI, а исходный анонс — в треде OpenAI в X.

По теме

Если вы думаете, как встроить такого агента в свою работу и не превратить это в очередной «ИИ ради ИИ» — я помогаю собрать рабочий контур под конкретные задачи, от первого прототипа до регулярной практики.