Кейс / DevOps-аудит без геройства

Как аудит семи VPS на TimeWeb вернул управляемость инфраструктуре

В этой истории проблема была не в том, что серверы не работали. Они как раз работали: сайты, сервисы, агентные контуры, старые проекты и новые эксперименты продолжали жить. Проблема была тоньше: владелец инфраструктуры уже не мог быстро объяснить, что делает каждый сервер, где лежат данные, какие риски есть и что сломается, если тронуть не тот контур.

Поэтому задача была не «срочно всё почистить», а сначала вернуть картину реальности. Мы прошли путь от TimeWeb API и read-only SSH-проверок до паспортов каждого VPS, общей карты рисков, решений и аккуратных точечных изменений только там, где для них была понятная причина и отдельное согласование.

Масштаб

7 VPS

Семь виртуальных машин перестали быть туманным набором серверов и стали объектами с ролями, состояниями и вопросами.

Контекст

6 VPS с историей

Именно поэтому аудит начинался с фактов, а не с памяти людей и предположений о том, что где-то должно работать.

Принцип

Read-only -> решения

Сначала безопасная инвентаризация, потом риски и документы, и только затем точечные изменения в одобренных местах.

Исходная задача

Сначала нужно было превратить ощущение хаоса в проверенную карту

Панель хостинга показывает полезный верхний слой: VPS, диски, статусы, бэкапы, DNS и ресурсы. Но она не отвечает на главный операционный вопрос: что реально происходит внутри каждой машины и кто зависит от этого состояния.

Владение счётом не равно управлению системой

Серверы были в одном аккаунте, но часть инфраструктуры собиралась разными людьми в разные моменты. Без аудита оставались только догадки: что живое, что старое, что опасно, а что нельзя трогать.

Панели недостаточно для инженерного решения

Провайдерский интерфейс хорош для просмотра ресурсов, но он не покажет Docker Compose, systemd-сервисы, старые маршруты, локальные базы, uploads, секретные файлы или источник правды для кода.

Метод

Аудит строился в два слоя: TimeWeb API и read-only обход серверов

Главное правило было простым: сначала ничего не менять. Любое действие на сервере без карты может случайно задеть production, данные, доступы или чужую активную работу.

  1. Через TimeWeb API собрали верхний слой: VPS, диски, бэкапы, DNS, firewall-группы и провайдерские ресурсы.
  2. Через SSH прошли внутрь серверов только в read-only режиме: процессы, systemd, Docker, nginx, данные, uploads и публичные поверхности.
  3. По каждому VPS появился dossier: роль, сервисы, домены, данные, риски, решения, что изменено и что нельзя трогать.
  4. Общая карта свела семь отдельных машин в один связанный контур, где видно зависимости и следующие действия.
Фрагмент рабочей карты аудита VPS: серверы, роли, риски и решения фиксируются в едином документальном контуре

Что нашли

Самый полезный результат аудита — не список проблем, а отделение живого от неизвестного

Такие проверки редко показывают простую картину «всё плохо» или «всё хорошо». Обычно инфраструктура оказывается смешанной: часть работает осмысленно, часть держится на старой инерции, часть рискованна, а часть нельзя трогать без координации.

Живые рабочие контуры

Были найдены серверы и сервисы, которые действительно нужны: сайт, контентный хаб, агентные сервисы, внутренние инструменты и новые проекты.

Публичные поверхности и доступы

Часть сервисов и данных требовала аккуратного ограничения доступа, потому что наружу смотрело больше, чем должно смотреть в спокойной инфраструктуре.

Бэкапы и восстановление

По части контуров нужно было не верить на слово, а отдельно подтвердить, где есть бэкапы, чему можно доверять и какой следующий шаг нужен для восстановления.

Старые маршруты и сертификаты

Нашлись хвосты от прежних конфигураций: они уже не несли полезной нагрузки, но продолжали висеть в инфраструктуре и добавлять шум.

Runtime без источника правды

В некоторых местах код и сервисы жили на сервере без достаточно ясной связи с репозиторием, владельцем и нормальным процессом обновления.

No-touch зоны

Были зоны, где правильное решение — ничего не менять: там шла активная работа другого человека, и любое вмешательство требовало отдельной координации.

Где вмешались

Изменения делались не пакетом, а отдельными маленькими решениями

После read-only этапа появились места, где уже можно было действовать. Но каждое действие оставалось отдельным: понятная причина, понятный риск, понятный результат и проверка после изменения.

Бэкапы были включены или подтверждены там, где это требовалось

Вместо уверенности на уровне «кажется, должно быть» появились зафиксированные статусы и следующие действия по защите данных.

Лишняя публичность была закрыта

Там, где сервисам данных и внутренним контурам не нужно было смотреть наружу, доступы приводились к более спокойной модели.

Сломанные и устаревшие хвосты были убраны

Часть старых маршрутов, сертификатов и сервисов перестала занимать место в операционной картине, когда стало понятно, что они уже не должны жить.

Активные зоны получили защиту от случайного вмешательства

Если сервер был живой рабочей областью другого человека, это фиксировалось как осознанное ограничение: не трогать без отдельного решения.

Роль ИИ

Codex здесь был не магической кнопкой, а дисциплиной внимания

Ценность ИИ в этом кейсе была не в том, что он «сам всё сделал». Человек оставался владельцем решений и границ. Codex удерживал контекст, сравнивал факты, вёл документы и не давал перепутать чтение с изменениями.

Факты отделялись от предположений

Каждый вывод должен был опираться на API, SSH-проверку, файл, сервис, документ или явное решение. Если факт не подтверждён, он оставался вопросом, а не превращался в уверенный текст.

Документы становились частью работы, а не отчётом после неё

Dossier по серверам, общая карта, риски, stop-lines и решения обновлялись по ходу аудита, чтобы не возвращаться к вопросу «почему мы это сделали?».

Секреты и production-границы не смешивались с удобством

Токены, пароли и приватные ключи не печатались в чат, а опасные действия не запускались из любопытства. Это скучная, но критичная часть нормальной инженерной работы.

Саркис стал дополнительным каналом контекста

OpenClaw-агент внутри инфраструктуры помогал уточнять отдельные вещи, но не заменял API, SSH и документы как источники проверяемых фактов.

Результат

На выходе появилась не просто таблица серверов, а управляемая инфраструктура

После аудита стало понятно, зачем нужен каждый VPS, какие сервисы на нём живут, где данные, какие риски есть, что уже улучшено, что отложено и где нельзя действовать без отдельного решения.

Семь серверов получили понятные роли

Инфраструктура перестала быть набором машин с неясной историей. По каждому серверу появилась рабочая карточка состояния и дальнейших действий.

Риски стали предметом управления

Публичные поверхности, бэкапы, доступы, старые маршруты, ресурсные ограничения и источник правды перестали быть тревожным фоном и превратились в список решений.

Изменения стали безопаснее

Когда известно, что сервер делает и кто от него зависит, можно улучшать точечно, а не устраивать опасную генеральную уборку в production-среде.

Появился переносимый формат услуги

Тот же порядок можно применять к клиентским VPS и старым инфраструктурам: инвентаризация, карта сервисов, риски, решения, точечное усиление и документы.

Кому это подходит

Такой аудит нужен там, где инфраструктура выросла быстрее документации

Это не только история про TimeWeb. Та же проблема появляется у компаний, где есть несколько VPS, старые проекты, подрядчики, боты, базы, внутренние инструменты и много устной памяти вместо проверяемой карты.

Владельцам нескольких VPS

Когда серверы оплачиваются и работают, но никто не может быстро объяснить, что делает каждый и что сломается при остановке.

Командам после подрядчиков

Когда инфраструктуру собирали разные люди, а текущей команде достался рабочий, но плохо описанный контур.

Проектам перед чисткой или миграцией

Когда хочется навести порядок, но безопасный первый шаг — не удалять, а собрать карту живого, старого, рискованного и неприкосновенного.

Источник

Исходная статья с полным разбором

Полная история аудита семи VPS на TimeWeb, роли Codex, read-only дисциплины, Саркиса и возвращения управляемости описана в исходной статье.