MLOps-инженер строит pipeline'ы тренировки и деплоя моделей: MLflow, DVC, Kubeflow, мониторинг drift, GPU-кластеры, feature stores. Зарплата в Москве в 2026 году — от 280 до 600 тысяч рублей.
MLOps-инженер — это DevOps для машинного обучения. Он строит инфраструктуру, на которой ML-команды тренируют модели, выкатывают их в продакшн и следят, чтобы качество не деградировало со временем. От обычного DevOps-инженера отличается глубиной понимания ML-жизненного цикла, работой с GPU-кластерами и специфическими инструментами вроде MLflow и DVC. Зарплатная вилка в Москве в 2026 году — от 280 до 600 тысяч рублей.
Чем занимается MLOps-инженер
MLOps-инженер живёт между data scientists и обычной продуктовой инженерией. Data scientists хотят быстро итерироваться по экспериментам и не думать об инфраструктуре, продакшн требует воспроизводимости, мониторинга и предсказуемой стоимости. Задача MLOps — построить контур, в котором обе стороны довольны.
Типичный рабочий день начинается с проверки прошедших ночью пайплайнов тренировки. Один из джобов упал на стадии валидации — смотрите логи, обнаруживаете, что версия фичи в feature store изменилась и сломала схему. Чините трансформер, перезапускаете джоб. Параллельно идёт работа над выкаткой новой версии модели: смотрите метрики на canary-трафике, сравниваете распределения предсказаний с базовой моделью.
Вторая половина дня — инфраструктурные задачи: оптимизация GPU-кластера (kubeflow scheduler не оптимально размещает джобы, treemap по утилизации показывает простои), миграция feature store на новый бэкенд, настройка мониторинга drift'а для пятнадцати моделей в проде. Раз в неделю — встреча с ML-командой по архитектуре нового пайплайна: обсуждаете, как версионировать данные, где хранить артефакты, какой формат служения модели выбрать (REST, gRPC, batch).
Отдельный пласт работы — деплой и обслуживание LLM. Это отдельный мир по сравнению с классическими ML-моделями: нужно думать про vLLM или TGI как inference engine, про KV-cache и батчинг, про tensor parallelism на нескольких GPU. MLOps в командах, которые поднимают свои языковые модели, — это уже почти отдельная роль. Параллельно появляется работа с retrieval-augmented generation: векторные базы данных (pgvector, Qdrant, Milvus), обновление эмбеддингов, evaluation качества RAG-пайплайна на разметке.
Большая часть рутины — обеспечение воспроизводимости. Когда через полгода data scientist приходит и говорит «модель версии 1.4 в проде ведёт себя странно, давайте сравним с тренировочным запуском», MLOps должен иметь возможность поднять тот же датасет, тот же код, те же гиперпараметры и получить байт-в-байт сходимость. Это требует дисциплины: версионирование данных, locked-зависимости, артефакты, привязанные к коммитам, контейнеры с фиксированными версиями CUDA.
Отдельная задача — мониторинг моделей в проде. Модель, которая на тренировочном датасете показывала отличные метрики, через два месяца после релиза может деградировать из-за смены распределения входных данных (data drift), смены поведения пользователей (concept drift) или изменений в зависимых сервисах. MLOps настраивает алерты на эти три вида сдвига и выстраивает процесс реагирования.
Hard skills и инструменты
Стек MLOps в 2026 году собирается из обычных DevOps-инструментов плюс ML-специфичные слои.
ML-фреймворки на уровне эксплуатации — PyTorch и его экосистема (PyTorch Lightning, TorchServe), TensorFlow/Keras, JAX, Hugging Face Transformers. Не нужно уметь обучать модель с нуля, но нужно понимать, как она ест память, что такое batch size и mixed precision.
Управление экспериментами и моделями — MLflow, Weights and Biases, Neptune, ClearML. Регистр моделей, отслеживание гиперпараметров, артефакты, model lineage.
Версионирование данных — DVC, lakeFS, Pachyderm. Умение организовать воспроизводимый пайплайн, в котором можно вернуться к данным двухмесячной давности и переобучить модель один в один.
Pipeline-оркестрация — Kubeflow Pipelines, Airflow, Prefect, Dagster, Argo Workflows. Дизайн DAG'ов с retry-стратегиями, обработкой ошибок, динамическим параметризованием.
Feature stores — Feast, Tecton, Hopsworks. Понимание различия online и offline хранилищ, контроль за консистентностью feature serving между обучением и инференсом.
Inference и serving — TorchServe, Triton Inference Server, KServe, BentoML, vLLM и TGI для LLM. Тюнинг батчинга, квантизация, A/B и shadow deployment.
GPU-инфраструктура — NVIDIA driver и CUDA на уровне эксплуатации, GPU operator в Kubernetes, MIG-партиционирование, инструменты мониторинга (DCGM, NVTOP), spot/preemptible GPU и graceful обработка прерываний.
Мониторинг ML — drift detection (data drift, concept drift, prediction drift), Evidently, WhyLabs, Arize. Интеграция ML-метрик с обычным observability-стеком (Prometheus, Grafana).
Карьерный путь: junior → middle → senior
Junior MLOps-инженер в Москве в 2026 году получает 200–280 тысяч рублей. На этом грейде ожидается уверенный Python, базовые знания Kubernetes и CI/CD, понимание ML-цикла без претензии на самостоятельное обучение моделей. Junior работает с готовыми пайплайнами: помогает командам выкатить модель по чек-листу, чинит баги в шаблонных Kubeflow-компонентах, поднимает GPU-узлы по тикету. За первый год нарабатывается опыт чтения кода data scientists, понимание типичных проблем (утечка памяти на GPU, расхождение фичей между обучением и инференсом, несовместимость версий CUDA) и базовая дисциплина воспроизводимости.
Middle MLOps-инженер зарабатывает 320–450 тысяч. К этому моменту вы проектируете пайплайн обучения с нуля, разбираетесь в feature store на уровне внедрения, ведёте миграции inference-сервисов с одного бэкенда на другой. Middle часто становится точкой контакта между ML-командой и платформой: переводит требования data scientists в инфраструктурные задачи и обратно. На этом уровне начинается специализация: классические табличные модели, computer vision, NLP и LLM, рекомендательные системы — каждая область со своей спецификой инфраструктуры.
Senior MLOps-инженер в Москве получает 480–600 тысяч и выше. В компаниях, где ML — основной продукт (банки, рекламные платформы, маркетплейсы, поисковые сервисы), senior с сильным резюме закрывает 700+ тысяч. Senior отвечает за платформу целиком: дизайн feature store, выбор inference-стека, GPU-стратегия, организация on-call для production-моделей. От него ждут участия в архитектурных дискуссиях ML-команд и в стратегических решениях по железу. Senior часто проектирует сквозной процесс ML-релизов: как модель попадает в стейджинг, какие проверки она проходит, как принимается решение о выкатке в прод, как ведётся мониторинг и rollback.
После senior карьера разветвляется. ML Platform Lead / Principal MLOps — техническая ветка с горизонтом ответственности на всю ML-инфраструктуру компании. ML Infrastructure Manager / Head of MLOps — управленческая, где основная работа — найм специфической команды, бюджет на GPU и стратегические партнёрства с вендорами железа. Часть сильных MLOps-инженеров переходит в ML-инженерные роли с прокачкой ресёрч-составляющей или в продакт-менеджмент ML-направлений.
Сколько зарабатывает MLOps-инженер в 2026 году
Москва — лидер рынка. Junior 200–280 тысяч, middle 320–450 тысяч, senior 480–600 тысяч, в крупных компаниях с собственной ML-платформой и LLM-направлением встречаются предложения 700–900 тысяч. Бонусы и долгосрочные программы вознаграждения распространены сильнее, чем в обычном DevOps, — рынок специалистов уже, спрос растёт.
Санкт-Петербург отстаёт на 10–15%: junior 180–250 тысяч, middle 290–410 тысяч, senior 420–550 тысяч. Региональные центры — Казань, Новосибирск, Екатеринбург, Иннополис — предлагают 150–230 тысяч на старте и 380–500 тысяч на senior. ML-команды концентрируются вокруг крупных компаний, поэтому география вакансий уже, чем у обычного DevOps.
Удалёнка работает: GPU-кластеры всё равно живут в дата-центре, физическое присутствие не нужно. Многие компании платят по московской сетке независимо от локации, если кандидат сильный. Работа на международных работодателей даёт прирост 40–80% к рублёвому эквиваленту, особенно в сегменте генеративного ИИ — там зарплаты на западных рынках кратно выше. Внутри России сильный прирост к ставке даёт опыт работы с собственными большими моделями: компании, которые поднимают свои LLM, готовы платить премию за инженеров с реальным опытом многоузлового обучения и эксплуатации vLLM/TGI под нагрузкой.
На рост зарплаты сильнее всего влияет опыт работы с реальными production-моделями под нагрузкой, знание GPU-инфраструктуры на низком уровне (CUDA-окружение, NCCL, межузловое взаимодействие при распределённом обучении) и опыт деплоя LLM в продакшн. Кандидат с реальным проектом на vLLM или TGI с тысячами RPS котируется кратно выше теоретика. Дополнительный плюс — навыки FinOps на GPU: GPU-кластер легко обходится в десятки миллионов рублей в месяц, и инженер, который умеет на 30% сократить расходы без потери производительности, окупает свою зарплату многократно.
Где учиться
Базовое образование — высшее техническое с математическим уклоном: прикладная математика и информатика, программная инженерия, информатика и вычислительная техника, фундаментальная информатика. ФГОС-направления — 09.03.01, 09.03.02, 09.03.03, 09.03.04, 01.03.02, 02.03.02. Магистратура по ML или анализу данных — плюс на старте, но не обязательное условие.
Переход в MLOps идёт двумя путями. Первый — из DevOps: дочитать про специфику ML-цикла, разобрать MLflow и Kubeflow на pet-проекте, поучиться разворачивать готовые модели через Triton или KServe. Второй — из data science: обычно сложнее, потому что не хватает инфраструктурной базы, нужно подтягивать Linux, Kubernetes, networking. Полезные ресурсы — open-source книги «Designing Machine Learning Systems», «Machine Learning Engineering», документация MLflow и Kubeflow, материалы по vLLM и TGI, открытые курсы по системному дизайну ML.
Сильный практический ход — pet-проект с законченной инфраструктурной частью: возьмите открытый датасет, обучите модель в воспроизводимом пайплайне с DVC и MLflow, разверните inference-сервис в Kubernetes-кластере, добавьте мониторинг drift'а и автоматический rollback. Этот артефакт на собеседовании работает сильнее любого сертификата, особенно если показать историю изменений в репозитории и явные дизайн-решения с обоснованием.
Сертификации в ML слабее работают, чем в обычном cloud-сегменте, но базовые помогают. AWS Certified Machine Learning Specialty, Google Professional Machine Learning Engineer, сертификации NVIDIA по работе с GPU, плюс стандартные DevOps-сертификации (CKA, Terraform Associate). На собеседованиях больше веса имеет реальный pet-проект с выложенными артефактами и развёрнутой моделью, чем строчка в резюме.
Похожие специализации
ML-инженер — отвечает за разработку моделей и их продакшн-качество, пересекается с MLOps на стыке деплоя и мониторинга. Data Engineer — строит пайплайны данных, на которых тренируются модели, частый партнёр MLOps в команде. LLM Engineer — узкая специализация, фокус на больших языковых моделях, prompt engineering и retrieval-augmented generation. Platform Engineer — собирает общую внутреннюю платформу, MLOps часто оказывается её специализированной частью для ML-команд. AI Infrastructure Engineer — близкое название к MLOps, в крупных компаниях с собственными моделями употребляется как синоним.