Безопасность «черного ящика». ИИ на производстве: риски, угрозы, последствия

2026-05-15 20:16

Искусственный интеллект стремительно вошёл в промышленность и к 2026 году активно используется для оптимизации процессов, снижения себестоимости и повышения качества продукции. Чем шире внедрение, тем выше цена ошибок. Уже сейчас компании сталкиваются с утечками данных через LLM, манипуляциями поведением моделей, сбоями AI-агентов и публичными инцидентами, которые быстро расходятся в сети и бьют по бизнесу.

В этой статье рассмотрим сценарии применения ИИ промышленности, ключевые риски для бизнеса, поверхность атак на всех этапах жизненного цикла моделей, требования регуляторов и архитектуру безопасного промышленного ИИ.

ИИ в производстве сегодня

ИИ перестал быть точечным инструментом и стал частью критичных бизнес-процессов. Он встроен в производство, логистику, поддержку клиентов и принятие решений. Это меняет характер рисков: теперь важна не только инфраструктура, но и поведение модели, данные и интеграции.

HTML-верстка таблиц

Технология	Применение	Основные риски
Чат-боты	Клиентская поддержка, виртуальные ассистенты	Утечка данных, манипуляция ответами
Машинное зрение	Контроль качества, предиктивная диагностика, безопасность и логистика	Галлюцинация моделей, ухудшение качества съёмки/оптики, утечка или искажение данных, сбои интеграции с ИТ-системами и процессами
RAG-системы	Корпоративные базы знаний (техдокументация, регламенты, история оборудования), поиск по документам	Отравление базы данных, извлечение данных
AI-агенты	Автоматизация процессов, мультиагентные системы	Захват управления, несанкционированные действия

AI-агенты стали частью информационных систем:

1. ИИ переезжает в прод: он встроен в производственные контуры и «делает работу», а не просто консультирует.

2. ИИ влияет на данные, процессы и управленческие решения (иногда — автоматически через интеграции).

3. Риск смещается: важна не только безопасность инфраструктуры, но и поведение модели + контур её окружения.

4. Мультимодальность + интеграции → больше входов, больше доверенных действий, выше цена ошибки.

Ошибка/злоупотребление ИИ может стать инцидентом, когда вывод модели без достаточной верификации влияет на решения и действия ИС.

Кейсы инцидентов

Реальные инциденты с ИИ-системами уже затронули крупные компании:

1. Watsonville Chevrolet (2023)

Пользователь через prompt injection заставил чат-бота «согласиться» продать автомобиль за $1. Бот воспринял инструкцию как системную и подтвердил сделку.

Итог: репутационный ущерб и отключение AI-бота.

Тип атаки: direct prompt injection.

2. DPD UK (2024)

Через серию вопросов пользователь «разогрел» чат-бота до агрессивных и негативных высказываний о компании.

Итог: PR-кризис и отключение функции.

Тип атаки: multi-turn jailbreak.

3. Tesla Autopilot (2020–2024)

Наклейки на дорожных знаках приводили к ошибочной интерпретации скорости или игнорированию STOP.

Итог: потенциально опасные физические сценарии.

Тип атаки: adversarial examples в CV.

4. Microsoft 365 Copilot (2024)

Исследователи показали утечки данных между тенантами из-за логики retrieval без строгой проверки ACL.

Итог: cross-tenant data leakage.

Тип атаки: RAG retrieval bypass.

Поверхность атаки

Современный ИИ нельзя рассматривать как «чёрный ящик в вакууме». Это цепочка компонентов, каждый из которых может быть атакован.

Жизненный цикл ИИ как поверхность атак

Атаки возможны на каждом этапе жизненного цикла ИИ-системы:

Атаки на данные: поверхность по модальностям

Схема атак по модальностям:

Посмотрим на схему выше. Есть три канала атаки по числу модальностей: LLM через отравленные данные fine-tuning, компьютерное зрение через backdoor-патчи и RAG через отравленные документы в базе знаний. Все они сходятся к одному результату — неверное решение ИИ-модели. Данные проходят классификацию и маршрутизацию в производственном контуре. Атака на любой канал приводит к тому, что часть системы теряет свою работоспособность. При этом инфраструктура полностью чистая, никакого взлома.

ML Supply Chain: Attack Surfaces

В классическом DevSecOps мы проверяем код. В ML нужно проверять артефакты, потому что модель — это фактически исполняемый код.

Цепочка поставки ML-моделей становится самостоятельной зоной риска:

Важно: модель может быть скомпрометирована до того, как вы её загрузили.

Runtime: поверхность атак

Атаки проходят через API Gateway с rate limiting, затем через LLM с safeguards, и выходят на интеграции. Даже без компрометации инфраструктуры система может демонстрировать управляемое поведение под воздействием входных данных.

На схеме типичная архитектура Runtime:

Базовые атаки на модели ИИ

Большинство угроз для современных AI-систем не связаны с прямым «взломом» инфраструктуры. Вместо этого злоумышленники воздействуют на входные данные, контекст или окружение модели, заставляя её вести себя нежелательным образом. Именно поэтому атаки на ИИ часто выглядят как обычное взаимодействие с системой, но приводят к утечкам данных, нарушению политик или выполнению нежелательных действий.

Prompt Injection

Это внедрение инструкций в prompt/context, заставляющее модель игнорировать правила.

Инъекция может быть прямая, когда инструкция приходит прямо от атакующего, или непрямая, когда инструкция спрятана во внешнем контенте.

Последствия:

Утечка данных клиентов;

Выдача клиенту недопустимого контента (агит-контент, политизированные галлюцинации).

Jailbreak

Это набор приемов, при которых атакующий через обычный текстовый ввод вынуждает модель игнорировать встроенные правила безопасности (guardrails). В OWASP jailbreak рассматривается как разновидность Prompt Injection (LLM01).

Последствия:

Обход системных инструкций и бизнес-ограничений;

Выполнение вредоносных действий через API;

Внедрение protestware или участие в цепочке атаки на систему.

Риски для бизнеса

Использование LLM и AI-систем в продакшене формирует не только технологические, но и прямые бизнес-риски. Ошибка модели или её целенаправленная компрометация может быстро перейти из технической проблемы в финансовые, юридические и репутационные потери.

Основные риски:

·Утечка данных через LLM. Наиболее критичный сценарий. Может привести к штрафам по GDPR или 152-ФЗ вплоть до 4% годового оборота компании.

·Репутационный ущерб. Публичные инциденты с ИИ быстро становятся вирусными: скриншоты уходят в соцсети и СМИ, формируя негативный информационный фон. Восстановление доверия в таких случаях часто занимает месяцы.

·Регуляторные штрафы. По мере усиления регулирования компании всё чаще сталкиваются с проверками и требованиями доказать безопасность своих AI-систем.

·Операционный сбой. Компрометация ИИ-агента может привести к некорректным действиям в бизнес-процессах — от ошибочных решений до остановки критичных операций.

·Кража интеллектуальной собственности. Через модели можно извлечь system prompt, бизнес-логику или данные дообучения, что фактически эквивалентно утечке ключевых конкурентных преимуществ.

Требования регуляторов в области безопасности ИИ

В России сейчас активно формируется набор стандартов, методик и отраслевых требований, которые определяют, как должны проектироваться, внедряться и эксплуатироваться AI-системы с точки зрения риска, качества и доверия.

ГОСТ

Применение на добровольной основе или обязательно, если упоминается в нормативном документе:

ГОСТ Р 59898–2021 «Оценка качества систем искусственного интеллекта» (26.11.21) — понятие качества СИИ, классификация характеристик и показателей, включая параметры управления рисками.
ГОСТ «Искусственный интеллект в критической информационной инфраструктуре. Общие положения».
ГОСТ Р 59276–202 «Системы ИИ. Способы обеспечения доверия».

Указы Президента

Рекомендательное применение:

Указ №490 «О развитии искусственного интеллекта в РФ» (10.10.19), п. 5 пп. «ц», п. 51, п. 53 — терминология в области ИИ и его безопасности.

ФСТЭК России

Применение на добровольной основе или обязательно, если упоминается в нормативном документе:

Приказ ФСТЭК №117 «Требования о защите информации, содержащейся в ГИС» (11.04.25) — безопасное использование систем ИИ.
Методика ФСТЭК «Анализ защищённости информационных систем» (25.11.25).
БДУ «Угрозы безопасности информации систем ИИ».

Отраслевые нормы

Обязательное или рекомендательное применение:

Кодекс этики в сфере ИИ (Альянс в сфере ИИ) (05.23).
Кодекс этики ЦБ РФ в сфере разработки и применения искусственного интеллекта на финансовом рынке (06.25).
Росстандарты в области ИИ для клинической медицины, здравоохранения, образования, транспорта и др.

Архитектура безопасного промышленного ИИ

В основе безопасного промышленного ИИ лежит сочетание проверенных методологий и практических стандартов, которые помогают превратить разрозненные меры защиты в единую систему. Рассмотрим ключевые фреймворки, подходы к управлению и уровни контроля, которые формируют такую архитектуру на практике.

Внедрение фреймворков AI Security

При проектировании защищённых AI-систем важно опираться не только на внутренние практики компании, но и на внешние фреймворки безопасности. Они задают структурированный подход к управлению рисками, помогают классифицировать угрозы и выстраивать единые требования к моделям, данным и инфраструктуре.

HTML-верстка таблиц

Международные	Российские инициативы
Фреймворк / Фокус	Документ / Организация
NIST AI RMF — Lifecycle risk management	SAIMM — Модель зрелости AI Security (Swordfish Security)
ISO/IEC 42001 — AI Management System (сертифицируемый)	AI-SAFE v1.0 — Yandex (агентные системы)
MITRE ATLAS — Adversarial Threat Landscape (66 техник)	Модель угроз ИИ — Сбер (Кибрарий)
OWASP LLM Top 10 — Уязвимости LLM-приложений	Guidelines AI — Kaspersky

Важно: Фреймворк ≠ нормативный акт. Потребуется адаптация под организацию и увязка с будущими требованиями ФСТЭК.

Распределение ответственности

Эффективная безопасность AI-систем невозможна без чёткого определения зон ответственности и правил управления:

·Владельцы активов — данные, модель/версии, контекст, интеграции/действия.

Правила изменений — кто и как обновляет модель, артефакты, контекст, политики.
Политики взаимодействия — правила запрос/ответ, допустимые задачи, объяснимость.
Контуры знаний — наполнение, обновление, пересечения доменов/прав.
Распределение ответственности — кто отвечает за качество/безопасность ответов и последствия.
Допуски и доступы — классы пользователей/ролей, квоты/лимиты.
Критерии инцидента — что считаем инцидентом ИИ, кто принимает решение о реакции.

Контроли по жизненному циклу

Разработка и эксплуатация ИИ-систем сопряжена с рисками на каждом этапе её жизненного цикла. Чтобы минимизировать угрозы, необходимо внедрить систему контролей, «закрывающую» ключевые точки уязвимости.

Обучение / донастройка:

контроль артефактов (модели, чекпоинты, конфигурации) с помощью систем управления версиями (DVC, GitLFS);
тестирование поведения модели перед выпуском: аудит на adversarial attacks, утечки данных, проверку edge cases.

Деплой / поставка:

управление версиями моделей и зависимостей (контейнеризация — Docker, системы управления образами — Harbor, Quay);
контроль целостности артефактов (подписи моделей с SSL/TLS, проверка хэшей);
Supply Chain Security: отказ от pickle deserialization, использование safetensors, сканирование зависимостей (Snyk, Dependabot).

Эксплуатация:

ограничение области решений (whitelist подходов, запрет опасных операций);
критерии «недостоверности» ответов: метрики качества (confidence score), мониторинг аномалий (Prometheus/Grafana), защита от poisoning attacks;
правила реакции на инциденты: логирование подозрительных запросов, автоматическое отключение модели, процедуры расследования и восстановления.

AI Gateway: контроль на границе

AI Gateway (ИИ-шлюз) — это слой безопасности между пользователем и LLM/AI-агентом. Он контролирует входящие запросы и ответы модели, обеспечивая соответствие политикам безопасности и использования.

На входе Gateway выявляет PII, jailbreak-попытки, токсичный контент и нарушения ACL/квот. После обработки запроса моделью система дополнительно проверяет ответ на утечки данных, небезопасный контент и hallucination.

Помимо фильтрации, ИИ-шлюз отвечает за применение политик доступа и аудит событий. Реализовать его можно через open-source решения (LLM Guard, NeMo Guardrails, guardrails-ai) или коммерческие платформы вроде Lakera Guard и Protect AI.

Важно учитывать, что AI Gateway не является «серебряной пулей». Исследования 2025 года показали, что guardrails могут обходиться в whitebox-сценариях вплоть до 100% успешности атак. Поэтому Gateway следует рассматривать как один из слоёв стратегии defense-in-depth, а не как самостоятельный механизм полной защиты.

Тестирование безопасности ИИ

AI Security Testing — это практика анализа LLM и AI-агентов на устойчивость к атакам, утечкам данных и небезопасному поведению. Тестирование помогает выявлять регрессии после обновлений моделей, проверять систему на prompt injection, data poisoning и другие классы рисков, а также встраивать security-проверки в CI/CD и процессы red teaming.

Для анализа защищенности ИИ используются инструменты вроде PyRIT (Microsoft), garak (NVIDIA), promptfoo, Giskard и AppSec.GenAI. Они позволяют масштабировать adversarial testing и запускать тысячи атакующих сценариев автоматически.

Исследования 2025 года показывают, что автоматизированное тестирование достигает 69.5% эффективности против 47.6% у ручного подхода. При этом prompt injection покрывается сравнительно хорошо, тогда как model inversion и system exploitation всё ещё остаются слабо тестируемыми направлениями. Поэтому даже при высокой автоматизации человеческий expertise остаётся критически важным для поиска сложных и нестандартных атак.

MLSecOps: масштабирование защиты

MLSecOps — это интеграция практик безопасности в ML/AI pipeline по аналогии с DevSecOps. Цель подхода — встроить контроль рисков непосредственно в жизненный цикл моделей: от данных и обучения до деплоя и эксплуатации.

Ключевые практики MLSecOps:

HTML-верстка таблиц

Практика	Что даёт
Версионирование артефактов	Полная прослеживаемость изменений данных и моделей, возможность быстрого отката к безопасной версии
Контроль supply chain	Защита от компрометации моделей и зависимостей (например, pickle RCE), проверка форматов и подписей артефактов
Security gates в CI/CD	Автоматическая проверка безопасности перед деплоем и блокировка потенциально опасных изменений
Drift и behavior monitoring	Раннее выявление деградации модели, атак и аномалий в поведении после деплоя

Выводы

Регуляторная среда в области AI постепенно ужесточается. В фокусе появляются требования вроде ФСТЭК №117 и внимание к объектам ЗОКИИ, что делает вопросы AI security не только техническими, но и комплаенс-задачей.

Поверхность атак охватывает весь жизненный цикл систем: от данных и моделей до RAG и агентных сценариев. Но эти риски управляемы. Комбинация подходов управления, контрольных точек безопасности и регулярного тестирования позволяет существенно снизить вероятность инцидентов и контролировать поведение системы в продакшене.

Практически это сводится к нескольким шагам: провести инвентаризацию моделей, данных и источников контекста, назначить владельцев за каждый ключевой артефакт, оценить текущую зрелость процессов и зафиксировать пробелы. Далее выделить наиболее критичные риски и сфокусироваться на внедрении защитных мер в первую очередь там, где потенциальный ущерб максимален.