AI Security

Безопасность искусственного интеллекта

Поможем защитить AI: будьте уверены в безопасности инновационных решений
ИИ-модели всё активнее внедряются в бизнес-процессы, но вместе с этим увеличиваются риски безопасности
Мы помогаем компаниям выстроить комплексный подход к безопасности ИИ с учетом актуальных угроз, требований регуляторов и специфики архитектуры.
43%
российских компаний используют искусственный интеллект в своей работе
Индекс готовности к внедрению ИИ, 2024, НЦРИИ при Правительстве РФ
25%
оганизаций в финтехе несколько раз испытали на себе атаки на ИИ
Исследование АФТ и Swordfish Security, 2025 г.
36%
организаций утвердили политику обеспечения информационной безопасности в области ИИ
Индекс готовности к внедрению ИИ, 2024, НЦРИИ при Правительстве РФ

Какие ИИ-риски мы помогаем контролировать

Допустимость
Отказоустойчивость
и надежность
Прозрачность
Объяснимость
Комплаенс

AI Security: комплексная защита вашего искусственного интеллекта

Управление и риск-менеджмент
AI Governance
Исследование защищенности AI-систем - где и как функционирует ИИ в организации, прозрачность для принятия решений
Защита данных в ИИ и конфиденциальность
AI Data and Privacy Security
Аудит данных ИИ-систем, оценка выхода/выхода данных ИИ
Безопасность модели
Model Security
Выполняет ли модель именно то, для чего она была разработана, как часто модель дает правильные результаты?
Безопасность агентных систем
Agents Security
Контроль агентных систем и мониторинг
Комплаенс
Compliance
Соответствуют ли ваши решения регуляторным требованиям в РФ
Чек-лист для оценки безопасности навыков AI-агентов

Чек-лист для оценки безопасности навыков AI-агентов в соответствии с OWASP Agentic Skills Top 10.

Для каждого проверяемого навыка пройдитесь по соответствующим разделам ниже. Ответ «Нет» указывает на пробел, который необходимо устранить перед внедрением. Пункты с пометкой степени критичности отражают уровень риска соответствующей категории AST.
AST01
Вредоносные
навыки
Критический уровень
Получен ли навык из проверенного и надежного источника?
Идентичность издателя подтверждена; отсутствует имитация (typosquatting) известного названия навыка
Прошел ли навык поведенческий анализ безопасности (не только сигнатурный)?
Отчет сканирования от инструмента, оценивающего намерения, а не только сигнатуры кода
Выполнена ли проверка криптографической подписи?
Действительная подпись ed25519; content_hash совпадает с опубликованным манифестом
Проверены ли все скрипты навыка и инструкции на естественном языке на наличие вредоносных паттернов?
Нет закодированных полезных нагрузок (payloads), нет обращений curl к неизвестным конечным точкам (endpoints), нет доступа к учетным данным, выходящего за рамки заявленной функции в коде или инструкций на естественном языке.
Протестирован ли навык в изолированной canary-среде перед продакшеном?
Динамический отчет показывает соответствие фактического поведения заявленному
Предотвращает ли данный навык запись в файлы идентификации агентов (SOUL.md, MEMORY.md, AGENTS.md)?
Запрещен доступ на запись в файлы с идентификационными данными, если это явно не обосновано и не одобрено (см. также 3.6 — аспект привилегий)
AST02
Компрометация
цепочки поставок
Критический уровень
Подтверждена ли личность издателя навыка через ключ кодовой подписи?
Связана с проверенной идентичностью (например, did:web:, верифицированная GitHub-организация)
Привязан ли навык к конкретному неизменяемому хэшу содержимого (sha256:)?
Нет диапазонов версий; хэш совпадает с записью в реестре
Закреплены ли все вложенные зависимости по неизменяемым хэшам?
Зависимости в requirements.txt и package.json заблокированы — без диапазонов версий ^ или ~
Сформирован ли Software Bill of Materials (SBOM) для навыка и его зависимостей?
SBOM доступен в стандартном формате (CycloneDX, SPDX)
Рассматриваются ли конфигурационные файлы репозитория (хуки, .claude/settings.json, переменные окружения) как исполняемый код с механизмами доверия?
Конфигурационные файлы проверяются и одобряются; не выполняются автоматически при клоне или открытии
Выполнено ли сканирование рекурсивного дерева зависимостей (не только верхнеуровневых файлов навыка)?
Предоставлен отчет глубокого анализа, включая транзитивные зависимости
Критические уязвимости
Риски AST01, AST02
0 из 12 возможных. Для устранения рекомендована минимальная проверка: динамическое тестирование + ручная проверка.
AST03
Избыточные
привилегии
Высокий уровень
Есть ли у навыка манифест разрешений с явно указанными, ограниченными по области действия разрешениями?
Документация присутствует; разрешения перечислены (не являются бессрочными)
Ограничены ли права доступа в соответствии с заявленной функциональностью навыка?
Запрещен доступ за пределы возможностей, необходимых для выполнения описанной функции
Избегает ли этот навык неограниченного доступа к оболочке (shell: true)?
shell: false или доступ к оболочке ограничен конкретными командами
Ограничены ли разрешения на файлы конкретными путями (без wildcard **/*)
Указаны явные пути к файлам; отсутствуют широкие шаблоны (globs)
Использует ли навык отдельные учетные данные (scoped credentials) для каждого навыка (а не общие API-ключи уровня агента)?
Учетные данные изолированы в рамках данного навыка; регулярно ротируются
Помечен ли доступ на запись к файлам идентичности агента (SOUL.md, MEMORY.md) как требующий повышенной проверки?
Доступ на запись к файлам идентичности требует обоснования и одобрения
Заданы ли сетевые разрешения в виде allowlist доменов (а не бинарного network: true/false)
Указаны конкретные домены; по умолчанию запрещен весь прочий исходящий трафик
Избегает ли навык доступа к хранилищам учетных данных, файлам .env, кошелькам или SSH-ключам вне заявленной функции?
Нет чтения из ~/.ssh/, ~/.aws/, .env, **/credentials*, *.wallet или директорий данных браузера, если это явно не требуется и не обосновано
AST04
Небезопасные
метаданные
Высокий уровень
Соответствует ли описание навыка его фактической функциональности?
Отсутствуют скрытые возможности; описание совпадает с наблюдаемым поведением
Проверены ли метаданные на ASCII-smuggling, нулевой ширины Unicode и base64-кодированные полезные нагрузки?
Проверка чистая; в инструкциях SKILL.md и манифесте нет стеганографического содержимого
Безопасны ли настройки метаданных по умолчанию (не являются ли они чрезмерно разрешительными)?
Нет разрешений «по умолчанию открыто»; опасные возможности (shell, сеть, запись в файлы идентичности) требуют явного включения в манифесте
Проверены ли метаданные на соответствие схеме безопасности?
Пройдена валидация схемы; нет неожиданных или необъявленных полей
Соответствует ли заявленный уровень риска (risk_tier) фактическому объему разрешений?
Перекрёстная проверка: навык с уровнем L0 (безопасный) и shell: true — тревожный сигнал
Проверена ли имитация брендов/товарных знаков?
Название навыка не маскируется под известный бренд без аффилиации
AST05
Небезопасная
десериализация
Высокий уровень
Используются ли безопасные загрузчики YAML (yaml.safe_load, а не yaml.load)?
В файлах навыка отсутствуют небезопасные YAML-теги (!!python/object, !!python/apply)
Обрабатываются ли конфигурационные файлы навыка в изолированном подпроцессе или контейнере перед выполнением?
Десериализация происходит в изолированной среде без доступа к ресурсам хоста
Применяется ли allowlist (белый список) допустимых ключей YAML/JSON?
Неожиданные или необъявленные поля отклоняются
Рассматриваются ли файлы requirements.txt, package.json и pyproject.toml внутри пакетов навыков как недоверенный код?
Установка зависимостей выполняется в песочнице; не запускается с привилегиями агента
Применяется ли валидация схемы (JSON Schema, Pydantic или аналог) до десериализации данных, предоставленных навыком?
Шаг валидации подтверждён в пайплайне загрузки навыка
Выполняется ли десериализация с минимальными привилегиями (не в привилегированном контексте агента)?
Подтверждено снижение привилегий перед парсингом
AST06
Слабая изоляция
Высокий уровень
Будет ли навык выполняться в изолированном контейнере или песочнице (не в host-mode)?
Изоляция через Docker/контейнер подтверждена; режим host-mode требует явного включения
Ограничен ли доступ к файловой системе только объявленными путями?
Доступ вне заявленного диапазона отсутствует; проверено в динамическом тестировании
Контролируется ли сетевой доступ — интерфейсы привязаны к локальному компьютеру (localhost) с аутентификацией, а не к 0.0.0.0?
Интерфейсы управления агентом требуют аутентификации; не доступны из сети
Применяются ли профили seccomp/AppArmor для ограничения системных вызовов?
Профиль подключен к контексту выполнения навыка
Изолирован ли навык от других навыков и агентов (раздельное пространство имен)?
Подтверждена изоляция на уровне процессов; отсутствует общий доступ к памяти или файловой системе между навыками
Ограничены ли WebSocket-соединения по скорости и защищены ли они аутентификацией (включая localhost)?
На всех каналах управления подтверждены аутентификация и ограничение частоты запросов (rate limiting)
Ограничен ли hot-reload (мгновенное обновление) навыков / приоритет рабочей области в продакшене?
Переопределение навыков из рабочей области требует явного подтверждения пользователя
Уязвимости высокого уровня критичности
Риски AST03, AST04, AST05, AST06
0 из 27 возможных. Для устранения рекомендована минимальная проверка: автоматическое сканирование
AST07
Дрейф
обновлений
Средний уровень
Закреплен ли навык за конкретным неизменяемым хэшем содержимого (sha256:)?
Хэш записан в инвентаре; не используется изменяемый version tag
Отключено ли автообновление или оно требует повторного одобрения в продакшене?
Обновления требуют явного одобрения человека перед развертыванием
Подписываются ли обновления криптографически оригинальным издателем?
Проверка подписи выполняется при каждом обновлении; неподписанные обновления отклоняются
Вызывают ли обновления автоматическое повторное сканирование безопасности?
Пайплайн сканирования запускается при каждом изменении версии
Отключен ли hot-reload вне среды разработки?
SkillsWatcher или аналог отключен в продакшене; изменения требуют перезапуска и одобрения
Подключена ли подписка на уведомления о безопасности (security advisories) для установленных навыков?
Настроены CVE-оповещения для всех установленных пакетов навыков
AST08
Недостаточное
сканирование
Средний уровень
Проводился ли поведенческий / семантический анализ (не только сигнатурный)?
Инструмент сканирования оценивает намерения и инструкции на естественном языке, а не только сигнатуры на основе регулярных выражений
Выполнено ли независимое сканирование как кода, так и слоя естественного языка?
Отдельные результаты сканирования для кода и для естественно-языковых инструкций в SKILL.md / манифесте
Проводилось ли сканирование на утечки учетных данных (Gitleaks, TruffleHog или аналоги)?
Чистый результат: API-ключи, токены, пароли и PII не обнаружены во всех файлах навыка
Проводилось ли сканирование в изолированной среде, предотвращающей влияние навыка?
Среда сканирования оснащена средствами наблюдения и контроля; навык не может обнаружить или повлиять на контекст проверки
Проводилось ли динамическое поведенческое тестирование в песочнице?
Лог наблюдаемого поведения: доступ к файлам, сетевые вызовы и shell-команды соответствуют заявленному объему
Рассматриваются ли результаты анализа от skill-based сканеров только как вспомогательные (не единственный критерий)?
Нет зависимости от одного сканера — особенно если сам сканер является навыком
AST09
Отсутствие
управления
Средний уровень
Зарегистрирован ли навык в централизованном реестре навыков организации?
Запись существует и содержит: имя, версию, хэш, дату установки, идентификатор установщика, статус последнего сканирования
Присвоен ли навыку уровень риска (risk tier) L0–L3?
Уровень риска задокументирован и соответствует объему разрешений
Есть ли запись об одобрении установки этого навыка?
Процесс согласования завершен; зафиксированы идентификатор одобряющего и датa
Логируются ли вызовы навыка с достаточной детализацией для аудита?
Логи включают: ID навыка, контекст пользователя, вызванные инструменты, доступ к файлам, сетевые соединения, результаты
Определена ли регулярность пересмотра (review cadence) для этого навыка?
Запланирована периодическая переоценка; частота соответствует уровню риска
Существует ли формальный процесс отзыва/удаления навыка, связанный с оффбордингом и реагированием на инциденты?
Удаление навыка привязано к жизненному циклу идентичности; IR-плейбук включает сценарии для конкретных навыков
Управляются ли агентные идентичности как не-человеческие (NHI) с ограниченными и ротируемыми учетными данными?
Агент NHI зарегистрирован в IAM; учетные данные ограничены и регулярно ротируются
AST10
Кроссплатформенное
использование
Средний уровень
Был ли навык независимо валидирован для каждой целевой платформы?
Есть результаты тестирования по каждой платформе; эквивалентность не предполагается
Последовательно ли заданы параметры безопасности (permissions, risk_tier, подпись) во всех версиях платформ?
Отсутствует «тихая» потеря свойств при портировании; risk_tier и permissions присутствуют во всех форматах
Проведена ли оценка платформо-специфических пробелов безопасности для каждого целевого окружения?
Выполнен анализ различий между моделями песочницы, механизмами разрешений и конфигурациями по умолчанию (Gap-анализ)
Последовательна и безопасна ли обработка учетных данных на всех платформах?
Хранение, ограничение доступа и ротация учетных данных проверены на каждой платформе
Используется ли кросс-реестровый обмен данными о угрозах для этого навыка?
Если навык опубликован в нескольких реестрах, результаты сканирования и отчеты об инцидентах синхронизируются между ними
Используется ли универсальный формат навыков (или платформо-независимый манифест)?
Присутствует нормализованный YAML-манифест со всеми полями безопасности
Уязвимости среднего уровня критичности
Риски AST07, AST08, AST09, AST10
0 из 25 возможных. Для устранения рекомендована минимальная проверка: верификация инвентаря
Получить консультацию
Ни один инструмент не покрывает все риски. Рекомендуется использовать многоинструментальный пайплайн.

Мы помогаем компаниям выстроить комплексный подход к безопасности ИИ с учетом актуальных угроз, требований регуляторов и специфики архитектуры.

Комплексные услуги

Аудит, оценка, GAP-анализ и стратегия
  • Анализ пробелов в ИБ
  • Оценка текущий процессов в области AI Security
  • Анализ ландшафта ИИ-угроз и подробные рекомендации по улучшению защиты
  • Моделирование угроз 
  • Стратегия, развитие процессов и анализ рисков AI Security
Безопасность ИИ в проде
  • Анализ состава решений на базе ИИ
  • Анализ состава цепочки разработки безопасного ИИ (AI-BOM)
  • Оценка устойчивости ИИ-моделей к атакам
  • Мониторинг и операционная безопасность
Обучение и онбординг команд по безопасной разработке и использованию моделей ИИ
  • Самостоятельное обучение на платформы
  • Обучение с наставников
  • Практически соревнвания, CTF
Руководство по обеспечению безопасности приложений Gen AI
Заполните заявку и получите OWASP Top 10 for LLM and Generative AI на русском

Выгоды внедрения

Защита от новых видов кибератак на ИИ
Предотвращение вредоносных воздействий на модели, включая изменения входных данных и отравление обучающих выборок
Снижение риска утечки конфиденциальной информации
Защита моделей от атак, направленных на получение личных и корпоративных данных
Повышение устойчивости и надежности AI-систем
Исправление ошибок конфигурации и обеспечение безопасной интеграции ИИ в инфраструктуру
Комплексный подход к безопасности
Разработка стратегий и процессов с учетом специфики бизнеса и актуальных угроз

Вы сможете

Обеспечить надежную защиту AI-моделей от современных киберугроз
Снизить риски утечки и компрометации конфиденциальных данных
Увеличить устойчивость и безопасность инфраструктуры с ИИ
Повысить квалификацию команды для безопасной разработки и эксплуатации ИИ-систем

Почему Swordfish Security

Более 10 лет успешно внедряем решения DevSecOps
для компаний любого размера и отрасли
Член Консорциума исследований безопасности технологий искусственного интеллекта
Способствуем созданию и развитию защищённых технологий для работы с различными типами данных с использованием технологий машинного обучения и методов ИИ, возглавляем РГ-2 "Тестирование технологий ИИ" Консорциума ИИ
Индивидуальный подход
Разрабатываем индивидуальные решения для защиты ИИ

Хотите снизить риски и обеспечить устойчивость AI-решений?

Свяжитесь с нами, чтобы получить персональную консультацию
FAQ
Основные угрозы включают вредоносные входные данные (Adversarial Attacks), которые вводят модель в заблуждение, отравление обучающих данных (Data Poisoning), атаки на конфиденциальность через извлечение информации, ошибки конфигурации и интеграции, а также атаки на цепочку поставок, которые могут нарушить работу и безопасность всей системы.
Смотрите также