Методы и алгоритмы автоматической интеллектуальной обработки больших массивов слабоструктурированных данных для защиты сетей 5G
Проект № МК-258.2022.1.6
Руководитель — Парфенов Д.И.
В настоящий момент активно совершенствуются различного типа состязательные атаки на модели машинного обучения, которые направлены на изменение результатов работы модели путем введения вредоносных данных. Злоумышленники могут использовать атаки для обхода систем обнаружения и предотвращения атак, обмана систем автоматического принятия решений или дискредитации модели машинного обучения. В связи с этим, данный проект направлен на решение фундаментальной научной проблемы разработки новых инструментов обеспечения безопасности сервисов развернутых на базе сетей 5G.
Целью исследования является разработка моделей и эффективных алгоритмов, направленных на всестороннее решение проблем безопасности сервисов, использующих сети 5G, с учетом проводимых состязательных атак на модели машинного обучения. В основе предлагаемого подхода лежит возможность динамического анализа входных данных и проведения перекрестной проверки моделей машинного обучения для выявления аномалий и идентификации типов состязательных атак, таких как искажение разметки и обучающей выборки, утечка данных через обученные модели, а также атаки на предобученные и аутсорсинговые ML-модели.
На втором этапе выполнения НИР в 2023 году решен ряд вопросов, затрагивающих экспериментальное исследование алгоритмов онлайнового дообучения ML-моделей с целью снижения ущерба от возможных инцидентов кибербезопасности сети 5G, а также разработку прототипа автоматизированной системы машинного обучения выявления и противодействия влиянию состязательных атак и его апробацию на задачах обработки естественных языков и анализа изображений.
Исследование состязательных атак при утечке данных на ML-модели, развернутых в облачных сервисах, проведено в рамках построения теневой модели машинного обучения, имитирующей базовую, с последующим созданием состязательных примеров на основе алгоритма оптимизации нулевого порядка (состязательная атака "черного ящика" Zeroth Order Optimisation). В качестве исходных данных выбраны наборы данных CIC-IoT-2023 и IoTID20, целевыми ML-моделями выступили алгоритм случайного леса Random Forest, алгоритм градиентного бустинга деревьев решений Catboost и искусственная нейронная сеть (MLP-Prod). Теневыми ML-моделями, обученными на основе вторичных данных, выбраны алгоритм градиентного бустинга деревьев решений XGBoost и ИНС альтернативной архитектуры. При выявлении аномалий на наборе данных IoTID20 наиболее высокую точность продемонстрировала «теневая» модель XGBoost, собранная на основе данных базовой модели Random Forest - средняя сбалансированная точность составляет 0.98363 (±0.0123). Вторичная модель MLP-Mimic, построенная на базе модели Catboost, показала наилучшие результаты на данных CIC-IoT-2023 - средняя сбалансированная точность 0.98363 (±0.0123). Таким образом, для поддержки общих стратегий обеспечения безопасности скрытой и общедоступной информации, которая облегчает идентификацию конкретных лиц, требуется построение интеллектуальных моделей их выявления и противодействия.
В результате реализации НИР опубликованы 5 работы, включая 1 статья в изданиях, индексируемых в Scopus и Web of Science, 4 статьи в сборниках международных и всероссийских научных конференций, индексируемых в РИНЦ, а также получено 2 свидетельство о регистрации программы для ЭВМ в ФИПС.
Посмотреть отчет за 2022 год
Последнее обновление: 26.12.2023
Ответственный за информацию:
Болдырев Петр Алексеевич, управление научной и инновационной деятельности, начальник управления
(тел.91-21-38)