Реализация комплексных исследований в области цифровых интеллектуальных технологий для распределенной обработки больших данных
Проект № НШ-2502.2020.9
Руководитель — Болодурина И.П.
Проект направлен на решение фундаментальной научной проблемы повышения производительности и безопасности распределенных вычислений для обработки больших данных. Данная задача решена гибридными методами с применением мультиагентного подхода и на основе принципов самоорганизации вычислительных ресурсов, с использованием гибридных облачных технологий, эффективного планирования вычислений, контейнеризации и выполнения вычислений на аппаратных ускорителях, а так же безопасной телекоммуникационной среды, построенной на базе технологии программно-конфигурируемых сетей и виртуализации сетевых функций и гарантирующей обеспечения SLA.
На первом этапе выполнения НИР в 2020 году решен ряд вопросов, затрагивающих разработку группы моделей и алгоритмов самоорганизации управления систем обработки больших объемов данных, машинного обучения и искусственного интеллекта.
В рамках данного исследования было осуществлено развертывание прототипа платформы автоматизации распределенных вычислений для обработки больших данных с использованием нескольких провайдеров облачных услуг. Кроме того, разработан набор алгоритмических решений, который включает в себя:
1) интеллектуальные алгоритмы эффективного размещения исходных и промежуточных данных, необходимых для работы распределенных вычислительных приложений для обработки больших данных;
2) алгоритмы масштабирования вычислительных пулов виртуальных машин для каждой облачной системы мультиоблачной платформы;
3) алгоритмы для размещения и миграции контейнеров, которые содержат процессы распределенных вычислительных приложений для обработки больших данных;
4) алгоритмы планирования совместного использования видеоускорителей распределенными приложениями для обработки больших данных;
5) алгоритма выбора и обучения алгоритмов машинного обучения, их тренировки, настройки гиперпараметров, контроля недообучения/переобучения и отбора наилучших вариантов для последующего использования.
Разработанные алгоритмы реализованы в виде программных модулей прототипа платформы автоматизации распределенных вычислений для обработки больших данных. Для оценки эффективности работы прототипа платформы автоматизации распределенных вычислений для обработки больших данных проведены экспериментальные исследования на наборах данных UNSW-NB15, CICDDoS2019 и APA-DDoS, описывающих различный сетевой трафик с протекающими внутри сети атаками.
Эволюционный подход генерации кандидатов-признаков и вычисления мета-объектов для представления набора данных, а также интеграция древовидного представления преобразований признакового пространства AutoFE позволяет получить необходимую точность сравнимую с другими алгоритмами машинного обучения. Кроме того, представленный подход, основанный на эволюционной оптимизации, демонстрирует повышение производительности за счет распараллеливания вычислений.
На наборе данных с наибольшим количеством характеристик CICDDoS эволюционный подход показал на 7,4 % выше производительность, чем алгоритм формирования признаков на основе деревьев, но ниже на 13,9 %, чем алгоритм формирования признаков на основе глубокого обучения, который имеет точность в среднем на 2,2 % ниже. На наборах данных UNSW_NB15 и APA-DDoS разработанный подход показал незначительное снижение производительности, но его точность в среднем выше на 1,9 %.
В результате реализации НИР опубликовано 12 печатных работ, включая 4 статьи в изданиях, индексируемых в Scopus, 4 статьи в рецензируемых журналах, входящем в перечень ВАК, 3 статьи в сборниках международных и всероссийских научных конференций, индексируемых в РИНЦ, а также получено 3 свидетельства о регистрации программы для ЭВМ в ФИПС.
Посмотреть отчет за 2021 год
Последнее обновление: 06.10.2021
Ответственный за информацию:
Болдырев Петр Алексеевич, управление научной и инновационной деятельности, начальник управления
(тел.91-21-38)