Bryansk, Bryansk, Russian Federation
Bryansk, Bryansk, Russian Federation
Bryansk, Bryansk, Russian Federation
Bryansk, Bryansk, Russian Federation
The article highlights the significant role of introducing multimodal neural networks into information security systems to improve operational efficiency in detecting cyber threats. Using a combination of neural networks, including convolutional neural networks (CNN), recurrent neural networks (RNN), and long short-term memory networks (LSTM), it is possible to achieve high accuracy and speed in detecting cyber threats. By combining multiple data sources such as video surveillance, audio analysis, biometric identification, and behavioural pattern analysis, these multi-modal systems offer comprehensive and in-depth security analysis, making them an effective solution against today’s threats in the information environment. The aim of the study is to analyze and compare the effectiveness of various types of neural networks used in information security, with special attention to the capabilities of multimodal systems. Research objective is to evaluate the use of various types of neural networks in different data processing scenarios, from biometric recognition to network traffic analysis. Research methods are: theoretical analysis and comparison of convolutional neural networks (CNN), recurrent neural networks (RNN) and long short-term memory networks (LSTM). The novelty of the work lies in an integrated approach to analysing multimodal systems in the context of modern cyber threats. Research results: multimodal systems equipped with modern neural networks represent the future in the field of information security. Findings: the analysis confirms the essential role of integrating artificial intelligence into information security systems, emphasizing the importance of multimodal systems in creating effective, adaptive, and scalable solutions for protecting data and information systems in the modern digital environment.
artificial intelligence, information security, multimodal systems, neural networks, biometric recognition, network traffic analysis, convolutional neural networks, recurrent neural networks, networks with long short-term memory
В современной эпохе цифровизации, когда информационные технологии (ИТ) стремительно развиваются, вопросы кибербезопасности становятся всё более актуальными. Учитывая стремительный рост исследований в области искусственного интеллекта (ИИ), а в частности нейронных систем, внедрение данных модулей в системы распознования и детектирования киберугроз, позволит радикально изменить традиционные подходы к защите данных и информационных систем (ИС), в особенности для анализа информации из различных источников, таких как видео, аудио, поведенческие паттерны. Для анализа данных из различных типов источников наиболее подходящими являются мультимодальные нейронные сети, поскольку они позволяют комбинировать различные типы нейронных сетей для повышения точности и скорости распознавания киберугроз.
Например, в исследовании «A Novel Multimodal-Sequential Approach Based on Multi-View Features for Network Intrusion Detection» была применен мультимодально-последовательный подход для обнаружения киберугроз в сфере сетевых вторжений (рис. 1) [1]. Данный подход позволил повысить точность обнаружения сетевых атак до 94% при бинарной классификации и до 88% при мультиклассификации, что на 2% и 4% выше по сравнению с другими методами.
Fig. 1. An example of using a multimodal-sequential approach in a cyber threat recognition system [1]
На настоящий момент, мультимодально-последовательный подход в виде мультимодальных нейронных сетей (ММНС) применяется в различных отраслях жизнедеятельности человека. Например, для диагностики болезни Альцгеймера, они применяются с механизмом самовнимания, который обрабатывает клинические и генетические результаты исследований, а также изображения мозга для повышения точности диагностики заболевания (рис. 2) [2].
Рис 2. Пример использования мультимодальной системы с механизмом самовнимания для диагностики болезни Альцгеймера [2]
Fig. 2. An example of using a multimodal system with a self-awareness mechanism for the diagnosis of Alzheimer's disease [2]
Проектируя ММНС, необходимо понимать, комбинация каких типов нейронных сетей окажется наиболее подходящей для поставленной задачи, позволяя реализовать гибкую и адаптируемую к непрерывно меняющимся условиям систему. На текущий момент существует 3 основных типа нейронных сетей: сверточные нейронные сети (CNN), рекуррентные нейронные сети (RNN) и сети с долгой краткосрочной памятью (LSTM).
Сеть CNN – это тип нейроных сетей, которые оптимизированы для анализа визуальной информации и часто используемый в областях, требующих обработки и распознавания изображений. В основе их работы лежат операции свертки, которые позволяют им извлекать из входных данных важные визуальные особенности, такие как края, углы и текстуры [2]. Это достигается за счет применения фильтров к изображениям, что делает CNN высокоэффективными для распознавания образов, видеоанализа и систем биометрической идентификации, которые требуют высокой точности и быстрого анализа, и возможностей классификации изображений.
Сети RNN были разработаны для необходимости обработки непрерывных данных, таких как текст и временные ряды. и используют внутренние циклы для сохранения информации о предыдущих входных данных, что позволяет учитывать весь контекст и порядок данных во время обработки [3, 4] и делает их достаточно востребованными для обработки естественного языка, анализа и задач генерации текста, распознавания речи, где важно учитывать порядок и зависимости между словами и символами. Однако с течением времени происходит исчезновение градиентов, что затрудняет обучение и работу RNN в течении продолжительного промежутка времени.
Сеть LSTM являются улучшенной версией RNN, в которой решается проблема исчезающего градиента, что позволяет более эффективно обрабатывать долгосрочные зависимости. Для неё характерно наличие механизмов шлюзования, при помощи которых происходит управление хранением, обновлением и забыванием информации, что позволяет более гибко управлять потоком данных [5]. Эти свойства делают LSTM особенно ценными для решения сложных задач обработки естественного языка, распознавания речи и анализа временных рядов, в которых требуются учет как текущих, так и долгосрочных отношений между элементами данных.
При проектировании ММНС важно понимать, что объединение различных типов нейронных сетей повысит эффективность, но в то же время увеличит время на обучение. В контексте обнаружения аномалий сетевого трафика было обнаружено, что мультимодальная комбинация CNN и LSTM обладает более высокой способностью обнаруживать аномалии с более высокой точностью, чем их одномодальность.
Приоритеты обнаружения аномалий могут различаться в зависимости от конкретных системных требований. Если стоит цель добиться низкого уровня ложных срабатываний и нет ограничений по временным затратам на обучение, предпочтительным выбором является комбинация сетей CNN+LSTM. Модель CNN+LSTM-1 показывает точность до 99,126%, а модель CNN+LSTM-2 – точность 99,124%, что немного ниже, чем у одномодальных CNN и LTSM, где точность составила 99,095% и 98,938% соответственно [7].
Рис. 3. Сравнение точности одномодальных и мультимодальных нейронных сетей в задаче в задаче детектирования аномалий сетевого трафика IoT (Интернет вещей)[7]
Fig. 3. Comparison of the accuracy of single-modal and multimodal neural networks in the problem of detecting anomalies in IoT network traffic (Internet of Things)[7]
Одномодальные нейронные сети по-прежнему эффективны, особенно для задач, где скорость является критическим фактором, хотя их точность уступает мультимодальным нейронным сетям, она все же обеспечивает достаточную эффективность для многих задач.
Также требуется учитывать, что время, необходимое для обучения одномодальной сети или мультимодальной сети с другой комбинацией нейроннх сетей (RNN+LTSM), зачастую меньше, чем у мультимодальной сети (CNN+LTSM). Это делает другие вариации систем более привлекательными для сценариев, где временные ресурсы на обучение ограничены. Например, для обучения RNN-LSTM-1 требуется всего 301,561 секунды, что значительно меньше времени обучения, необходимого для ММНС, таких как CNN+LSTM, которое занимает до 1355,819 секунды [7].
Важно подчеркнуть, что выбор между одномодальными и мультимодальными системами, а также их комбинациями должен основываться на конкретных требованиях поставленной задачи. Несмотря на то, что одномодальные нейронные сети достаточно эффективны в определенных задачах, использование ММНС повышает точность распознавания, а также расширяет функциональные возможности для анализа большего вида источников данных. Например, в сфере информационной безопасности, если требуется наибольшая точность распознавания, наиболее подходящими будут мультимодальные сети CNN+LTSM, а сети RNN+LTSM более подходящие если требуется высокая скорость обучения и достаточная точность.
В контексте информационной безопасности (ИБ) одним из видов эвристической деятельности является противоборство злоумышленникам, связанное с ростом киберпреступлений, в краже и сбыте конфиденциальной информации, в платежных транспортных, банковских системах и т.д. В связи с этим особое значение приобретает разработка систем искусственного интеллекта, связанные с биометрическими технологиями, устройствами аутентификации в беспроводных сетях, компьютерными системами машинного обучения в сфере информационной безопасности [8].
Рис 4. Сравнение времени обучения одномодальных и мультимодальных нейронных сетей в задаче детектирования аномалий сетевого трафика IoT [7]
Fig. 4. Comparison of the training time of single-modal and multimodal neural networks in the task of detecting anomalies in IoT network traffic [7]
Таким образом, использование ММНС может существенно повысить качество автоматизации, однако необходимо учитывать, что финальное решение должно приниматься с участием экспертной оценки. Поскольку экспертная оценка позволит произвести критический анализ выводов, сделанных системой, а также определить потенциальные угрозы и неоднозначности, пропущенные системой. Также экспертная оценка позволит объективизировать финальное решение, а также обеспечит соответствие этическим аспектам и требованиям законодательства.
1. Haitao H., Xiaobing S., Hongdou H., Guyu Zh., Ligang H., Jiadong R. A Novel Multimodal-Sequential Approach Based on Multi-View Features for Network Intrusion Detection. IEEE Access. 2019;7:183207-183221. DOIhttps://doi.org/10.1109/ACCESS.2019.2959131.
2. Golovanevsky M., Eickhoff C., Singh R. Multimodal Attention-Based Deep Learning for Alzheimer’s Disease Diagnosis. Journal of the American Medical Informatics Association. 2022;29(12):2014-2022. DOIhttps://doi.org/10.1093/jamia/ocac168.
3. Convolutional Neural Networks. ITMO Wikinotes [Internet] [cited 2024 Jan 16]. Available from: https://neerc.ifmo.ru/wiki/index.php?title=Convolutional_neural_networks.
4. Dychkov I.N. Convolutional Neural Networks. Trends in the Development of Science and Education. 2021;73-1:38-41. DOIhttps://doi.org/10.18411/lj-05-2021-08.
5. Recurrent Neural Networks. ITMO Wikinotes. [Internet] [cited 2024 Feb 18]. Available from: https://neerc.ifmo.ru/wiki/index.php?title=Recurrent_neural_networks.
6. Long Short-Term Memory. ITMO Wikinotes. [Internet] [cited 2024 Feb 23]. Available from: https://neerc.ifmo.ru/wiki/index.php?title=Long_short-term_memory.
7. Gaifulin D.A., Kotenko I.V. Analysis of Deep Learning Models for Network Anomaly Detection in Internet of Things. Information and Control Systems. 2021;1(110):28-37. DOIhttps://doi.org/10.31799/1684-8853-2021-1-28-37.
8. Spasennikov V, Androsov K, Golubeva G. Ergonomic Factors in Patenting Computer Systems for Personnel’s Selection and Training. In: Proceedings of the 30th International Conference on Computer Graphics and Machine Vision GraphiCon-2020; 2020 Sep 22-25; Saint Petersburg: 2020, vol. 2744. p. 1.