ПРИМЕНЕНИЕ НЕЙРОСЕТЕВЫХ МОДЕЛЕЙ ДЛЯ ОБРАБОТКИ И АНАЛИЗА МЕДИЦИНСКИХ ДАННЫХ
Аннотация и ключевые слова
Аннотация (русский):
В настоящее время применение алгоритмов машинного обучения в решении медицинских задач, связанных с диагностикой и прогнозированием медицинских показателей, позволило получить хороший результат. В рамках проведенного исследования разработаны нейросетевые модели для определения типа сахарного диабета и степени когнитивных нарушений. Обозначена проблема обучения глубоких нейронных сетей, и предложено решение на основе применения в качестве целевой функции кросс-энтропии, что дало возможность снизить зависимость величины коррекции веса от значений производных. В качестве исходной выборки выступают обезличенные результаты МРТ головного мозга пациентов из 5 групп с учетом типа сахарного диабета пациентов и наличия когнитивных нарушений. Рассмотрены две нейросетевые модели, которые представляют собой ансамбль, и представлены метрики, позволяющие оценить работу каждой сети отдельно, а также результаты работы, полученные на основе ансамблирования нейросетей. При разработке нейросетевых моделей был использован язык программирования Python

Ключевые слова:
нейронная сеть, сахарный диабет, когнитивные нарушения, статистика, выявление закономерностей, машинное обучение
Текст
Текст (PDF): Читать Скачать

Введение

 

Сегодня обработка и анализ большого количества разнородной цифровой информации неразрывно связаны и с такой областью, как медицина. В связи с этим существует необходимость разработки новых методов, учитывающих специфику медицинских данных, а именно вариабельность показателей, неполнота или неточность описания, малый объем выборок, ограниченное время на принятие решений и т.д. Как показывают исследования [2, 12] решение задачи диагностической классификации успешно осуществляется с помощью технологии машинного обучения

Машинное обучение позволяет повысить точность диагностики, производительность, появляется возможность автоматизировать процесс обработки и анализа большого количества информации. Однако не всегда необходимо прибегать к сложным алгоритмам вроде сверточных нейронных сетей, которые лучше подходят для работы с изображениями. Для решения некоторых задач достаточно применять более легкие и быстрые архитектуры, которые при правильном подборе параметров способны показать хорошие результаты.

 

Материалы и методы для решения задачи

 

В статье для решения задачи медицинской диагностики приведена разработанная рекуррентная нейронная сеть, посредством которой возможно учесть временную характеристику данных. Однако основной проблемой рекуррентных нейронных сетей является затухание локального градиента.

Обучение глубоких и динамических нейронных сетей сопряжено со схожими проблемами. Это происходит из-за того, что динамическая сеть в процессе развертывания дополняется новыми слоями, количество которых зависит от длительности входного сигнала.

Несмотря на наличие множества эвристик, направленных на упрощение процесса обучения, алгоритм обратного распространения менее эффективен при обучении сетей, у которых имеется несколько скрытых слоев. В работах [14, 15] математически показана сходимость алгоритма обратного распространения для любой сети при условии бесконечно малого изменения весов. На практике же эффект обучения не доходит до дальних слоев сети в связи с обращением градиентов в ноль.

Модификация алгоритма обучения нейронной сети, заключавшаяся в изменении целевой функции на кросс-энтропию, позволила повысить точность тестирования по сравнению с нейросетевой моделью, где в качестве целевой функции выступает MSE.

Известной проблемой использования сигмоидальных активационных функций при обучении является то, что при приближении выходных значений нейрона к единице частные производные стремятся к нулю. Отсюда может возникнуть парадокс, противоречащий биологической природе обучения: чем выше значение ошибки, тем меньшей будет коррекция веса.

Для решения вышеописанной проблемы приведем следующую целевую функцию (1):

                                                                          (1)

где  – соответствующие желаемые отклики;  – выходное значение, где аргумент функции f – активационный потенциал нейрона, соответствующий i-му примеру из выборки;  – набор обучающих векторов.

Два свойства данной функции позволяют рассматривать ее в качестве целевой:

1) функция является строго положительной;

2) при выходных значениях, близких к желаемым откликам сети, значение функции будет стремиться к нулю.

Этими же свойствами обладает и квадратическая целевая функция.

Покажем, что использование (1) решает проблему замедления скорости обучения. Для этого найдем частную производную целевой функции по весу:

                                                                                         (2)

Проводя вычисления в (2), получим:

                                                                         (3)

В случае логистической активационной функции (3) примет вид:

                                                                                                         (4)

Таким образом, коррекция веса не зависит от значения производной активационной функции по коррекции веса, т.е. чем большей будет ошибка обучения, тем большей будет коррекция веса.

В работе оптимизация параметров выполнялась с помощью метода Adadelta:

                                                                                                     

                                                                                                  (5)

где θ – настраиваемый параметр; g – производная целевой функции по отношению к настраиваемому параметру; RMS – корень суммы предыдущих значений g.

Adadelta принадлежит к семейству адаптивных алгоритмов обучения (AdaGrad, AdaMax, Adam, RMSprop), базирующихся на понятии «момента» обучения, и определяющих коэффициент коррекции веса индивидуально для каждого весового коэффициента.

 

Описание исходных данных и подбор гиперпараметров

 

Для более точной оценки влияния изменения гиперпараметров на величину ошибок на этапе проверки используется кросс-валидация.

С целью проведения кросс-валидации на изначальной выборке, состоящей из N элементов, формируется N новых, путем выделения одной строки в качестве тестового набора, в то время как остальные N-1 представляют обучающую выборку. На каждой выборке производится обучение модели и вычисляется средняя ошибка по всем выборкам.

Подбирая гиперпараметры нейронной сети и отслеживая данную ошибку, формируем наилучшую модель.

Исходные деперсонализированные данные представляют из себя результаты МРТ головного мозга пациентов. Данные предоставлены отделением рентгенологии СибГМУ для выявления взаимосвязи между наличием сахарного диабета и отклонения в головном мозге пациента.

Обучающая выборка включает 14 показателей 1320 пациентов, которые отнесены к разным группам с учетом типа сахарного диабета и когнитивных нарушений. Представим описание пациентов в исследуемых группах:

1) пациенты с сахарным диабетом 1 типа с когнитивными нарушениями, 450 пациентов;

2) пациенты с сахарным диабетом 1 типа без когнитивных нарушений, 200 пациентов;

3) пациенты с сахарным диабетом 2 типа с когнитивными нарушениями, 420 пациентов;

4) пациенты с сахарным диабетом 2 типа без когнитивных нарушений, 190 пациентов;

5) контрольная группа, включающая пациентов, для которых показатели получены в пределах нормы, 60 пациентов.

Гиперпараметры влияют на качество работы нейронной сети, но определяются до начала обучения и никак не изменяются в процессе. Гиперпараметры влияют друг на друга, поэтому подбор оптимальной их комбинации вручную достаточно сложный процесс.

Keras Tuner – оптимизатор гиперпараметров, разработанный командой Google специально для keras в составе TensorFlow [1]. Данная библиотека распространяется бесплатно.

Для более точной оценки влияния изменения гиперпараметров на величину ошибок на этапе проверки в работе использована кросс-валидация. Оптимизация гиперпараметров нейросетевой модели осуществлялась посредством подбора активационных функций, количества скрытых слоев, количества нейронов в скрытых слоях, активационных функций выходного слоя и размера батча.

 

Нейросетевая модель для определения типа сахарного диабета

 

Ансамбль – алгоритм, состоящий из нескольких алгоритмов машинного обучения. Процесс построения ансамбля называется ансамблированием.

В данной работе ансамбль состоит из двух нейросетевых моделей, одна из которых отвечает за классификацию типа сахарного диабета, а вторая – за определение степени когнитивных нарушений. Обе модели на вход получают спектры, а на выходе дают два числа – тип сахарного диабета и степень когнитивных нарушений.

На первом шаге подбор параметров осуществлялся на основе экспериментов. В качестве оптимизатора выбран алгоритм Adadelta. Функцией ошибок была выбрана бинарная перекрестная энтропия, т.к. она лучше других подходит для решения задач бинарной классификации.

В табл. 1 приведены результаты подбора гиперпараметров нейронной сети с использованием кросс-валидации.

Таблица 1

Результаты подбора гиперпараметров модели, определяющей тип сахарного диабета, эмпирическим путём

Table 1

Empirical hyperparameter fitting for a type of diabetes mellitus classification model

Количество скрытых слоёв

Активационная функция скрытых слоев

Активационная функция выход

Количество нейронов в скрытых слоях

Размер батча

Средняя ошибка

3

ReLU

ReLU

5, 5, 5

30

1,99

3

ReLU

ReLU

5, 5, 5

20

1,5

3

ReLU

ReLU

5, 5, 5

15

2,14

3

ReLU

ReLU

5, 5, 5

10

1,44

3

ReLU

ReLU

5, 5, 5

35

2,74

3

ReLU

ReLU

5, 5, 5

50

1,85

3

ReLU

ReLU

5, 5, 4

10

1,46

3

ReLU

ReLU

5, 5, 3

10

2,17

3

ReLU

ReLU

7, 5, 3

10

1,79

3

ReLU

ReLU

7, 5, 4

10

1,8

3

ReLU

ReLU

7, 4, 3

10

2,32

3

ReLU

ReLU

7, 7, 7

10

0,41

3

ReLU

ReLU

7, 4, 2

10

1,78

3

ReLU

ELU

7, 7, 7

10

1,31

3

ReLU

SeLU

7, 7, 7

10

1,63

3

ReLU

ReLU

7, 7, 7

10

1,61

4

ReLU

ELU

7, 7, 7, 5

10

1,43

3

ELU

ELU

7, 7, 7

10

1,78

 

На основе проведенного анализа построена нейронная сеть, неизменными параметрами для создания которой являлись: 3 скрытых слоя по 7 нейронов каждый с активационной функцией ReLU, на выходном слое активационная функция – ELU и размером батча равном 10.

Выбор оптимальных гиперпараметров осуществлялся с использованием библиотеки keras tuner.

Одной из наилучших оказалась моделей, состоящая из 5 скрытых слоев, которые содержат 10, 4, 9, 6 и 10 нейронов; активационная функция выходного слоя – ELU; активационная функция скрытых слоев Tanh; размер батча 10.

 

Сравнение полученных моделей

 

В ходе работы были отобраны две нейросетевых модели для классификации типа сахарного диабета. После обучения обоих моделей проведена проверка на тестовой выборке. Для определения того, какая модель лучше справляется с поставленной задачей классификации построены матрицы ошибок.

На рис. 1 представлена матрица ошибок для модели, гиперпараметры которой подобраны эмпирически.

Рис. 1. Матрица ошибок модели с эмпирически подобранными гиперпараметрами

Fig. 1. Confusion matrix of a model with empirically fitted hyperparameters

 

На рис. 2 представлена матрица ошибок для модели, гиперпараметры которой подбирались с использованием библиотеки Кeras Тuner.

Рис. 2. Матрица ошибок модели с гиперпараметрами, подобранными с использованием Keras Tuner

Fig. 2. Confusion matrix of a model with hyperparamters fitted using Keras tuner

 

Исходя из полученных результатов, можно сделать вывод о том, что с задачей классификации обе модели справляются одинаково успешно.

В качестве другой метрики для сравнения были выбраны функции ошибок на этапе обучения и на этапе проверки. На рис. 3, а представлен график функций ошибок для модели, полученной с использованием кросс-валидации. На рис. 3, б представлен график функций ошибок для модели, полученной с использованием библиотеки Keras Tuner.

а)                                                                                          б)

Рис. 3. График ошибок по эпохам модели с:

а – эмпирически подобранными гиперпараметрами; б – гиперпараметрами подобранными с помощью Keras Tuner

Fig. 3. Plot of errors by epochs of a model with:

a – empirically fitted hyperparameters; b – hyperparameters fitted using Keras Tuner

 

Из рис. 3 видно, что обе модели не подвержены переобучению. Однако стоит отметить, что для достижения одного уровня точности, второй модели требуется меньшее число эпох. В результате для дальнейшего использования была выбрана модель, построенная с использованием библиотеки Keras Tuner.

 

Таблица 2

Результаты подбора гиперпараметров модели, определяющей степень когнитивных нарушений, эмпирическим путём

Table 2

Empirical hyperparameter fitting for the degree of cognitive impairment classification model

Количество скрытых слоёв

Активационная функция скрытых слоев

Активационная функция выход

Количество нейронов в скрытых слоях

Размер батча

Средняя ошибка

3

relu

softmax

5,5,5

20

0,83

3

relu

softmax

5,5,5

30

0,86

3

relu

softmax

5,5,5

35

0,91

3

relu

softmax

5,5,5

40

0,91

3

relu

softmax

5,5,5

15

0,84

3

relu

softmax

5,5,5

10

0,76

3

relu

softmax

5,5,5

45

0,94

3

relu

softmax

5,4,4

10

0,80

3

relu

softmax

7,5,4

10

0,80

3

relu

softmax

10,7,5

10

0,69

3

relu

softmax

5,5,5

10

0,72

3

relu

softmax

7,7,7

10

0,64

3

relu

sigmoid

7,7,7

10

0,69

3

relu

softmax

7,7,7

10

0,65

3

selu

softmax

7,7,7

10

0,59

3

elu

softmax

7,7,7

10

0,62

3

sigmoid

softmax

7,7,7

10

0,90

3

tanh

softmax

7,7,7

10

0,65

4

selu

softmax

7,7,7,7

10

0,52

4

selu

softmax

7,7,7,5

10

0,55

5

selu

softmax

10,7,7,7,5

10

0,51

5

selu

softmax

7,7,7,7,7

10

0,55

5

selu

softmax

7,7,7,7,5

10

0,53

 

В результате построена нейронная сеть, неизменными параметрами для создания которой являлись: 5 скрытых слоев, содержащих 10, 7, 7, 7 и 5 нейронов соответственно, с активационной функцией SELU для скрытых слоев и Softmax на выходе; размер батча был равен 10.

Выбор оптимальных гиперпараметров осуществлялся с использованием библиотеки Keras Tuner.

Одной из наилучших является модель, состоящая из 3 скрытых слоев, которые содержат 7, 14 и 12 нейронов, имеют активационную функцию выходного слоя – Softmax и для скрытых слоев – ELU и размер батча 10.

 

Сравнение полученных моделей

 

В результате работы получены две нейросетевых модели для классификации степени когнитивных нарушений. После обучения обоих моделей было проведена их проверка на тестовой выборке. Для определения того, какая модель лучше справляется с поставленной задачей классификации построены матрицы ошибок. На рис. 4 представлена матрица ошибок для модели, гиперпараметры которой подобраны эмпирически.

Рис. 4. Матрица ошибок модели с эмпирически подобранными гиперпараметрами

Fig. 4. Confusion matrix of a model with empirically fitted hyperparameters

 

На рис. 5 представлена матрица ошибок для модели, гиперпараметры которой подбирались с использованием библиотеки keras tuner.

Рис. 5. Матрица ошибок модели с гиперпараметрами, подобранными с использованием Keras Tuner

Fig. 5. Confusion matrix of a model with hyperparamters fitted using Keras tuner

 

Исходя из полученных результатов, можно сделать вывод, что с задачей классификации обе модели справляются одинаково успешно.

В качестве другой метрики для сравнения были выбраны функции ошибок на этапе обучения и на этапе проверки. На рис. 6, а представлен график функций ошибок для модели, полученной с использованием кросс-валидации. На рис. 6, б представлен график функций ошибок для модели, гиперпараметры которой подбирались с использованием библиотеки keras tuner.

 

а)                                                                                          б)

Рис. 6. График ошибок по эпохам модели с:

а – эмпирически подобранными гиперпараметрами; б – гиперпараметрами подобранными с помощью Keras Tuner

Fig. 6. Plot of errors by epochs of a model with:

а – empirically fitted hyperparameters; b – hyperparameters fitted using Keras Tuner

 

 

Как видно из графиков ошибка на этапе проверки меньше у первой модели, что говорит о лучшем качестве. В результате для дальнейшего использования была выбрана модель, построенная на основе эмпирического анализа.

 

Результат работы ансамбля

 

В результате работы были отобраны лучшие модели для классификации типа сахарного диабета и определения степени когнитивных нарушений, которые легли в основу ансамбля. Для определения качества совместной работы двух ансамблированных нейросетей построены матрицы ошибок, которые представлены на рис. 7 и рис. 8.

Рис. 7. Матрица ошибок при классификации типа сахарного диабета ансамблированной модели

Fig. 7. Confusion matrix of the ensembled model for the type of diabetes mellitus classification

 

Рис. 8. Матрица ошибок при определении степени когнитивных нарушений ансамблированной модели

Fig. 8. Confusion matrix of the ensembled model for the degree of cognitive impairment classification

 

Матрицы ошибок показывают, что ансамблированные нейронные сети работают с такой же точностью, как по отдельности. Однако позволяют решить сразу несколько задач.

 

Заключение

 

В результате проведено исследование, связанное с подбором гиперпараметров на основе эмпирического подхода и с использованием библиотеки Keras Tuner. Как итог была создана архитектура нейронной сети, включающая ансамбль из двух нейросетевых моделей и позволяющая осуществить классификацию по типу сахарного диабета и степени когнитивных нарушений с точностью 94 %, что было протестировано на тестовой выборке.

Разработанная нейросетевая модель позволяет по результатам МРТ определить тип сахарного диабета больного и наблюдаемую у него степень когнитивных нарушений.

Список литературы

1. Keras Tuner [Электронный ресурс] // GitHub. URL: https://github.com/keras-team/keras-tuner/ (дата обращения 08.03.2022 г.).

2. Gerget O.M. Bionic models for identification of biological systems. Journal of Physics: Conference Series, 2016, vol. 803, no. 12017.

3. Вьюгин В.В. Математические осно-вы машинного обучения и прогнозирования / Вьюгин В.В. - Москва: МЦНМО, 2014. - 304 с.

4. Chollet F. Deep Learning with Python. Shelter Island, Manning Publications Co, 2018. 386 p.

5. Бейли. Н. Математика в биологии и медицине / Бейли Н. - Москва: Мир, 1970. - 392 с.

6. Власов В.В. Введение в доказательную медицину / Власов В.В. - Моква: Медиа Сфера, 2001. - 392с.

7. Gulli A., Kapoor A., Pal S. Deep Learning with TensorFlow 2 and Keras. Birmingham, Packt Publishing Ltd, 2017. 647 p.

8. Moolayil J. Learn Keras for Deep Neu-ral Networks. Vancouver, Apress, 2019. 192 p.

9. Загоруйко Н.Г. Логика эмпириче-ских исследований / Загоруйко Н.Г., Самохвалов К.Ф., Свириденко Д.И. - Новосибирск: Наука, 1985

10. Giussani A. Applied Machine Learning with Python. Borgoricco, Logo, 2020. 204 p.

11. Журавлев У.И. Об алгебраическом подходе к решению задач распознавания и классификации Нейронные сети / Журавлев У.И. // Проблемы кибернетики. - 1978. - № 33. - С. 5-68.

12. Raschka S., Mirjalili V. Python Ma-chine Learning. Birmingham, Packt Publishing Ltd., 2015. 622 p.

13. Mosca, A. Adapting Resilient Propagation for Deep Learning / A. Mosca, G. Magoulas // UK workshop on Computational Intelligence. - Exeter: Springer. - 2015.

14. Mandic, D. Recurrent Neural Net-works for Prediction: Learning Algorithms, Architectures and Stability/Mandic, D. & Chambers, J.- Wiley. - 2001

15. Ксенофонтов В.В. Нейронные сети / Ксенофонтов В.В. // Проблемы науки. - 2020. - № 11. - С. 28-29.

16. Алёшин Н.А. Рекурентные нейронные сети / Алёшин Н.А., Жогаль С.П. // WORLD SCIENCE: PROBLEMS AND INNOVATIONS: сб. статей. - Пенза, 2021. - С. 10-12.

17. Руднева А.А. Искусственный интеллект и нейронные сети / Руднева А.А. // Информационные технологии в строительных, социальных и экономических системах - 2020. - № 1. - С. 48-50.

18. Шинелев И.Н. Использование искусственных нейронных сетей в медицине / Шинелев И.Н., Тарасов И.Е. // ИТ-Стандарт - 2020. - № 4. - С. 38-43.

19. Елизарова М.И. Искусственный интеллект в медицине / Елизарова М.И., Уразова К.М., Ермашов С.Н., Пронькин Н.Н. // International journal of professional science - 20211. - № 5. - С. 81-85.

Войти или Создать
* Забыли пароль?