МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ ДЛЯ КЛАССИФИКАЦИИ ТЕКСТОВОЙ ИНФОРМАЦИИ
Аннотация и ключевые слова
Аннотация (русский):
Рассматривается метод классификации текстовой информации на основе аппарата сверточных нейронных сетей. Приведен алгоритм предобработки текста. Предобработка текста состоит из: лемматизации слов, удаления стоп-слов, обработки символов текста и т.д. Производится пословное преобразование текста в плотные вектора. Тестирование проводится на базе текстовых данных «The 20 Newsgroups». Данная выборка содержит коллекцию примерно из 20 000 новостных документов на английском языке, которая разделена (приблизительно) равномерно между 20 различными категориями. Точность лучшей из применявшихся в данной работе сверточной нейронной сети на тестовой выборке составила ~ 74%. Приведена топология лучшей нейронной сети. Точность голосования нейронных сетей алгоритмом Бэггинга составила ~ 81.5%. На основе проведенного обзора аналогичных решений приведено сравнение со следующими алгоритмами классификации текста: методом опорных векторов (SVM, 82.84%), наивным байесовским классификатором (81%), алгоритмом k ближайших соседей (75.93%), мешком слов.

Ключевые слова:
нейронный сети, Бэггинг, классификация текста, база данных «The 20 Newsgroups»
Список литературы

1. Веревкина О. Работа с текстовыми данными в scikitlearn [Электронный ресурс]. - Режим доступа: URL: https://habr.com/ru/post/264339/ (20.05.2019).

2. Кривошеев Н.А., Спицын В.Г. Алгоритмы понимания текста методами глубокого обучения нейронных сетей // Сборник трудов XVI Международной научнопрактической конференции студентов, аспирантов и молодых ученых «Молодежь и современные информационные технологии» - Томск, 2018 г., с. 82- 83.

3. Мескита Д. Общий взгляд на машинное обучение: классификация текста с помощью нейронных сетей и TensorFlow [Электронный ресурс]. - Режим доступа: URL: https://tproger.ru/translations/text-classificationtensorflow-neural-networks/ (21.11.2018).

4. Петренко С. Это нужно знать: Ключевые рекомендации по глубокому обучению (Часть 2) [Электронный ресурс]. - Режим доступа: URL: http://datareview.info/article/eto-nuzhno-znat-klyuchevyierekomendatsii-po-glubokomu-obucheniyu-chast-2/ (20.05.2019).

5. Cardoso A. Datasets for single-label text categorization [Электронный ресурс]. - Режим доступа: URL: http://ana.cachopo.org/datasets-for-single-label-textcategorization (03.06.2019).

6. Krizhevsky A., Sutskever I., Hinton G.E. Imagenet classification with deep convolutional neural networks // Advances in neural information processing systems. 2012, pp. 1097-1105.

7. LeCun Y. Backpropagation applied to handwritten zip code recognition // Neural computation. 1989, Vol. 1(4), pp. 541- 551.

8. LeCun Y., Bottou L., Bengio Y., Haffner P. Gradientbased learning applied to document recognition // Proceedings of the IEEE. 1998, Vol. 86(11), pp. 2278-2324.

9. LeCun Y. Efficient backprop // Neural Networks: Tricks of the Trade: Lecture Notes in Computer Science / G. Montavon, G. B. Orr, K.-R. Muller (Eds.) - Springer, 2012, pp. 9-48.

10. Ruder S. An overview of gradient descent optimization algorithms [Электронный ресурс]. - Режим доступа: URL: http://ruder.io/optimizing-gradientdescent/index.html#nadam (22.11.2018).

11. Бэггинг [Электронный ресурс]. - Режим доступа: URL: http://www.machinelearning.ru/wiki/index.php?title=%D0%91%D1%8D%D0%B3%D0%B3%D0%B8%D0%BD%D0%B3 (25.08.2019).

12. Классификация текста с помощью нейронной сети на Java [Электронный ресурс]. - Режим доступа: URL: https://habr.com/post/332078/ (21.11.2018).

13. Лемматизация [Электронный ресурс]. - Режим доступа: URL: https://dic.academic.ru/dic.nsf/ruwiki/1313114/%D0%9B%D0%B5%D0%BC%D0%BC%D0%B0%D1%82%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F (26.08.2019).

14. 20 Newsgroups [Электронный ресурс]. - Режим доступа: URL: http://qwone.com/~jason/20Newsgroups/ (10.09.2019).

15. sklearn.datasets.fetch_20newsgroups [Электронный ресурс]. - Режим доступа: URL: https://scikitlearn.org/stable/modules/generated/sklearn.datasets.fetch_20newsgroups.html (22.11.2018).

16. Softmax [Электронный ресурс]. - Режим доступа: URL: https://medium.com/@congyuzhou/softmax3408fb42d55a (20.05.2019)

Войти или Создать
* Забыли пароль?