ГРНТИ 50.07 Теоретические основы вычислительной техники
ББК 3297 Вычислительная техника
Статья посвящена нейросетевым алгоритмам классификации текстов. Актуальность данной темы обусловлена постоянно растущим объемом информации в интернете и потребностью в ней ориентироваться. В данной работе помимо алгоритма классификации, так же приводится описание способов предобработки и векторизации текста, данные этапы являются стартовой точкой для большинства NLP задач и делают нейросетевые алгоритмы эффективным на небольших наборах данных. В работе в качестве набора данных для обучения и тестирования нейронной сети будет использоваться выборка состоящая из 50 000 обзоров фильмов IMDB на английском языке. Для решения поставленной задачи был использован подход основанный на использовании свёрточной нейронной сети. Максимально достигнутая точность для тестовой выборки составила 90.16%.
понимание текстов, обработка естественных языков, сверточные нейронные сети, классификация текстов
1. Введение в анализ естественных языков / Учебнометодическое пособие / И.В. Смирнов, 2014 г.
2. Спицын В.Г., Интеллектуальные системы: учебное пособие /В.Г. Спицын, Ю.Р. Цой; Томский политехнический университет. - Томск: Изд-во Томского политехнического университета, 2012.-176 с.
3. Федюшкин Н.А., Федосин С. А. Понятие, проблемы и разновидности интеллектуального анализа текста - Проблемы и достижения в науке и технике. Сборник научных трудов по итогам международной научнопрактической конференции - № 3 - г. Омск, 2016 - 206 с.
4. Хайкин С. Нейронные сети: полный курс. М.: Вильямс, 2006. - 1104 c.
5. Bai, S., Kolter, J. Z., & Koltun, V. (2018). An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling. arxiv.org/abs/1803.01271.
6. Kim, Y. (2014). Convolutional Neural Networks for Sentence Classification. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP 2014), 1746-1751.
7. LeCun, Y. Efficient BackProp in Neural Networks: Tricks of the trade / Y.LeCun, L. Bottou, G. Orr, K. Muller - Springer, 1998.
8. LeCun, Y. Scaling learning algorithms towards AI / Y.LeCun, Y. Bengio - MIT Press, 2007.
9. Pennington, J., Soche, R., D. Manning, C. GloVe: Global Vectors for Word Representation [Электронный ресурс] Точка доступа: https://nlp.stanford.edu/projects/glove.
10. Zhang, X. Character-level convolutional networks for text classification / Xiang Zhang, Junbo Zhao, Yann LeCun // In Advances in Neural Information Processing Systems. - 2015. - Feb. - 649-657pp.