МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ ДЛЯ АНАЛИЗА ТЕКСТОВ НА КАЗАХСКОМ ЯЗЫКЕ
DOI:
https://doi.org/10.54251/2616-6429.2025.01.08nuКлючевые слова:
машинное обучение, анализ текста, обработка естественного языка, алгоритмы машинного обучения, методы классификации, казахский язык, машинный переводАннотация
В статье представлен обзор применения методов машинного обучения для анализа текстов на казахском языке. Рассматриваемые методы включают автоматическое исправление орфографии, анализ тональности текстов, машинный перевод и классификацию текстов. Особое внимание уделяется адаптации алгоритмов к специфическим лингвистическим особенностям казахского языка. Обсуждаются перспективы развития специализированных методов извлечения признаков, необходимых для повышения точности и производительности моделей. Одним из перспективных направлений является использование трансформеров для анализа текстов. Эти модели, благодаря своему механизму внимания, способны выделять ключевые элементы текста, что особенно важно для агглютинативных языков, таких как казахский. Наивный байесовский классификатор – это вероятностный метод, основанный на теореме Байеса. Он предполагает независимость признаков и вычисляет вероятность того, что текст принадлежит определённой категории. Его преимущество — простота и высокая скорость работы, однако он может страдать от недостаточной точности при сложных зависимостях между словами. При этом важно учитывать сложные морфологические структуры слов. Например, нейронные сети на основе архитектуры LSTM могут успешно выявлять скрытые эмоции даже в сложных предложениях.