СБОР И ПОДГОТОВКА ДАННЫХ КРИМИНАЛЬНОГО КОНТЕНТА ИЗ ВЕБ-ИСТОЧНИКОВ
DOI:
https://doi.org/10.54251/2616-6429.2025.01.11nuКлючевые слова:
Веб-контент, Scikit-Learn, NLTK, TensorFlow, Python, Jupyter Notebook, BeautifulSoup(BS4), XML, HTML, машинное обучениеАннотация
Преступные тексты, такие как планирование преступлений, призывы к их совершению, распространение ложной информации, представляют угрозу безопасности в сетевом пространстве. Выявление и классификация таких криминальных текстов становится неотъемлемой частью борьбы с преступностью в интернете. В связи с увеличением объема доступной в сети информации и ростом противоправных действий, связанных с интернетом, возникает необходимость разработки эффективных методов и подходов для автоматического выявления и классификации преступных текстов.
Одним из методов, применяемых при решении задач классификации преступных текстов, является использование морфологического анализа. Морфологический анализ позволяет исследовать структуру слов, их грамматические формы, а также лексические и синтаксические особенности. Однако преступные тексты обладают определенной спецификой, поэтому существующие методы морфологического анализа не всегда эффективны при их классификации. В связи с этим возникает задача модификации и совершенствования существующих методов с целью повышения точности и достижения максимально достоверных результатов.