ВЕБ-КӨЗДЕРДЕН ҚЫЛМЫСТЫҚ КОНТЕНТ ДЕРЕКТЕРІН ЖИНАУ ЖӘНЕ ДАЙЫНДАУ
DOI:
https://doi.org/10.54251/2616-6429.2025.01.11nuКілт сөздер:
Веб-контент, Scikit-Learn, NLTK, Python, Jupyter Notebook, BeautifulSoup(BS4), XML, HTML, машиналық оқытуАңдатпа
Қылмыстарды жоспарлау және оған шақыру, жалған ақпаратпен бөлісу сияқты қылмыстық мәтіндер желілік ортадағы қауіпсіздікке қауіп төндіреді. Мұндай криминалды мәтіндерді анықтау және жіктеу желідегі қылмыспен күрестің құрамдас бөлігіне айналуда. Желіде қолжетімді ақпарат көлемінің ұлғаюына және Интернетке қатысты заңға қарсы әрекеттер көбеюіне байланысты қылмыстық мәтіндерді автоматты түрде анықтау және саралаудың тиімді әдістері мен тәсілдерін әзірлеу қажет.
Қылмыстық мәтіндерді жіктеу есептерінде қолданылатын тәсілдерінің бірі морфологиялық талдау әдістерін қолдану болып табылады. Морфологиялық талдау сөздердің құрылымын, олардың грамматикалық формаларын, лексикалық және синтаксистік ерекшеліктерін талдауға мүмкіндік береді. Бірақ та қылмыстық мәтіндердің өзіндік ерекшеліктері бар, сол себептен морфологиялық талдаудың қолданыстағы әдістері оларды жіктеуде әрқашан тиімді бола бермейді. Осы себептен дәлдікті жоғарылату мен барынша шынайы нәтижеге қол жеткізуде қолданыстағы әдістердің түрлендіру мен жетілдіру тапсырмасы туындап отыр.