Abstract
<jats:p>Қазіргі цифрлық ақпарат кеңістігінде жалған жаңалықтарды автоматты түрде тану табиғи тілді өңдеу мен машиналық оқытудың маңызды қолданбалы міндеттерінің біріне айналды. Қазақ тілі үшін бұл мәселе ерекше өзекті, себебі ашық белгіленген корпустар аз, ал дайын модельдер көбіне ағылшын немесе басқа ресурсы мол тілдерге бейімделген. Бұл жұмыста қазақ және орыс тілдеріндегі fake/real мәтіндерден құралған теңгерілген корпус негізінде TF-IDF белгілеріне сүйенетін классикалық классификаторлар бағаланды. Корпус 1808 мәтінді қамтиды: әр тілде 452 fake және 452 real мәтін бар. Эксперименттер екітілді оқыту, қазақ тіліндегі бөлек бағалау, орыс тіліндегі бөлек бағалау, қазақ тілінен орыс тіліне және орыс тілінен қазақ тіліне кросс-тілдік тасымалдау сценарийлері бойынша жүргізілді. Logistic Regression, Linear SVM және Complement Naive Bayes модельдері word-level және character-level TF-IDF белгілерімен салыстырылды. Біртілді және екітілді сценарийлерде Macro-F1 0.985 деңгейіне жетті. Кросс-тілдік тексерісте бағытқа тәуелді айырмашылық байқалды: қазақ тілінде оқытылып, орыс тілінде тексерілген модель Macro-F1 = 0.654 көрсетті, ал орыс тілінде оқытылып, қазақ тілінде тексерілген модель Macro-F1 = 0.926 деңгейіне жетті. Нәтижелер өндірістік фактчекинг жүйесі ретінде емес, қазақ-орыс fake/real классификациясы үшін түсіндірілетін baseline және әрі қарайғы салыстыруларға арналған бастапқы өлшем ретінде қарастырылады.</jats:p>