Работают ли AI-детекторы на русском языке?

Короткий ответ: надёжно нет. Детекторы AI-текста обучены в основном на английском и на русском ошибаются в обе стороны. Ниже о том, почему так, что показывают наши собственные прогоны, и зачем тогда вообще нужна хуманизация.

Главный вывод за 10 секунд. Проверка текста на нейросеть на русском даёт вероятностную оценку, а не факт. Детектор может пометить ваш живой текст как «ИИ» и пропустить настоящий AI-текст. Гнаться за «нулём по детектору» бессмысленно: оптимизируйте читаемость и качество текста.

Почему детекторы плохо работают на русском

Детекторы вроде GPTZero, Originality.ai, DivEye и RuBERT-моделей опираются на три сигнала:

Сами по себе perplexity и burstiness языконезависимы. Проблема в порогах. Модели обучены и откалиброваны на английских корпусах. Для русского пороговые значения никто аккуратно не настроил, поэтому граница «AI или человек» съезжает. Отсюда ошибки в обе стороны.

False positives: живой текст принимают за ИИ

Аккуратный, грамотный, выровненный русский текст человека по формальным метрикам похож на AI. Особенно достаётся научному и деловому стилю, где низкая perplexity это норма жанра, а не след нейросети. Студент, который просто хорошо пишет, рискует получить ярлык «сгенерировано».

False negatives: AI-текст проходит как человеческий

Обратная ошибка не менее частая. Слегка отредактированный или стилизованный AI-текст детектор спокойно пропускает. Простой парафраз снижает true positive rate резко: в исследованиях adversarial-парафраз роняет обнаружение почти на 88%.

Domain shift: детекторы не переносятся между темами

Отдельная беда это доменный сдвиг. Модель, обученная на научных статьях, плохо ловит блог-посты, и наоборот. Самые информативные признаки для одного домена бесполезны для другого. На русском это усугубляет общую ненадёжность: один и тот же текст разные детекторы и разные пороги оценят по-разному.

Для русского свежий ориентир это бенчмарк AINL-Eval 2025: 52 тысячи текстов, 12 доменов. Лучший результат на тесте около 86%. Звучит прилично, но это в контролируемых условиях бенчмарка, не на ваших живых текстах, и без переноса между доменами.

Наши данные: детектор почти не различает классы

Мы прогоняем детекторы по русским текстам в собственном eval-харнесе, в том числе по контролю «заведомо человек»: дословным отрывкам статей Википедии (CC BY-SA, написаны людьми задолго до ChatGPT). Результат показателен. LLM-детектор поставил всем трём человеческим текстам ≈0.85 по шкале «вероятность, что это AI», ровно столько же, сколько настоящим AI-текстам. False positive rate в этом прогоне: 3 из 3 (100%).

То есть детектор выдаёт «скорее всего, ИИ» и на машинном тексте, и на статье про озеро Байкал. Разрыва между классами практически нет: различающая способность близка к нулю.

Это иллюстрация на небольшом контроле, а не калиброванная индустриальная метрика: модель локальная (gemma3:4b), корпус компактный и дорабатывается. Но направление однозначное. Методику, корпус и сырые прогоны можно посмотреть в репозитории: /eval (см. секцию «FP-аудит детекторов» в RESULTS.md).

Вывод из этого простой и неудобный для индустрии «обхода детекторов»: если инструмент выдаёт почти одинаковую уверенность на человеке и на машине, то его вердикт мало что значит. Оптимизировать текст под такой детектор всё равно что подстраиваться под сломанные весы.

Главная причина: чистый человеческий текст вымирает

Калибровка порогов и доменный сдвиг это симптомы. Корень глубже и к 2026 году стал почти неустранимым. Любой AI-детектор это бинарный классификатор: его обучают отделять класс «человек» от класса «AI». Это работает, только пока есть два чётко разделимых класса. А их больше нет.

Сегодня почти любой осмысленный текст хотя бы частично написан с ассистентом: черновик от модели, правка человеком, снова модель. Граница «человек / машина» проходит уже не между текстами, а внутри одного абзаца. «Класс человек», на котором детекторы калибровались, дрейфует в сторону «класса AI», потому что живые люди пишут теперь так же. Классификатор пытается провести границу там, где распределения слились.

Это не вопрос «ещё немного дообучить модель». Это структурная проблема: исчезает сам референс «чистого человека», относительно которого детектор решает, что аномально. Мы столкнулись с этим напрямую, когда собирали контроль «человек» для своего харнеса: гарантированно до-AI текст пришлось брать из устоявшихся энциклопедических статей, написанных задолго до ChatGPT. Свежего «заведомо человеческого» русского корпуса, на который можно опереться, по сути уже не существует.

Отсюда практический вывод, который мы и закладываем в инструмент: гоняться за «нулём по детектору» бессмысленно вдвойне: детектор и так ненадёжен, и сама задача «отличить человека от AI» теряет смысл по мере того, как тексты становятся гибридными. Осмысленная цель остаётся одна и она не про детекторы: чтобы текст было хорошо читать человеку.

Тогда зачем хуманизация, если детекторам нельзя верить?

Здесь важно развести две цели, которые часто путают.

Плохая цель

«Обмануть детектор». Ненадёжно по определению: вы подстраиваетесь под инструмент, который и так ошибается, а пороги завтра поменяются.

Хорошая цель

Сделать текст лучше для читателя: убрать канцелярит, вернуть голос и ритм. Это полезно независимо от любых детекторов и не устаревает.

Именно поэтому humanizer-ru метит в качество, а не в «ноль по GPTZero». Скилл убирает 52 признака AI-текста, поднимает burstiness и возвращает авторский голос. Текст становится приятнее читать, а заодно естественно перестаёт быть похожим на машинный. Но это побочный эффект качества, а не самоцель.

Что делать на практике

Частые вопросы

Можно ли точно проверить текст на нейросеть на русском?

Надёжно нет. Пороги для русского не откалиброваны, детекторы ошибаются в обе стороны. Любой вердикт стоит читать как вероятностную оценку.

Почему AI-детекторы будут работать всё хуже?

Детектор отделяет класс «человек» от класса «AI», но к 2026 почти любой текст пишется частично с ассистентом. Класс «человек» дрейфует в сторону «AI», и граница стирается по построению. Это структурная проблема, а не калибровка: исчезает сам референс чистого человеческого текста.

Видит ли GPTZero русский текст?

Принимает, но точность на русском заметно ниже. Метрики настроены под английский, отсюда много ложных срабатываний на живых русских текстах.

Какой детектор ИИ лучший для русского языка?

Однозначно лучшего нет. Топовые русскоязычные модели дают около 86% на бенчмарке и плохо переносятся между доменами. Полагаться на один детектор как на истину нельзя.

Сбер и Яндекс умеют ловить ИИ-текст?

Любые сервисы проверки на русском упираются в одну и ту же проблему: пороги и обучающие данные смещены, перенос между темами слабый. Это не вопрос конкретного бренда, а общее ограничение детекции на русском.

Telegram-канал автора: Under the Hood

Про AI, безопасность и то, как всё устроено под капотом. Разборы вроде этого выходят там первыми.

Подписаться