Грамота.ру: Как распознать ИИ-текст: признаки и методы детекции

Архив \| Страны \| Персоны \| Каталог \| Новости \| Дискуссии \| Анекдоты \| Контакты \| PDA
\| ЦентрАзия \| Афганистан \| Казахстан \| Кыргызстан \| Таджикистан \| Туркменистан \| Узбекистан \|

Новости и события

Вторник, 25.11.2025

21:57  СВР России: Как Лондон зарабатывает на войне на Украине
20:04  Владимир Путин прибыл в Кыргызстан с государственным визитом
12:33  Москва и Пекин обсуждают наращивание поставок российской нефти, пока Запад пытается отстрелить себе ногу
11:28  Полагаясь на США, Европа и Япония смело дразнили соседей... Что изменилось
10:28  Грамота.ру: Как распознать ИИ-текст: признаки и методы детекции
06:28  Центральная Азия – Россия: кто и зачем реанимирует проект разворота сибирских рек? - Дмитрий Нефедов
05:24  Podrobno.uz: Судебная система Узбекистана получает перезагрузку. Что изменится
04:13  "Газовое кольцо" способно обеспечить энергетическую безопасность ЦА, - Аскар Исмаилов
03:57  Власти Киргизии дали гарантии от повторения госпереворотов, - Анна Кряжева
00:48  НГ: России и республикам Центральной Азии угрожают "бродячие джихадисты"
00:05  ВС РФ начали операцию по окружению Северской группировки ВСУ – итоговая сводка Readovka за 24 ноября

Понедельник, 24.11.2025

19:53  Украина – все, Балтике приготовиться, - Алексей Белов
12:03  В Центральной Азии пока нет соглашения между странами о взаимном признании дипломов
11:30  МВД Киргизии пресекло деятельность деструктивной группы, готовившей массовые беспорядки после выборов
11:15  Звездой Шелкового пути стала Мишель Джозеф из Монголии
11:05  Железная дорога "Китай-Кыргызстан-Узбекистан": строительство перешло в практическую фазу
06:07  В Кыргызстане начинает вещание новый телеканал "Номад ТВ"
06:03  "Хочу стать первой женщиной-лидером". Непривычный Афганистан в городе поэтов
05:49  S&P повысило суверенный рейтинг Узбекистана до "BB"
04:54  Казахстан стал самым образованным государством СНГ
03:02  Глобальное управление по-китайски: карты, деньги, институты, - Николай Кузьмин
02:13  Как мошенники адаптируют тактику общения с жертвой в зависимости от возраста
02:07  Уходящий мэр Нью-Йорка залетел в Узбекистан в поисках работы
01:06  Меджлис Туркменистана принял Закон "О виртуальных активах"
00:50  Где зарыта ерменсайская коррупционная собака? - Рахим Шайисламов
00:05  ВС РФ гонят противника из Донбасса – итоговая сводка Readovka за прошедшую неделю

Воскресенье, 23.11.2025

23:24  Турне МИД Китая Ван И по Центральной Азии. Встречи с президентами Кыргызстана, Узбекистана и Таджикистана
22:11  СП: Искусственный интеллект может сыграть злую шутку с любым правительством
20:38  Китай и страны Центральной Азии активно наращивают трафик грузовых поездов Китай-Европа
19:59  НГ: Москва и Дели проведут саммит вопреки давлению Вашингтона
17:20  Не все идет по плану: предложения Трампа не устроили Европу, Украину и Россию, - Дмитрий Попов
10:57  23 ноября 2003 года в Грузии завершилась "революция роз"
10:41  Казахстан, Кыргызстан и Узбекистан согласовали параметры водно-энергетического сотрудничества
10:14  Узбекско-Американский инвестсовет возглавят Саида Мирзиеева и Сергей Гороховский
09:54  России теперь не нужно брать Киев: Киева не будет - и Львова тоже, - Кирилл Стрельников
01:25  Душ для Ташкента. Узбекистан готовят к экспериментам с погодой
00:50  Приоритетная задача ШОС - предотвращение радикализации
00:38  В пустыне Китая возводят гигантский "аккумулятор" мощностью 3 ГВт
00:05  Readovka: Люди на золотых горшках принимают решение о будущем Украины

Суббота, 22.11.2025

22:06  Назначения районных акимов в Киргизии 21.11.2025
20:00  Caravan.kz: Когда Кыргызстан обгонит Казахстан?
15:24  Саммит G20 в ЮАР стартовал с принятия итоговой декларации
11:13  Почему Таджикистан начал контактировать с талибами, - Игорь Кармазин
10:22  "Примаковские чтения" впервые прошли в Ташкенте
09:47  63 самые важные даты истории ислама, - Павел Густерин
02:21  Север Таджикистана подключат к энергосистеме Центральной Азии
00:05  Русские войска ликвидировали укрепрайон в Новопавловке – итоговая сводка Readovka за 21 ноября

Пятница, 21.11.2025

20:57  План из 28 пунктов по Украине может быть положен в основу окончательно мирного урегулирования, - Путин
20:53  Мирный план Трампа застал врасплох Украину и Европу, - Дмитрий Шевченко
17:11  Киргизия запустила первую эмиссию обеспеченного золотом стейблкоина USDKG
03:53  Китайский эксперт оценил инициативы Узбекистана по развитию Центральной Азии
02:16  infoBRICS: приобретение Су-57 будет гарантией военного суверенитета любой страны (видео)
01:47  "Раньше всех. Ну почти": Опубликован план перемирия украино-российского конфликта
01:21  НГ: Китай потеснил США в Африке. Вашингтон бойкотирует саммит G20 в ЮАР
00:05  Русские войска освободили Купянск и ворвались в Красный Лиман - итоговая сводка Readovka за 20 ноября

Четверг, 20.11.2025

17:32  Председателем Налогового комитета Узбекистана назначен Фаррух Пулатов
16:25  Китай и Япония стали враждовать на фоне заявлений Такаити о Тайване. Что пишут СМИ
16:20  Царьград: "Это капитуляция Украины". Или принять мирный план сейчас, или ждать полного военного разгрома
15:43  Турецкий гамбит или игра в наперстки? - Дмитрий Седов
08:06  Фильм об узбекском летчике "Тайметов. Вестник Победы" по итогам голосования признан лучшим
07:23  Консультативная встреча глав государств ЦА способна изменить судьбу региона, - Азиз Абдраимов

Архив

Вверх

ЦентрАзия |

Грамота.ру: Как распознать ИИ-текст: признаки и методы детекции
10:28 25.11.2025

Чем сгенерированные тексты (пока еще) выдают себя
20 ноября 2025

Когда-то мы смеялись над корявостью и глупостью первых языковых моделей. Сегодня чат-боты пишут за людей деловые письма и посты, сочиняют рассказы, ведут задушевные беседы и приводят аргументы в спорах. Есть ли что-то, чем речь машины в корне отличается от человеческой? И может ли эксперт - или даже другая машина - обнаружить эту разницу?

Гладко, но безжизненно

Машина пишет текст не так, как человек. Она его вычисляет. И эти вычисления оставляют статистический отпечаток, который можно увидеть - если знать, куда смотреть. А смотреть нужно на энтропию: это своего рода мера хаоса. В тексте человека она обычно высокая: мы меняем темп, ошибаемся, вставляем неожиданные слова, перескакиваем с мысли на мысль. У языковой модели энтропия низкая. Она пишет как метроном: четко, последовательно, предсказуемо. Оно и понятно - ведь от генератора текста ждут не потока слов, вываленных в случайном порядке, а... текста.

Возьмем простой пример. Продолжите фразу: "Искусственный интеллект может..." ChatGPT при базовых настройках скорее выдаст продолжение в таком духе: "...помочь в решении сложных задач и повышении эффективности работы". А человек может написать: "...по одной фотке подсказать, как починить сломанную сушилку".

У машины нет жизненного опыта, но есть данные (тексты), на которых она обучалась. Она раскладывает текст на токены - слова, части слов и отдельные символы. Сами тексты она в памяти не хранит, а хранит данные о вероятностях сочетания токенов при определенных параметрах.

На каждом шаге модель смотрит на контекст и оценивает каждое возможное следующее слово - насколько оно здесь уместно. Это называется распределением вероятностей.

Создатели ИИ настраивают модели на "точность" и "когерентность" (то есть согласованность). Но если текст получается хорошим по этим показателям, он теряет живость. А если приобретает живость - рискует "уйти в дебри", начать нести несуразицу и выдать себя уже этим.

И все же модели постоянно совершенствуются. Чтобы сделать сгенерированные тексты менее искусственными, технологические гиганты используют специальную "дрессировку" - процесс, который называется выравниванием (alignment). Машину учат вести себя как человек. Самый популярный метод - обучение с подкреплением на основе человеческой обратной связи. Сначала модель генерирует много вариантов ответов. Потом приходят люди-аннотаторы и говорят: "Вот это звучит естественно, а это - как инструкция от пылесоса". Модель запоминает, какие ответы нравятся людям, и начинает им подражать.

Проще говоря, люди учат ИИ ошибаться "правильно" - вставлять те самые шероховатости человеческой речи, которые делают текст живым.

Компания Anthropic (создатели модели Claude) пошла еще дальше. Они разработали метод конституционного ИИ. Вместо армии аннотаторов они дали модели набор правил - своего рода "конституцию" - и научили ее самокритике. ИИ генерирует текст, потом сам же его анализирует: "Не слишком ли я формален? Не звучу ли как справочник?" - и переписывает.

Что увидит опытный глаз

Есть вещи, которые с высокой вероятностью выдают машинный текст даже невооруженному глазу. Языковые модели любят безличные метатекстовые конструкции, которые показывают логику текста (то есть создают ощущение той самой связности). Но проблема в том, что они превращаются в конструкции-паразиты. Многие тексты, написанные ChatGPT и его аналогами, пестрят однотипными формулировками: однако следует отметить..., в результате можно сделать вывод..., главное здесь..., это не просто [...], это.... В английском языке есть свои "предатели": delve into (углубляться в), at its core (по своей сути), it’s important to note (важно отметить).

Исследователи из Университета Карнеги - Меллона провели масштабный анализ и обнаружили закономерность: модель любит величавые, аккуратные, "закругленные" фразы, в которых чувствуется пустота. Здесь проявляется отмеченная выше черта: отсутствие у машины личного опыта. Она не скажет: "Помню, как пацаном впервые глотнул кофе - аж плеваться захотелось". Вместо этого выдаст что-то вроде: "Кофе представляет собой напиток, обладающий уникальными вкусовыми характеристиками". Впрочем, иногда и люди грешат такими гладкими и бессмысленными формулировками. Но у машин этот стиль, что называется, "не баг, а фича".

Если вы видели много сгенерированных текстов, то наверняка ощутили, что модель как будто слишком осторожничает. ИИ пишет как студент, который хочет произвести впечатление на профессора: напихать побольше умных слов и выражений. И при этом нет ничего, что можно счесть лишним, отрывочным, выбивающимся из стиля.

Исследователи использовали тест для ИИ на основе 66 критериев анализа текста, предложенных лингвистом Дугласом Бибером.

В нем учитывается множество параметров - от использования определенных синтаксических конструкций до частотности определенных частей речи. Когда эти критерии применили к продукции ChatGPT и сравнили результаты с человеческими текстами, выяснилось несколько интересных подробностей:

ИИ использует существительные там, где люди выбирают глаголы;
любит сложноподчиненные предложения;
злоупотребляет причастными оборотами;
питает пристрастие к служебным словам, а наречия недолюбливает;
употребляет менее разнообразную лексику, чем человек.

Вот как ChatGPT описал бы закат: "Солнце, медленно опускающееся за горизонт, окрашивает небосвод в оттенки, варьирующиеся от золотистого до багряного, создавая впечатляющее зрелище". Модель генерирует типовую поэтичность, соответствующую многим описаниям заката, которые она пропустила через себя в процессе обучения.

Пока что есть в текстах признаки искусственного происхождения, которые видны опытному глазу. Но ИИ учится быстрее, чем мы успеваем создавать правила. Уже сейчас появляются модели, которые намеренно "ломают" свою предсказуемость, вставляют случайные отклонения, имитируют человеческие ошибки.

Как работают программы-детекторы

Настоящая битва разворачивается на уровне, невидимом человеческому глазу: в статистике самого текста. И здесь машины (но уже другие) справляются неплохо, особенно на больших массивах сгенерированных текстов.

Подсказки снова кроются в особенностях создания текста - в тех же уровнях энтропии. Когда программа-детектор анализирует текст, она задается вопросом: "Насколько неожиданны эти слова?" Если каждое следующее слово легко предсказывается, это верный признак сгенерированного текста.

Машина пишет так, чтобы другая машина не удивилась. Человек пишет так, чтобы удивить человека. Эта разница в намерениях и оставляет статистический след.

Есть еще один показатель - burstiness (вариативность, неравномерность, буквально "взрывчатость"). Это показатель того, насколько неравномерно движется текст. Человек пишет скачками: короткое предложение, потом длинное, развернутое, со множеством придаточных, деталей и отступлений, которое тянется и тянется, пока вы не забываете, с чего оно вообще началось. А потом - снова короткое. ИИ пишет ровно - как вышколенный ученик, который боится ошибиться. Каждое предложение примерно одной длины. Примерно одной сложности. Примерно одной структуры.

Если разброс длины предложений для человеческого текста составляет от 3 до 40+ слов, то для ИИ-текста- от 12 до 20 слов. Это прямое следствие оптимизации модели в соответствии с критерием "когерентности". Неравномерность может касаться не только структуры предложений, но и распределения слов: в одном абзаце какое-то слово употребляется много раз (это как раз "взрыв" или кластер), а в другом может отсутствовать.

Наконец, программы-детекторы могут ориентироваться на разницу между глобальной и локальной семантической когерентностью - например, провалы в связности между соседними словами в определенных местах при сохранении общей логичности текста. Эти и другие аномалии, встречающиеся тут и там в обширном фрагменте, могут выдать машину.

Разработчики инструментов "очеловечивания" текста стараются учитывать эти данные. Они стремятся искусственно повысить энтропию и перплексию, не меняя смысл. Добавляют налет хаоса, чтобы текст выглядел человечнее. Например, заменяют слова на менее предсказуемые варианты. Или намеренно ломают ритм, дробя предложения и используя скачкообразные конструкции с тире, без лишних рассуждений и вводных слов. А еще - вставляют разговорные слова ("куча" вместо "много", "штука" вместо "вещь"), неполные предложения и даже опечатки.

Но и детекторы тоже эволюционируют. Они учатся распознавать тот хаос, который был добавлен нарочно.

Неуловимая человечность

Итак, мы можем при большом желании опознать тексты, которые содержат все перечисленные проблемы. Но остаются сложные случаи: когда человек умеет виртуозно составлять запросы (промпты) и тем самым получать более человечно звучащие тексты - и когда, напротив, написанные человеком тексты звучат блекло и механистично.

Если алгоритм получает от человека четкое техническое задание - тон, цель, контекст, стилистическую рамку, он может создать текст, который в своей "человечности" будет даже превосходить средние образцы живого письма.

Машина не устает, не теряет нить, не путается в формулировках. Ее "человечность" - функция постоянного контроля и точной настройки. А вот человек, напротив, может писать так, как будто он не имеет ни живого опыта, ни собственного голоса, а действует как конструктор механических фраз. Это случается в спешке, при профессиональном выгорании, при попытке подражать официально-деловому стилю, при желании "звучать умно".

Такие тексты не содержат ошибок, но и не содержат жизни - ритма, неожиданности, интонационных перепадов, микрособытий мысли. Например, тот, кто только учит язык, может проявлять осторожность: использовать много шаблонных конструкций, однообразной лексики, заученных формулировок. Предложения могут быть сложными, но слишком аккуратными.

В результате критерий "естественности" становится ненадежным. То, что мы считаем слишком выразительным для машины, может оказаться искусственным - только с использованием удачного промпта. А то, что кажется плоским и шаблонным, вполне может быть пробой пера начинающего автора.

Не забудем и о том, что многие тексты подчиняются определенным требованиям: запросы, деловые письма, научные статьи и аннотации к ним, инструкции... В этот список можно добавить даже школьные сочинения. Как раз такие тексты, благодаря их шаблонности, языковая модель может правдоподобно воспроизвести. Рекламные тексты, например, тоже строятся на определенных приемах. Но чтобы создать по-настоящему цепляющий, небанальный сюжет, нужна живость человеческого ума.

Кто кому подражает

Люди постепенно (и, видимо, непреднамеренно) перенимают у своих кремниевых творений стилистику письма. Недавно ученые из института Макса Планка, проанализировав 360 тысяч образовательных видео на YouTube, заметили, что преподаватели, спикеры и прочие "публичные личности" все чаще используют лексику, характерную для ИИ.

Например, в речи людей стали чаще встречаться слова вникнуть, исследовать, компетентный или область - в полтора раза чаще, чем до появления ChatGPT. Нейтральные, "холодные" слова вытесняют более образные, эмоционально насыщенные и индивидуальные конструкции. Меньше становится регионализмов, интонационного выделения, спонтанных пауз и даже юмора.

Этот сдвиг может со временем изменить всю культуру общения, как когда-то телеграф приучил наших предков к лаконичности, а мессенджеры у нас на глазах сделали письменную речь похожей на устную.

Главное: делать выводы рано, ведь технология продолжает стремительно развиваться. Новые версии языковых моделей выходят каждый месяц. Многие уже признаются, что не отличают сгенерированные видео от настоящих. Да и с текстом та же история: недавно исследователи из Питтсбургского университета провели эксперимент с участием полутора тысяч человек и выяснили: люди не отличают стихи, написанные ChatGPT, от творений классиков.

Вероятно, это еще и проблема оценщика. Точно так же, как истинный ценитель может с высокой вероятностью отличить произведение мастера от картины ремесленника, ценитель литературы, филолог или критик, скорее всего, отличит текст, за которым чувствуется живой человек - с эмоциями, сомнениями, ошибками и неожиданными речевыми находками.

Антон Солдатов, редактор Грамоты

Источник - Грамота.ру
Постоянный адрес статьи - https://centrasia.org/newsA.php?st=1764055680

Новости Казахстана
- Рабочий график главы государства
- Кадровые перестановки
- ЦИК зарегистрировала партийный список Демократической партии Казахстана "Ақ жол"
- В Правительстве рассмотрели вопросы безопасности детей в период летнего отдыха
- Заявление Министерства иностранных дел Республики Казахстан
- Межбанковские платежи по QR-коду станут доступны всем казахстанцам с 19 июля 2026 года
- Фиктивное начисление за медуслуги выявлено в частной клинике Астаны
- В Казахстан экстрадирована подозреваемая по делу финансовой пирамиды "World Business Consulting"
- Рабочий график главы государства
- Олжас Бектенов: Благодаря доверительному диалогу между лидерами Казахстана и Китая экономическое сотрудничество двух стран выходит на новый уровень

Перейти на версию с фреймами

Вверх