Как отличить текст, написанный нейросетью

Как отличить текст, написанный нейросетью
Photo by Patrick Tomasso / Unsplash

С развитием языковых моделей умение различать человеческий и машинный текст становится критически важным навыком для редакторов, преподавателей, модераторов контента и всех, кто работает с текстами. При этом ответ на вопрос о том, кто текст, зачастую кроется не в содержании — хотя и тут тоже есть нюансы — а в языковой ткани текста — в том, какие слова выбирает автор, как строит предложения, какие грамматические конструкции предпочитает.

Группа исследователей провела эксперимент: 250 человек и один многоликий ChatGPT написали современные интерпретации мифа о Пигмалионе — истории о скульпторе, влюбившемся в созданную им статую. Всего было проанализировано 330 текстов. Лингвистический анализ выявил устойчивые различия, которые можно использовать для распознавания контента, созданного нейросетями. Главное открытие: различия проявляются на уровне языковой структуры — синтаксиса, лексики, морфологии.

Синтаксис: простые цепочки против сложных связей

ChatGPT систематически выбирает простые предложения, соединенные союзами «и», «но», «или». Человеческая речь тяготеет к сложноподчиненным предложениям с союзами «потому что», «хотя», «в то время как».

Нейросеть напишет: «Ты помог мне, и я успешно справился с задачей». Человек скажет: «Я успешно справился с задачей, потому что ты помог мне». На первый взгляд разница незначительна, но она фундаментальна. Простая связка «и» добавляет одно событие к другому, не устанавливая между ними логических отношений. Союз «потому что» показывает причинно-следственную связь, объясняет, как события соотносятся друг с другом.

Сравните два отрывка из исследования. Языковая модель написала: «Она работала над андроидом месяцами, и проект поглотил все её время. Машина постепенно обретала форму, и она начала видеть в ней нечто большее, чем металл и схемы».

Человек написал: «Хотя она работала над андроидом месяцами, она никогда не ожидала увидеть в нём нечто большее, чем металл и схемы, особенно потому что проект поглотил всё её время и не оставил места для эмоциональной привязанности».

Видите разницу? Человеческое предложение содержит две подчинительные конструкции, создающие сложную сеть логических отношений. ИИ использует простое нанизывание событий через «и». Это связано с архитектурой трансформеров — модели генерируют текст последовательно, слева направо. Простые конструкции требуют меньше удержания контекста в памяти. Для человека же естественно мыслить в терминах причин и следствий, условий и результатов.

Лексическая плотность: информация без воды

Тексты, созданные нейросетями, имеют более высокую лексическую плотность — больше смысловых слов на единицу текста. Это соотношение знаменательных слов (существительных, глаголов, прилагательных) к общему количеству слов. Высокая плотность означает, что каждое слово несет смысловую нагрузку, низкая — что текст разбавлен служебными элементами.

Искусственный интеллект напишет: «Инженер спроектировала андроида. Она запрограммировала продвинутые эмоциональные алгоритмы. Активация прошла успешно». Три коротких предложения, почти каждое слово несет информацию. Минимум служебных элементов.

Человек напишет: «Ну, я думаю, инженер, понимаете, она как бы спроектировала этого андроида, да? И она, наверное, запрограммировала то, что можно назвать продвинутыми эмоциональными алгоритмами, или что-то вроде того. Активация, похоже, действительно прошла успешно».

То же содержание, но текст разбавлен дискурсивными маркерами — «ну», «я думаю», «понимаете», «как бы», «наверное», «или что-то вроде того», «похоже». Эти элементы не добавляют фактической информации, но делают речь естественной, показывают неуверенность, обращение к собеседнику, процесс мышления.

Средняя лексическая плотность текстов нейросетей составила 62%, человеческих — 54%. Языковые модели избегают модальных конструкций («может быть», «вероятно»), хеджирования («вроде бы», «как бы»), дискурсивных маркеров («ну», «знаете»), усилителей («очень», «совершенно»), вводных конструкций («я думаю, что»), переходя сразу к сути.

Парадокс в том, что высокая плотность часто считается признаком хорошего письма — нет «воды». Но в художественных и разговорных текстах она делает речь неестественной, роботизированной. Профессиональный писатель сознательно использует «разбавители» для создания ритма, интонации, эмоциональной окраски.

Частеречное распределение: существительные против прилагательных

ИИ использует больше существительных и союзов, люди — больше прилагательных, предлогов, вспомогательных глаголов и местоимений. В текстах нейросетей существительные составляют 28% против 22% в человеческих, союзы — 8% против 5%. Прилагательные у людей — 18% против 12% у искусственного интеллекта, местоимения — 11% против 6%.

Языковые модели создают номинативный стиль — опираются на существительные, называют предметы и явления напрямую: «Реализация стратегии требует анализа данных и оценки результатов». Существительные доминируют: реализация, стратегия, анализ, данные, оценка, результаты.

Люди создают более глагольный и описательный стиль: «Когда мы тщательно реализуем эту новую стратегию, нам нужно основательно проанализировать наши собранные данные и вдумчиво оценить, что мы реально получаем». Здесь много прилагательных (тщательно, новую, собранные, вдумчиво), местоимений (мы, нам, наши, что), вспомогательных глаголов.

Почему так? Нейросети предпочитают существительные, потому что номинализация — превращение глаголов в существительные — типична для академического стиля, которым пропитаны обучающие данные. «Реализовать» превращается в «реализация», «анализировать» — в «анализ». Существительные более стабильны, они называют сущности, а не процессы.

Люди предпочитают прилагательные, потому что они добавляют субъективность и оценочные суждения — «тщательный анализ», «новая стратегия». Местоимения создают персонализацию — «мы», «наш», «я» делают текст более личным, вовлекают читателя. Вспомогательные глаголы создают сложные временные конструкции — «мы анализировали», «будем реализовывать» — нюансы, которые ИИ часто упрощает до простых времен.

Лексическая сложность: формальные слова против простых

Искусственный интеллект систематически выбирает более редкие, формальные, технические слова там, где человек использовал бы простые и частотные. Нейросеть напишет «использовать» вместо «применять», «облегчить» вместо «помочь», «продемонстрировать» вместо «показать», «осуществить» вместо «сделать», «приступить» вместо «начать», «прекратить» вместо «закончить».

В одной из историй, собранных исследователями, языковая модель написала: «Она стремилась установить, способен ли андроид продемонстрировать подлинные эмоциональные реакции. Результаты были достаточными для содействия дальнейшим исследованиям».

Человек написал ту же мысль иначе: «Она пыталась выяснить, может ли андроид действительно проявлять эмоции. Результаты были достаточно хорошими, чтобы продолжить исследования».

Оба текста передают одинаковую информацию, но лексический выбор радикально различается. Почему так происходит? Обучающие данные перекошены в сторону формального письма. Научные статьи, техническая документация составляют значительную часть корпуса. В этих текстах формальные слова встречаются чаще, чем в живой речи. Частотность в корпусе не равна частотности в реальном употреблении.

Нейросети не чувствуют регистр — они не понимают, что формальные слова звучат претенциозно в неформальном контексте. Для модели это просто токены с определенной вероятностью появления после предыдущих токенов.

Индекс читаемости текстов ИИ составил 12-14 баллов по шкале Флеша-Кинкейда (уровень студента колледжа), человеческих — 8-10 (уровень старшеклассника). В профессиональных и академических текстах эта особенность искусственного интеллекта — преимущество. Модель легко оперирует специализированной лексикой, создавая экспертный контент. Но в художественных и разговорных текстах это выдает машинное происхождение.

Академический регистр как норма

Без специальных инструкций языковые модели генерируют тексты в академическом или техническом регистре, даже когда контекст требует неформального стиля. Регистр — это уровень формальности языка, который варьируется от сленга до официально-делового стиля. Люди интуитивно подстраивают его под контекст: одно дело — написать сообщение другу, другое — научную статью.

ИИ использует пассивные конструкции вместо активных: «Андроид был создан инженером» вместо «Инженер создала андроида». Безличные конструкции: «Можно наблюдать, что...» вместо «Видно, что...». Номинализации: «Осуществление решения...» вместо «Когда мы осуществили решение...». Формальные связки: «Более того», «Кроме того», «Следовательно» вместо «Также», «Плюс», «Поэтому». Отсутствие сокращений и первого лица.

Нейросеть написала: «Активация андроида представляла собой значительную веху в исследованиях искусственного интеллекта. Она продемонстрировала возможности, превышающие первоначальные прогнозы. Последствия для будущего развития существенны». Формальный, отстраненный, объективный тон.

Человек написал: «Когда она включила андроида, это было невероятно — намного лучше, чем она ожидала. Это могло бы изменить всё в том, как мы создаём ИИ». Активные конструкции, эмоциональная оценка («невероятно»), разговорная лексика («намного лучше», «изменить всё»).

Средний балл формальности текстов искусственного интеллекта составил 4.2 из 5, человеческих — 3.1. Несоответствие регистра контексту — мощный индикатор машинной генерации. Если пост в личном блоге написан языком научной статьи, если комментарий в соцсети использует академические обороты — вероятность создания нейросетью высока.

Ограничения и будущее распознавания

Все описанные маркеры работают на текстах с базовыми промптами старых моделей. Исследование использовало ChatGPT 3.5 и 4.0, которые уже считаются устаревшими. Новые модели — Claude 3.5 Sonnet, Gemini 1.5 Pro, GPT-4 Turbo — демонстрируют качественно иные способности. Они используют больше подчинительных конструкций, адаптируют регистр под контекст, реже злоупотребляют номинализациями.

Более того, с правильными промптами даже старые модели обходят все способы распознавания. Достаточно добавить инструкции: «Используй разговорный тон, простые слова, сокращения, активный залог, личные местоимения, разнообразные предложения с причинно-следственными связями, избегай академического языка». Результат будет мало неотличим от человеческого.

Парадоксально (и это важно!), но языковым моделям легче имитировать среднестатистического пользователя соцсетей с ограниченным словарем, грамматическими ошибками, сленгом и эмодзи, чем профессионального журналиста. Через полгода-год базовые лингвистические маркеры станут неэффективными для распознавания машинных текстов.

Выводы исследования

Авторы исследования подчеркивают, что выявленные лингвистические различия — это не просто инструмент распознавания, но и окно в понимание того, как работают языковые модели. Предпочтение простых цепочек над сложными связями, высокая лексическая плотность, номинативный стиль — всё это отражает фундаментальные особенности архитектуры трансформеров и состава обучающих данных. Нейросети генерируют статистически вероятный текст на основе паттернов, а не моделируют человеческое мышление с его причинно-следственными связями, эмоциональными оценками и контекстной адаптацией.

Исследователи отмечают, что методология вымышленных промптов открывает новые возможности для междисциплинарных исследований. Анализируя, как люди и машины интерпретируют один и тот же культурный нарратив, можно изучать не только технические характеристики моделей, но и то, какие культурные коды, социальные установки и творческие стратегии они воспроизводят. Собранный набор из 330 историй может использоваться для дальнейших экспериментов — от обучения новых систем распознавания до сравнительного анализа эволюции языковых моделей.

Главный вывод работы: различия между человеческими и машинными текстами сегодня поддаются измерению, но это окно возможностей быстро закрывается. Каждое новое поколение моделей делает шаг к неразличимости, а промпт-инжиниринг уже сейчас позволяет создавать тексты, которые невозможно отличить от человеческих. Для медиаиндустрии это означает необходимость переосмыслить саму концепцию подлинности контента. Возможно, важен не способ создания текста, а его точность, полезность и этичность. Лингвистические маркеры помогают понять текущее состояние технологии, но долгосрочная стратегия должна строиться не на борьбе с контентом, созданным ИИ, а на осознанном и ответственном использовании этих инструментов.

Read more

Как редактору и журналисту работать с галлюцинациями нейросетей

Как редактору и журналисту работать с галлюцинациями нейросетей

Нейросети стали незаменимым инструментом для работы с контентом, но у них есть фундаментальная проблема — они галлюцинируют. Не в психиатрическом смысле, конечно, а в том, что выдумывают факты, цитаты и статистику, причем делают это с потрясающей уверенностью. Для редактора или журналиста это серьезный вызов: как использовать мощь искусственного интеллекта и при

Автор: Mangoose
Редактор в кармане: ИИ проверяет не только грамматику, но и логику, тон и стиль текста

Редактор в кармане: ИИ проверяет не только грамматику, но и логику, тон и стиль текста

Помните времена, когда проверка орфографии в «Ворде» казалась революцией? Приложение подчеркивало опечатки, ловила запятые и пропущенные заглавные буквы. Сегодня это вызывает лишь улыбку, потому что современные ИИ-редакторы анализируют тексты на уровне, который раньше был доступен только опытным редакторам с десятилетиями практики. Классические инструменты проверки текста всегда ведь работали по принципу

Автор: Mangoose
Технологии ИИ, которые меняют журналистику (на примере ведущих мировых СМИ)

Технологии ИИ, которые меняют журналистику (на примере ведущих мировых СМИ)

Искусственный интеллект перестал быть футуристической концепцией в медиаиндустрии — он уже здесь, работает ежедневно и радикально меняет то, как создается, распространяется и потребляется текстовый контент. Ведущие мировые издания инвестируют миллионы в ИИ-технологии, и результаты впечатляют: от десятикратного увеличения производительности до выявления фейков за секунды. Давайте разберем конкретные кейсы и посмотрим, какие

Автор: Mangoose
Математические формулы и работа с документами в Zerotype

Математические формулы и работа с документами в Zerotype

Сегодня хотим рассказать о паре полезных обновлений в Zerotype, которые появились благодаря вашим просьбам и пожеланиям. Да-да, мы действительно читаем обратную связь и даже корректируем свои планы разработки. Как то случилось и в этот раз. Первое изменение касается работы с документами. В нейросеть можно было и ранее загружать документы в

Автор: Mangoose