Не так давно вышла моя статья с исследованием, в котором я использовал популярные нейросети для детектирования участия ИИ в написании текстов. Разных. В том числе и античных.
Итог того исследования был печальным: нейросети даже сами себя определить не могут. Однако у Вселенной есть определенное чувство юмора, и буквально в тот же день, как вышла статья, появилась заметка на АТ, в которой презентовали beta-версию нейросетевого детектора. Вполне, надо заметить, годного. Чуть позже я наткнулся на его аналог, точность которого оказалась тоже на уровне. И я вам скажу — это меняет все.
Перед вами эти два инструмента:
Прогнав через них более полусотни разных текстов, я пришел к выводу, что оба решения работают очень прилично. Причем, как и в прошлый раз, я использовал не только современные книги, но и широкий спектр классических работ, начиная с эпоса о Гильгамеше.
Да, точность не 100%, и есть определенная доля ложноположительных срабатываний. Однако при правильном подходе результативность очень высока.
Я бы условно выделил четыре области (продолжая выводы других исследователей вопроса):
- 0–25% — зона ложноположительных срабатываний и/или несущественного участия нейросетей;
- 25–50% — зона умеренного участия нейросетей (мини-вставки и широкая редактура);
- 50–75% — зона широкого участия нейросетей;
- 75–99% — зона тотального участия нейросетей.
Тексты, написанные до эпохи больших языковых моделей, находятся в первой группе. И большинство из них укладываются в 0-5%. То есть получить, как во время прошлого эксперимента, 15% на эпосе о Гильгамеше я не смог, хотя очень пытался.
Да, готовясь к этой статье, я пришел к выводу о том, что, увлекаясь использованием нейросети как редактора, можно легко получить очень высокие % (свыше 50). Равно как и войти в первую зону, редактируя текст, созданный нейросетью. Но в целом такие эпизоды незначительны. В первую очередь потому, что здесь сильны трансформации. В первом случае коррекция по рекомендациям нейросети может создать текст с явными нейросетевыми паттернами. Во втором случае ручная коррекция нейросетевого текста меняет его стиль и паттерны, сближая с тем, который обычно генерирует человек.
Какой глобальный эффект дает это информация?
Весьма… ожидаемый.

От 30% до 50% всего массового контента оказывается т. н. «книгосодержащим продуктом», как метко заметил Василий Маханенко. Откуда взялась такая большая доля? Из статьи Якубовича и некоторых иных наблюдений/опытов. В целом, я бы предложил за этот ориентир держаться как за рабочую гипотезу, пока не появится полноценных, масштабных статистических выборок.
Беда ли это?
В краткосрочной перспективе — нет. Продажи растут. Книжным провайдерам от этого одна польза.
Однако…
В среднесрочной и долгосрочной перспективе это аукается весьма негативными последствиями. Дело в том, что доля «скупщиков краденого», то есть людей, которые читают украденные пиратами книги, очень высока (в среднем в 10 раз больше массива читателей-покупателей). И в целом через пиратские ресурсы доступ к книгам довольно прост. Из-за чего читатели скорее не платили авторами, а выплачивали пожертвования.
Модель в целом похожа на концерты бардов.
Их песни можно послушать бесплатно, но к ним на концерты ходят, покупая билеты, чтобы поддержать их и поучаствовать в живом общении, поглядеть на шоу, дать обратную связь и так далее.
Сохранение высокой доли нейросетевых текстов разрушает репутацию площадок и авторов. Даже тех авторов, которые не использует нейросети для генерации текста. Что может еще сильнее увеличить долю пиратов — ибо желающих платить за тексты, сгенерированные нейросетями, очень мало. Что комплексно ударит по всем авторам. В том числе и через рост ухода читателей в серую зону и в нормализацию идеи чтения текстов у пиратов.
Как в этой ситуации выживать авторам?
Работать через бренд, личную репутацию и устойчивую аудиторию. Да, можно «хайпануть» и попробовать поймать волну с помощью нейросетей. Но писатель — это работа вдолгую.
Можно в моменте попытаться «срубить бабла» за счет доступности легкого пути. Но если реагировать на ожидания читателей, то целевой аудитории под нейросетевые тексты практически нет.
И дело не в том, что их не читают.
Нет.

Люди не хотят в массе своей читать сгенерированное, из-за чего такие тексты приходится маскировать. То есть, по сути, идти на обман, на подлог.
Важно! Маскировка нейросетевых текстов под написанные живыми авторами — это признак обмана, а не спроса.
В этом плане ситуация с нейросетевыми текстами разительно отличается от ниши другого арта, особенно музыки и видео, где открыто созданные нейросетями композиции и клипы порой набирают бешеную популярность.
Почему так?
Кто знает? Я рискну предположить, что книга — это работа со смыслами. А песни и клипы — это исполнение этих смыслов, из-за чего лабильность восприятия выше.
Как ситуация будет развиваться дальше?
На коротком плече, я думаю, площадки будут выжидать и реагировать только на явные и/или вопиющие нарушения. Однако дальше им придется что-то делать под давлением общественного негодования. Чтобы не потерять аудиторию — не вызвать отток читателей. И, как мне кажется, та площадка, которая первой введет здравые меры по ограничению и фильтрации нейросетевого трафика, получит большой приток читателей с других платформ.
Битва меча и щита продолжается.
Наблюдаем.

Читателю плевать как зовут автора, живой он или исскуственный, читателя не волнуют его пол, возраст или интересы. Единственное что важно для читателя, что бы ему было инетерсно читать произведение. Если модели научатся писать не хуже живых людей, тем хуже для живых.
По поводу детекторов ИИ стоит отметить, что они ориентируются в основном на два показателя — предсказуемость текста и разнообразие стиля построения предложений. Дргуим словами хорошего, стабильного автора детектор легко определит в ИИ.