Как работают детекторы ИИ?

Оцени статью

Детекторы ИИ (также называемые детекторами письма ИИ или детекторами контента ИИ) — это инструменты, предназначенные для обнаружения того, когда текст был частично или полностью сгенерирован инструментами искусственного интеллекта (ИИ), такими как ChatGPT.

Детекторы ИИ могут использоваться для определения того, когда часть письма, вероятно, была создана ИИ. Это полезно, например, для преподавателей, которые хотят проверить, пишут ли их ученики самостоятельно, или для модераторов, пытающихся удалить поддельные обзоры продуктов и другой спам-контент.

Однако эти инструменты довольно новые и экспериментальные, и на данный момент они обычно считаются несколько ненадежными. Ниже мы объясним, как они работают, насколько они действительно надежны и как они используются.

Детекторы ИИ обычно основаны на языковых моделях, подобных тем, которые используются в инструментах письма ИИ, которые они пытаются обнаружить. Языковая модель, по сути, смотрит на ввод и спрашивает: «Это то, что я бы написал?» Если ответ «да», делается вывод, что текст, вероятно, сгенерирован искусственным интеллектом.

В частности, модели ищут в тексте две вещи: недоумение и разрыв . Чем ниже эти две переменные, тем больше вероятность того, что текст будет сгенерирован ИИ. Но что означают эти необычные термины?

недоумение

Недоумение — это мера того, насколько текст непредсказуем: насколько велика вероятность того, что он озадачит (смутит) среднего читателя (т. е. не будет иметь смысла или будет читаться неестественно).

Языковые модели ИИ нацелены на создание текстов с низким уровнем недоумения , которые с большей вероятностью будут понятны и плавно читаются, но при этом более предсказуемы.
Человеческое письмо, как правило, вызывает большее недоумение : более творческий выбор языка, но и больше опечаток.

Языковые модели работают, предсказывая, какое слово естественным образом будет следующим в предложении, и вставляя его. Например, в предложении «Я не мог заснуть последним…» есть более и менее правдоподобные продолжения, как показано в таблице ниже.

Продолжение примера	недоумение
Я не мог заснуть прошлой ночью.	Низкий: Вероятно, наиболее вероятное продолжение
Я не мог заснуть в прошлый раз, когда пил кофе вечером.	От низкого до среднего: менее вероятно, но имеет грамматический и логический смысл.
Я не мог заснуть прошлым летом много ночей из-за того, как жарко было в то время.	Среднее: предложение связное, но довольно необычно структурированное и многословное.
Я не мог заснуть в последний раз рад познакомиться с вами.	Высокий: грамматически неправильный и нелогичный

Низкое недоумение принимается за свидетельство того, что текст сгенерирован искусственным интеллектом.

Вспыльчивость

Вспыльчивость — это мера изменчивости структуры и длины предложения — что-то вроде растерянности, но на уровне предложений, а не слов:

Текст с небольшими изменениями в структуре предложения и длине предложения имеет низкую взрывоопасность .
Текст с большими вариациями имеет высокую взрывоопасность .

Текст ИИ имеет тенденцию быть менее «взрывным», чем человеческий текст. Поскольку языковые модели предсказывают наиболее вероятное слово, которое будет следующим, они, как правило, производят предложения средней длины (скажем, 10–20 слов) и с обычной структурой. Вот почему написание ИИ иногда может показаться монотонным.

Низкая пульсация указывает на то, что текст, скорее всего, сгенерирован искусственным интеллектом.

Возможная альтернатива: водяные знаки

OpenAI, компания, стоящая за ChatGPT, утверждает, что работает над системой «водяных знаков», в которой текст, сгенерированный инструментом, может быть снабжен невидимым водяным знаком, который затем может быть обнаружен другой системой, чтобы точно знать, что текст был сгенерирован искусственным интеллектом.

Однако эта система еще не разработана, и подробности того, как она может работать, неизвестны. Также неясно, останутся ли предложенные водяные знаки при редактировании сгенерированного текста. Так что, хотя это может быть многообещающим методом обнаружения ИИ в будущем, мы просто еще не знаем.

Насколько надежны детекторы ИИ?

По нашему опыту, детекторы ИИ обычно работают хорошо, особенно с длинными текстами, но могут легко выйти из строя, если вывод ИИ был предложен менее предсказуемым или был отредактирован или перефразирован после создания. А детекторы могут легко ошибочно идентифицировать текст, написанный человеком, как сгенерированный ИИ, если он соответствует критериям (низкий уровень недоумения и взрывоопасности).

Наше предварительное исследование показывает, что точность детекторов ИИ, как правило, составляет в среднем около 60%. Они дают полезное представление о том, насколько вероятно, что текст был сгенерирован ИИ, но мы советуем не рассматривать их как доказательства сами по себе. Поскольку языковые модели продолжают развиваться, вполне вероятно, что средствам обнаружения всегда придется состязаться, чтобы не отставать от них.

Хотя некоторые компании заявляют, что их детекторы ИИ очень точны, независимые обзоры редко подтверждают их заявления. Даже более уверенные в себе провайдеры обычно признают, что их инструменты нельзя использовать в качестве окончательного доказательства того, что текст сгенерирован искусственным интеллектом, и университеты пока не очень в них верят.

ПримечаниеТактика, которую люди могут использовать, чтобы сделать текст ИИ менее заметным, также может просто сделать текст очень подозрительным или неподходящим для его предполагаемой цели.

Например, вставка орфографических ошибок или нелогичного выбора слов в текст снизит вероятность того, что он будет помечен детектором ИИ. Но текст, полный орфографических ошибок и нелогичного выбора слов, не будет оценен так же хорошо, как академический текст.