Бот или не бот -- вот в чем вопрос!

Нынешние пользователи Internet без особого удивления воспринимают требование доказать свою принадлежность к виду Homo Sapiens. К примеру, необходимым условием регистрации новых бесплатных почтовых ящиков или доступа к чат-серверам является безошибочный ввод в текстовое поле слова или цифры, демонстрируемых в виде графического изображения, подвергшегося разнообразным пространственным деформациям и зашумлению. Искажения, сбивающие с толку современные OCR-алгоритмы, но сравнительно легко "отфильтровываемые" зрительной системой человека, призваны защитить Internet-сообщество от злоупотреблений, связанных с применением ботов, т. е. программ, имитирующих реакции человека.

Среди наиболее опасных посягательств с использованием ботов выделяются следующие:

Рекламные материалы системы captcha-тестирования BaffleText, разработанной в компании PARC, гласят: "Многолетний опыт, накопленный в области программирования эффективных систем машинного зрения, позволяет нам столь же эффективно генерировать для этих систем неразрешимые задачи"

Gimpy -- "система противоботной обороны", используемая на портале Yahoo!

Captcha-тест как основа постмодернистского искусства: скрипт Патрика Свиесковского (Patrick Swieskowski, www.people.fas.harvard. edu/~swieskow/) генерирует бесконечную последовательность цветовых и смысловых сочетаний

1. Регистрация огромного количества бесплатных электронных почтовых ящиков, впоследствии задействованных для рассылки спама. Критическое обострение этой проблемы осенью 2000 г. побудило администрацию портала Yahoo! прибегнуть к помощи сотрудников университета Карнеги Мэллон (CMU) для разработки и внедрения технологии, получившей название Completely Automated Public Turing Test to Tell Computers and Humans Apart (Полностью автоматизированный публичный тест Тьюринга для различения компьютеров и людей). Сокращенная форма данного нарочито наукообразного словосочетания обогатила английскую лексику неологизмом captcha (созвучным просторечному gotcha!, в переводе значащему нечто вроде "ага, попался!").

Таким образом, captcha-тест призван отсекать боты, не представлять трудностей для человека, при этом его эффективность не должна определяться закрытостью исходного кода (который злоумышленники могут "открыть" методом реверсного инжиниринга или просто похитить).

Отметим, что последнее требование роднит алгоритмы captcha-тестирования с криптографическими.

2. Применение ботов для рассылки спама. Методы captcha-тестирования служат основой одной из самых эффективных на сегодняшний день технологий борьбы со спамом. По этой технологии вся входящая корреспонденция обычно фильтруется с помощью "белого списка", т. е. перечня авторизованных адресантов, чьи письма попадают в почтовый ящик пользователя беспрепятственно. Прочим же отправителям, послания от которых удерживаются во временном буфере, автоматически отсылаются сообщения с вежливым предложением пройти captcha-тест. Письмо адресанта, успешно справившегося с предъявленным ему тестом, перемещается из буфера в почтовый ящик пользователя, а адрес вносится в "белый список" (таким образом, любой новый партнер по переписке тестируется лишь один раз). Кроме того, всякая корреспонденция, отправляемая на неизвестный системе адрес, также вызывает автоматическое пополнение "белого списка" (ибо предполагается, что пользователь готов принять ответное послание). Наиболее известную из таких систем создала компания Spam Arrest. Между прочим, это название недавно стало предметом судебного разбирательства, инициированного американскими производителями тушенки. Так вот, основатели указанной компании утверждают, что единственный теоретически возможный способ преодоления предоставляемой ими защиты -- это организация в какой-либо из стран с очень дешевой рабочей силой "потогонного конвейера" с большим числом сотрудников, которые проходили бы captcha-тестирование от имени спаммеров. На мой взгляд, такой проект вполне возможно осуществить: отчего бы, учитывая продолжающееся расслоение стран по материальному достатку, не разместить такой конвейер, скажем... Впрочем, не будем о грустном! Посетители сайта www.spamarrest.com могут бесплатно опробовать данную систему в течение 30-дневного срока либо подписаться на платные услуги (от $19,95 за полугодие до $122,95 за пять лет для индивидуальных клиентов). Если бы администраторы подобных систем по доброй воле согласились обнародовать глобальный "черный список" отправителей, неспособных справиться с captcha-тестами (т. е., предположительно, спамеров), это позволило бы существенно повысить эффективность обычных почтовых фильтров.

3. Фальсификация результатов проводимых в Internet опросов общественного мнения. Один из известных случаев такого рода произошел в 1999 г. при попытке определить, в каком учебном заведении, по мнению посетителей популярного сайта www.slashdot.com, лучше всего преподаются компьютерные дисциплины. Для предотвращения махинаций администрация сайта ввела в скрипт запрет на многократное использование IP-адресов. Однако воспитанники CMU и Массачусетского технологического института (MIT), обуреваемые желанием во что бы то ни стало обеспечить победу своим alma-mater, запрограммировали "голосующих ботов", способных преодолеть это ограничение. Сорванное таким образом голосование превратилось в гонку противоборствующих ботов, к концу которой за MIT и CMU было подано соответственно 21156 и 21032 "голосов", тогда как рейтинги прочих участников не дотянули даже до тысячи. Горький опыт www.slashdot.com побудил программистов из Sparklit Networks и иных компаний, производящих современное ПО для организации электронных голосований, реализовывать в своих продуктах методы captcha-тестирования.

4. Несанкционированный сбор информации в Internet. Здесь в роли ботов-правонарушителей часто оказываются сканирующие модули поисковых систем, чьи создатели сознательно либо по халатности игнорируют признаки, указывающие на нежелание Web-мастеров подвергать документы автоматическому сканированию. Например, строка Disallow: /AQUARIUM, содержащаяся в файле с адресом www.lib.ru/robots.txt, свидетельствует о том, что Максим Мошков по какой-то причине хотел бы скрыть от поисковых серверов размещенные на его сайте тексты Гребенщикова. И если Yandex исполняет авторскую волю, в чем можно удостовериться, использовав строку запроса "Борис Гребенщиков. Сказки о Германии", то ссылки, выдаваемые Rambler, ведут прямиком в запретную директорию. Думается, для решения этой проблемы сгодятся самые простые методы captcha-тестирования: ведь поисковые боты слишком зависимы от вычислительных ресурсов, чтобы расходовать их на OCR.

Кроме того, данные вредоносные программы засоряют рекламными сообщениями чаты, перегружают серверы электронных аукционов и используются злоумышленниками для взлома систем безопасности методом случайного перебора паролей. "Рыская" по прилавкам Internet-магазинов в поисках самых низких цен, боты дестабилизируют процесс ценообразования, а также сдерживают развитие дешевых электронных торговых сайтов, организаторы которых пытаются извлекать прибыль не только от продаж, но и за счет рекламы в Сети.

От всех этих напастей помогают методы captcha-тестирования, и их коммерциализация является сегодня важным направлением IT-бизнеса, активно разрабатываемым такими компаниями, как Xerox, Vorras и Imulus. Впрочем, наибольшим авторитетом пользуются системы, выходящие из академической среды.

Коллеги профессора Мануэля Блума (Manuel Blum) из CMU тратят на создание систем captcha-тестирования примерно столько же усилий, сколько на боты, способные их же и "взламывать" (т. е. имитировать реакции человека, по меньшей мере, с 80%-ной точностью в течение 30 секунд при использовании ресурсов среднего офисного компьютера). Такой двунаправленный подход не только позволяет разработчикам средств безопасности на шаг опережать конкурентов-злоумышленников, но и стимулирует прогресс в области ИИ. В статье Грега Мори (Greg Mori) и Джитендры Малика (Jitendra Malik) из калифорнийского университета Беркли излагаются инновационные принципы построения OCR-системы, способной преодолеть защиту, обеспечиваемую популярной программой captcha-тестирования Gimpy. Мори и Малик считают, что разработанная ими технология имеет широкую область применения вплоть до автоматического распознавания военных целей.

Приходится признать, что защита от ботов, основанная на искажении алфавитно-цифровой информации и получившая сегодня наибольшее распространение, является в то же время и наиболее уязвимой. К счастью, существует множество других типов captcha-тестирования: пользователю, например, может быть предъявлен для распознавания фрагмент зашумленной и/или иным образом искаженной аудиозаписи, предложена какая-нибудь несложная логическая головоломка либо показан ряд изображений, связанных общим признаком, который нужно вербализовать. Общим недостатком таких методов является трудоемкость подготовки исходных материалов. Остроумная идея обхода этой трудности выдвинута Луисом фон Аном (Luis von Ahn) из CMU, создавшим увлекательную игру, участники которой должны за ограниченное время достичь согласия в словесном описании наибольшего количества предъявляемых изображений (неисчерпаемым источником которых служит Internet). Игроки анонимны и не имеют возможности общаться друг с другом. Каждая картинка анализируется разными участниками по несколько раз (во избежание многократного использования определений результаты предыдущих партий выводятся в виде "списка запрещенных слов"). Для посетителей сайта www.espgame.org целью игры является зарабатывание призовых очков, а для администраторов -- автоматическое формирование библиотеки классифицированных изображений, которая может служить для организации captcha-тестирования или построения ориентированной на такие картинки поисковой системы.

Помимо хакеров, естественными врагами систем защиты от ботов являются активисты всякого рода правозащитных организаций, считающих, что captcha-тесты дискриминируют пользователей с ослабленным зрением, слухом и/или интеллектом (утешением служит лишь то, что в программе поборников политкорректности отсутствует пока еще борьба за права ботов).

Долговременные перспективы систем captcha-тестирования выглядят, скажем прямо, нерадужно. Согласно прогнозам многих экспертов в области искусственного интеллекта, появление программы, способной справиться с классическим тестом Тьюринга, следует ожидать уже в первой половине нынешнего века. И когда отличить бот от человека в виртуальном пространстве станет принципиально невозможно, captcha-тестирование утратит всякий смысл. В этой ситуации сетевому сообществу остается уповать лишь на то, что вместе с "разумом" компьютеры обретут хотя бы крупицу чувства собственного достоинства, которая не позволит им заниматься рекламой "Виагры" и "курсов американского английского".

Интерпретация подобных изображений, не вызывающая трудностей даже у трехлетнего ребенка, долго еще будет оставаться неразрешимой задачей для компьютерного мозга. Перед демонстрацией картинки подвергаются трансформациям, иначе хакеры могут попытаться составить из них библиотеку и запрограммировать бота, распознающего изображения путем простого сопоставления