`

СПЕЦИАЛЬНЫЕ
ПАРТНЕРЫ
ПРОЕКТА

Архив номеров

Как изменилось финансирование ИТ-направления в вашей организации?

Best CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

Цифровые мельницы

0 
 
КГБ и не снилось

Более 3500 служащих корпорации ChoicePoint и ее невероятная по своим масштабам информационная система стоят на страже всеобщего порядка. Один из сервисов под названием Auto TrackXP появился в списке двадцати самых крупных сайтов мира по рейтингу BrightPlanet. Эти "теневые" ресурсы не индексируются обычными поисковыми службами, поскольку сами по себе являются аналогичными сервисами со своими правилами написания запросов и автоматической генерацией страниц-ответов. Выражаясь более привычным языком, Auto TrackXP представляет собой гигантскую БД объемом 30 TB, уступающую в размерах только архивам NASA, Океанографического и Климатического центров. Впрочем, Auto TrackXP -- это лишь "уголок" колоссальной информационной сети, охватившей практически все аспекты гражданской жизни США.

Что такое Auto TrackXP? Со страниц сайта вам улыбается милая девушка, а текст обещает "только по имени и фамилии" рассказать вам об этом человеке все: его адрес, водительские права, недвижимость, финансовые дела и зарегистрированные взаимоотношения с любыми коммерческими и общественными организациями. База данных системы позволяет локализовать любого индивидуума, как только он совершит неосторожный шаг, поступив на работу или арендовав квартиру. Это помогло разыскать 641 украденного и убежавшего из дому ребенка с помощью специальной оперативной системы ADAM.

Однако не только организации вроде One Thousand Children подписываются на услуги сервиса, среди его клиентов частные детективы, службы безопасности корпораций и даже правительство в лице ФБР. У многих это вызывает беспокойство. "Они работают как универсам для ФБР, иммиграционных служб и других правительственных структур, пытающихся собирать информацию о гражданах с помощью номера социального страхования, -- пишет один из подписчиков онлайнового журнала Declan McCullagh's Politech. -- Это напоминает мне о сервисе, который организовала IBM для Гитлера, упростив поиск евреев с помощью новейших технологий того времени. Теперь наше правительство платит за услуги, которые оно само не в состоянии выполнять, превращая номер социального страхования в универсальный идентификатор".

Что же может ChoicePoint? Многое. Чтобы проверить кандидата на вакансию, компания может подписаться на услуги ProVerify. Здесь содержится информация о профессиональном уровне и лицензиях большинства граждан США самых различных специальностей: пилотов, докторов и даже медсестер. Другая служба, названная ProSure, на основе огромной базы данных и алгоритма, использующего такие факторы, как история и время последнего применения номера социального страхования, дает оценку соответствия личности предъявленным документам. Чтобы определить, не завладел ли человек чужими сведениями или документами умершего, организован сервис ProCheck, позволяющий сопоставить информацию из различных источников и государственных каталогов. "Борнам" не избежать "идентификации". С помощью технологий ChoicePoint вашего потенциального служащего можно подвергнуть самому настоящему кибернетическому перекрестному допросу (здесь его называют безобидным словом "quiz", или "викторина"): подключив свой ПК к системе ProID, вы превращаете его в удаленный терминал, посредством которого компьютер проведет "экзекуцию". Вопросы и варианты ответов составляются с учетом обширных сведений о человеке, накопленных в базах данных корпорации, и ставят своей целью сбить с толку фальсификатора, заставить его запутаться в показаниях.

Даже в ситуациях, когда невозможно обойтись без снятия отпечатков пальцев (легальный повод сделать это -- найм сотрудников в организациях, обязанных в соответствии с законом снимать отпечатки у всех своих служащих), ChoicePoint имеет и биометрические сервисы Employee and Applicant Fingerprint Solution (EAFS) -- программно-аппаратный комплекс для снятия, передачи, обработки и хранения отпечатков пальцев. И это еще не все. TestProfiles.com -- часть CP Online -- содержит личные характеристики и сведения о компетентности граждан США.

Зная столь многое о столь многих, трудно удержаться от соблазна заняться "сетевым маркетингом" и рассылкой точно "направленного" спама. А стоит ли? Действительно, ChoicePoint DirectLink -- хороший пример того, как это сделать. Служба организует маркетинговые компании "под ключ".

Для частных любителей составления "досье" ChoicePoint предлагает более скромный, но не менее любопытный набор сервисов (www.choicetrust.com). Подозрительные пациенты с помощью Doctor Check имеют возможность самостоятельно выбрать или проверить квалификацию врачей 40 различных специализаций. Отчет от C.L.U.E. Personal Property поможет понять, почему страховая компания отказывается выдавать вам полис после того, как вы в пятый раз за неделю попали под колеса автомобиля.

В отличие от нас, взирающих на ситуацию свысока, американские граждане испытывают серьезный шок, обнаруживая существование компаний наподобие ChoicePoint. К сожалению, любая компьютерная система является сегодня потенциальным орудием манипуляций и источником невероятных ошибок. Ночным кошмаром обернулась идея довериться данным ChoicePoint во время последних выборов Президента США. Штат Флорида подписал с корпорацией контракт на 4 млн. долл., делегировав ей функции отслеживания избирателей. Задача заключалась в исключении из списков людей, которые не имеют права голосовать (бывших преступников). Когда один из наблюдателей, Линда Хауэлл (Linda Howell), бросила взгляд на список, ее пробрала дрожь -- там значилось ее имя. Списки по округу Лион содержали имена 700 человек, хотя на самом деле бывших преступников насчитывалось всего 34. На эти списки давно жаловались госслужащие, но никто не обращал внимания на несоответствия вроде информации о 54%-ном доминировании афроамериканцев среди избирателей (на самом деле, едва 11%). Проблему не удавалось урегулировать вплоть до выборов, и даже имели место отдельные публичные инциденты вроде отказа в праве голосовать семье пастора Вилли Вайтинга (Willy Whiting).

Иногда ChoicePoint удавалось уличить и в невероятной хитрости: например, корпорация умудрилась извлекать сведения об истечении сроков страховки исходя из анализа запросов, которые делали страховые агенты, и продавала эти "маркетинговые" списки конкурирующим страховым компаниям. Разразился скандал, и порочной практике был положен конец. Более того, весной позапрошлого года ChoicePoint вместе с системами FBI Carnivores и Echelon удостоилась сомнительной награды Big Brother, спонсируемой Privacy International. То ли еще будет?


Весь Internet в кармане

Мы хорошо представляем себе библиотечный архив, его овеществленное олицетворение -- башня Центральной научной библиотеки им. Вернадского. Более или менее понятны телевизионные и киноархивы -- это полки, заставленные кассетами и бобинами. Но чтобы заархивировать весь Web? Учитывая его интернациональную и глобальную природу, хранилище, способное вместить миллионы страниц и файлов, трудно даже вообразить. Тем не менее такой архив существует, и называется он очень просто -- Internet Archive. В 1996 г. его начала создавать компания Alexa, чье клиентское программное обеспечение зачастую ошибочно принимают за spyware. Дело в том, что Alexa toolbar интегрирована как в Netscape Navigator, так и Internet Explorer. Чтобы раз и навсегда разъяснить обеспокоенным серферам суть модуля, который нередко идентифицируется специализированными утилитами как "шпионский", в FAQ на сайте компании говорится, что за пунктом меню Tools/Show related links скрывается именно ее технология поиска в Web. Правда, по сути своей она и есть "шпионская", просто приносит пользу не маркетологам, увлеченным прямыми рассылками рекламы, а самим пользователям.

К 2003 г. размеры базы данных Alexa достигли отметки в 200 TB, так что в таблице "скрытых" ресурсов Web, составленной BrightPlanet и датированной 2000 г., система вместо 5-го заняла бы почетное 3-е место. Впрочем, неизвестен прогресс других участников списка. Что касается Internet Archive, то новые страницы попадают в хранилище со скоростью 250 GB в день, или около 3 MB в секунду.

Накопив столько полезной информации, грех ее не использовать для повышения качества поиска в Internet: модули, встроенные в Netscape Navigator и MS Internet Explorer, служат как раз именно этой цели. Программа отслеживает движение серферов по WWW, отмечает страницы, которые они посещают, а также куда они с них переходят. Кроме того, технологии Alexa осуществляют clustering, или формирование пулов адресов, указывающих на документы родственной тематики. В некотором смысле все это очень напоминает методики, положенные в основу Google. Недаром в мае прошлого года фирма начала сотрудничество с вышеупомянутым поисковым узлом. Кстати, если функциональность команды Show related links из меню IE кажется вам недостаточной, посетите сайт Alexa и загрузите бесплатную версию Alexa toolbar, которая откроет вам больше возможностей. Среди них -- Wayback Machine, или машина времени.

"Машина времени" -- особый сервис, открывающий доступ к временным срезам Web. Хотите узнать, что думал Билл Гейтс о тонких клиентах пять лет назад, и сравнить это с его ключевым докладом на COMDEX по поводу презентации SmartDisplay? Набрав в строке поиска требуемый URL, пользователь получает набор ссылок, указывающих на копии Web-страницы, сделанные в разное время. Чтобы выявить различия между любыми двумя "срезами", обратитесь к функции DocuComp. Нажав на любую из ссылок на "древнем" сайте, вы попадете на архивную копию этого URL, наиболее близкую по дате к "времени", в котором вы находитесь. К сожалению, стандартный текстовый поиск в этой "лавке древностей" невозможен. Одно из наиболее интересных практических применений технологии -- восстановление оригинального содержимого документов по ссылкам, генерирующим ошибку 404: "страница не найдена".

Для Web-мастеров существует свой набор сервисов, в основном, они касаются демонстрационных модулей, показывающих на страницах сайта уровень его популярности и объемы привлекаемого трафика (Certified Site Stats, Certified Traffic Rank, Certified Traffic Graph, Certified Traffic Comparison). В случае, если вы поддерживаете собственный поисковый узел, то его несложно улучшить с помощью XML Data Feed -- технологии формирования запросов к БД Alexa. Оплата производится в расчете на количество запросов. В крайнем случае, компания предлагает купить у них накопленные архивы информации (2,5 млрд. URL) и одним махом опередить Google. А пропагандируя среди своих посетителей Alexa toolbar, можно даже немного заработать. Получая информацию от 10 млн. инсталлированных модулей, компания в состоянии дать оценку предпочтениям серферов и публикует обширные списки популярности, насчитывающие десятки тысяч узлов. За $1000 можно купить экземпляр Книги рекордов Гиннеса XXI века, содержащей список из 10 тыс. позиций.

В Internet Archive хранятся не только Web-страницы, но и видеозаписи. Отсюда можно загрузить все выпуски самой лучшей ТВ-программы об информационных технологиях Computer Chronicles, документальные фильмы и даже ролики--лауреаты конференции SIGGRAPH. Также существует раздел аудиозаписей (в частности, живых концертов -- Live Music Archive) и текстов (благодаря связям с проектами вроде Million Book Project и Project Guttenberg). Открыт и Software & CD ROMs Archive, в котором собраны авторские мультимедийные работы, созданные с помощью ПО Macromedia и QuickTime. Ожидается, что коллекция будет насчитывать около 20 тыс. компакт-дисков.

Все выглядит чудесно, но будущее Internet Archive находится под угрозой. Разрастающийся "темный", или "невидимый", Web грозит серьезными пробелами в архиве. Все увеличивающееся количество сайтов, эксплуатирующих различные технологии управления контентом с применением баз данных, приведет к тому, что нынешние подходы к индексированию Internet окажутся неэффективными. Как сумеет справиться с этим Alexa, пока никто не знает.


Informedia

Что будет, если не чистить домашнюю видеотеку? Видеохранилище Informedia. В институте Карнеги Меллона (Carnegie Mellon) разрабатывается проект крупнейшего хранилища видеоинформации в Internet. Как написано на титульной странице архива, система создана для благородной цели -- научить компьютер распознавать образы и понимать речевые аудиозаписи. Наверное, библиотекарям Informedia надоело вручную сортировать более терабайта видеоинформации, и они решили: необходим "технический прогресс", чтобы "труд физический исчез". В результате получилась система Informedia-II, которая хранит 1500 часов ТВ-новостей VHS-качества и обеспечивает не только автоматическую запись и упорядочение текущих новостных программ, но и позволяет проводить "полнотекстовый" поиск в архиве. Что значит "полнотекстовый", возмутится придирчивый читатель? Это означает возможность искать ролики по тексту, который произносят дикторы, или по заголовкам и комментариям, попадающим на экран в виде теглайнов.

Система в состоянии делать подборки материалов по запросу, отыскивая все видеоролики схожей тематики, датированные требуемым периодом времени. Informedia-II также анализирует запросы, сделанные ранее, и на основе взаимодействия с пользователями определяет кластеры взаимосвязанных видеофрагментов, что помогает впоследствии генерировать тематические конспекты, или "summary". Изюминкой является новая методика составления видеоаннотаций. С ее помощью удается без использования ускоренного воспроизведения уложить основную информацию в отрывок, составляющий 5--20% продолжительности полного ролика.

Informedia появилась в 1996 г. как плод сотрудничества National Science Foundation, DARPA и NASA в рамках инициативы Digital Library Initiative. С тех пор к проекту в роли спонсоров присоединились многие компании, в том числе Microsoft, Intel, CNN, Boeing и даже Visa. Цифровая видеобиблиотека включает в себя большое количество утилитарных технологий, позволивших добиться столь значительного прогресса в распознавании образов и речи.

В рамках VACE (Video Analysis and Content Extraction) исследователи занимаются упорядочением и усовершенствованием системы автоматической записи новостей, разложением видеороликов на составляющие его "метаданные" (изображение, аудио, распознавание текста, места съемки, человеческих лиц и автомобилей). Поиск можно проводить по каждому из этих элементов.

Авторы проекта CCRHE (Capturing Coordinating and Remembering Human Experience) сосредоточились на сложной задаче упорядочения больших потоков хаотической видеоинформации. В ходе экспериментов участники группы снабжаются персональными видеокамерами, фиксирующими происходящие события с различных точек зрения. Разобраться с большими объемами видеоданных и разложить их по временной шкале так, чтобы ролики не дублировали, а дополняли друг друга -- вот основная цель CCHRE. Предполагается, что в ближайшем будущем созданная система найдет применение в медицине (изучение поведения групп пожилых людей -- подпроект CareMedia) и анализе критических ситуаций (сбор видеосвидетельств во время экстренных ситуаций: терактов или естественных катастроф).

Более пикантное предназначение у проекта Aquaint: результатом исследований должна стать программа, позволяющая сопоставлять сведения, полученные из разных источников видеоинформации (различных телестанций). Дело в том, что существующие методы автоматического извлечения данных из видео- и аудиороликов несовершенны. Часто транскрипция (текстовая запись), полученная как с помощью OCR-методики, так и с применением технологий распознавания голоса, изобилует ошибками и неверными интерпретациями. Консолидировав информацию из нескольких источников, можно снизить количество ошибок, перепроверяя и дополняя транскрипции. В первую очередь Aquaint будет востребована службами разведки, которые сегодня вынуждены использовать людей-экспертов для ассистирования компьютерным системам.

Что касается проекта Experience-On-Demand, то он уже завершен, и в его рамках была разработана технология, очень похожая на CCHRE, но с небольшим отличием: все видеозаписи здесь снабжаются позиционными метками, текущими координатами, полученными от GPS-датчиков. Таким образом, можно даже автоматически "склеивать" круговые панорамы из неупорядоченных видеоданных. Очевидно, что Experience-On-Demand ориентирован на большие расстояния и естественную среду. Одной из возможных областей использования системы станет анализ армейских маневров.

Благодаря инициативе Multilingual Informedia Project удалось создать прототип многоязыкового варианта системы Informedia. Для показательных экспериментов выбрали сербскохорватский язык, на котором осуществлялось распознавание речи, а текстовые запросы на английском переводились по методу, обеспечивающему высокий уровень адекватности исходного и конечного текстов (semantic-expansion translation). Формально поддерживаются и другие языки: немецкий, французский, итальянский, испанский, японский и корейский.

На этом обзор заканчивается по банальнейшей из причин -- лимитированности журнальных площадей. В текст попали описания трех различных по своей сути "скрытых" узлов: необычный, полезный и технологически-революционный. Что ж, это неплохое свидетельство разнообразия "невидимого" Web.
0 
 

Напечатать Отправить другу

Читайте также

 
 
IDC
Реклама

  •  Home  •  Рынок  •  ИТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Сети  •  Безопасность  •  Наука  •  IoT