Semantic Web

Тиму Бернерсу-Ли мы обязаны идеей, ставшей основой, пожалуй, самого выдающегося явления последнего столетия, сравнимого по значимости разве что с созданием печатного станка и средств связи, -- World Wide Web. Конечно, можно много говорить о WWW, употребляя разнообразные приемы, средства и стили (от популярно-бесшабашного до строго "обнаученного"), но сути изобретения Бернерса-Ли это не меняет -- гибрид простого протокола передачи данных, простой формы их представления и простого способа создания структуры (идея гиперссылок, разработанная до Бернерса-Ли Теодором Нельсоном) оказался чрезвычайно удачным. Правда, со временем не все оказалось таким уж и простым, не все ставившиеся в начале цели были достигнуты (в первую очередь в создании формы представления данных, четко разделяющей семантику (содержание) и вид документов), хотя это уже и не важно. Главное, что цель можно считать достигнутой -- люди (именно люди, а не машины) получили средство быстрого доступа к информации, представленной в удобном для восприятия человека виде. Последнее можно по праву считать выдающимся достижением если не в технологической области, то хотя бы в деле продолжения гуманистических традиций прошлого. И этим, безусловно, объясняется и взрывоподобный рост Web, и быстрое формирование интернациональной "Web-культуры" (какой бы она ни была...).

Казалось бы, Бернерс-Ли, основатель весьма влиятельного консорциума W3C, может спокойно почивать на лаврах, даже несмотря на полную утрату контроля за коммерциализацией Web и на неудачные попытки построения "броузерного" бизнеса (сегодня эта неудачность кажется, напротив, большой удачей -- "кто раньше ушел, тот остался целее"). Но положение обязывает, и от "отца-основателя" ждут чего-то новенького, столь же многообещающего, но при этом -- щадящего колоссальные капиталовложения, создававшие "реактивную тягу" стремительного взлета Web-технологий.

А надо ли?

Тим Бернерс-Ли

Вопреки уже сложившейся традиции заканчивать этим Самым Неприятным Вопросом очередную историю, мы попытаемся найти если не ответ на него (автор не взял бы на себя смелость в данной статье решить подобную задачу), то хотя бы обосновать свою точку зрения на проблемы Web сегодняшнего дня. Но для этого мы должны вкратце обсудить принципы макроархитектуры Web, позволяющие понять значимость обсуждаемой темы.

Итак, в основу архитектурных решений Web положены четыре основных принципа -- простота, модульность, толерантность и децентрализация. Наверное, в силу "очевидности" для принципа простоты найти вразумительное толкование, хоть на йоту отдаляющее от набившего оскомину KISS (Keep It Simple, Stupid), трудно -- этого не избежал даже Тим Бернерс-Ли в своей статье "Principles of Design". Мы также будем считать, что "простота очевидна", но к недоразумению с "невразумительной очевидностью" еще вернемся. Принцип модульности -- формирование структуры на основе выделения в системе относительно слабо связанных групп объектов, обладающих ограниченной функциональностью. Как говорит Бернерс-Ли: "Это всего лишь хорошая инженерия" (This is just good engineering). Для принципа толерантности есть подходящее объяснение в форме правила поведения -- "быть либеральным в требованиях, но консервативным в действиях". И наконец, децентрализация -- стремление избавить архитектуру от "архиважных точек" ("элементов ответственности"), выход которых из строя приводит к утрате работоспособности всей системы.

В той или иной степени современная WWW отвечает вышеназванным принципам, и, когда речь заходит об "иной степени", это автоматически означает, что мы говорим о самом неприятном -- о форматах данных. Так, в настоящее время в Web форматы данных определяются "типом MIME", нарушающим, например, принцип децентрализации. Тип MIME, по сути, является ссылкой на соответствующий раздел центрального репозитария IANA (Internet Assigned Numbers Authority). Непосредственно относящийся к теме "форматов" язык всех времен и народов HTML, претерпевая трансформации, вызванные жесткими требованиями реальности, в силу изначального принципа простоты подозрительно часто подталкивает к... нарушению этого же принципа -- скажем, сугубо структурные элементы повседневно и повсеместно используются в совсем не структурных целях (массово-индикативный случай -- таблицы, применяемые для визуального, а не семантического форматирования).

В общем, не вдаваясь в детали, можно говорить о том, что форматы данных -- это действительно серьезная проблема, которая обостряется "предназначенностью Web для человека" в случаях, когда получаемая посредством Web информация подлежит машинной обработке. Последнее -- факт, не требующий доказательств, но отлично подтверждаемый скудостью выбора инструментария, реализующего столь модные в недавнем прошлом механизмы "разведки данных" (data mining). Вы можете отыскать материалы сотен научных конференций, тысячи диссертаций, десятки километров постингов на тематических форумах по data mining и всего несколько реально работающих программ, которые, однако, в 90% случаев не подходят для решения вашей конкретной задачи или требуют столь дорогой адаптации, что намного проще обойтись вообще без специфической программной поддержки.

Можно ли радикально что-то изменить в области форматов представления данных? К сожалению, автору (и не только ему) не видится однозначно утвердительного (или отрицательного) ответа на этот вопрос. Понятно одно -- абсолютно невозможно создать формат "представления всего" и очень накладно поддерживать сотни и тысячи "частных форматов". Эти соображения наводят на мысль о том, что в "ориентированном на человека" Web следует придерживаться уже упомянутого принципа толерантности, консервативность которого совершенно не обязывает к каким-либо переменам. А как быть в "машинном измерении" Web (т. е. в Web -- поставщике информации для машинной обработки) -- никто не знает.

Семантическая Web

Реформа Web, над которой трудится сегодня Тим Бернерс-Ли, своей целью ставит создание надстройки над уже имеющейся инфраструктурой, добавляющей к слову Web определение "семантическая" (Semantic Web). Надо сказать, что не очень удачный выбор названия, наводящий на мысль о "синтаксическом характере" Всемирной Паутины, сыграл злую шутку с новым детищем Бернерса-Ли: какие только глупости не писались года два назад об этой разработке в околокомпьютерной прессе. Все эти "глобальные искусственные интеллекты", "машинные разумы планетарного масштаба" и прочие заимствованные из pulp fiction фантастики эпитеты, по-видимому, вызвали потребность в создании специального раздела FAQ (Часто Задаваемых Вопросов) -- "Чем НЕ является Semantic Web?". И ответ будет кратким -- "семантическая Web" не является системой искусственного интеллекта, способной, например, порождать доказательства теорем, напротив, -- это инфраструктура, обеспечивающая решение ряда точно поставленных задач за счет выполнения пусть обширного, но фиксированного перечня точно определенных действий над данными точно определенной структуры. Трижды повторенное и выделенное слово "точно" означает жесткость требований к детерминированности и однозначности -- данное радикальное отличие и отдаляет Semantic Web от систем искусственного интеллекта, несмотря на схожесть (или даже заимствование) ряда механизмов. О последних следует заметить -- именно "механика" в нашем случае способна внести ясность.

Представление знаний (knowledge representation) -- область, некогда бывшая "передовой IT-индустрии". Впрочем, пора ожидания побед на этой передовой давным-давно завершилась, передовая давно трансформировалась в линию обороны в затяжной войне с массой проблем, а в последние годы, похоже, и сама эта война перестала кого-либо сильно интересовать. По мнению Бернерса-Ли, описанная ситуация аналогична истории с гиперссылками, которые полноценно "заработали" только после глобализации идеи гипертекста за счет развития Web. Аналогия -- вещь опасная, и все же... "В исследованиях представления знаний был смысл, но практическое использование результатов этой работы ограничивалось малыми масштабами решаемых задач... Semantic Web сделает в процессе глобализации с представлением знаний то же самое, что сделала Web с гипертекстом. Мы устраним централизованные концепции абсолютной истинности, полноты системы знаний и выводимости и посмотрим, что мы можем сделать с неполной базой знаний" (перевод не дословный). Бросающееся при этом в глаза несоответствие между ответом на самый часто задаваемый вопрос (точность, точность и еще раз точность) и предупреждением о неполноте базы знаний автор оставляет для раздумий читателю. Мы же сконцентрируемся на главном механизме Semantic Web -- представлении знаний, скрытом за синтаксической и семантической разметкой документа. В этом, собственно, и вся соль реформы Web -- "имплантация" скрытых, невидимых для человека знаний в документ позволяет создать и более эффективные способы навигации, и реализовать полностью потенциал поисковых машин, и много чего еще. Естественно, как только появляются слоганы типа "реализовать полностью потенциал", начинается "опасная зона", когда можно легко заблудиться в красноречивых эпитетах, поэтому здесь мы прибегнем для пояснения не к туманной и сомнительной аналогии, а ко вполне реальному примеру. Так, если мы попробуем в существующей Web с помощью поисковой машины найти ссылки на книги о творчестве, скажем, Ричарда Баха, то столкнемся с самыми обычными проблемами сегодняшнего поиска -- или с потребностью вторичной фильтрации полученного при первом запросе результата (если критерий поиска задан слишком расплывчато, например просто "Ричард Бах"), или с поразительной неполнотой результата (критерий поиска чрезмерно точен -- строка "книга о творчестве Ричарда Баха"). В последнем случае из-за того что поисковые машины основаны на синтаксических, а не семантических принципах, будут отвергнуты самые разнообразные варианты, например "Бах Ричард. Творчество". Если же страницы в Web содержат избыточную семантическую информацию (т. е., по сути, являются элементами базы знаний), поиск будет, вероятнее всего, исключительно эффективен. Механизм описания такой избыточной информации -- язык Semantic Web под названием RDF (Resource Description Framework) -- очень близок к механизму фреймов и идеям представления знаний на основе ER-моделирования (Entity-Relationship; о фреймах мы уже некогда говорили, itc.ua/article. phtml?ID=4634), только здесь в качестве описателя отношений между двумя сущностями (entity) используется Универсальный Идентификатор Ресурса (URI, фундаментальное понятие Web, детально специфицированное меморандумом RFC 2396). По мнению самого Бернерса-Ли, это отличие, при учете "свободы формирования знаний" (принцип Web -- "каждый может говорить что хочет о чем хочет"), и является элементом глобализации, обещающей новый технологический взрыв.

Оставшаяся без рассмотрения "деталь" фреймовой модели (entity, или "сущность") в Semantic Web может содержать как семантическую информацию об "ориентированной на человека" части документа (например, автор, название, описание и т. д.), так и чистые метаданные -- о связанных с документом ресурсах и сервисах (которые, естественно, могут представляться теми же URI). Для того чтобы избежать потенциальной опасности возникновения необъятного количества "семантических элементов, лишенных семантики" (характерная проблема метаязыков, дающих свободу определения имен для элементов некоторой структуры, но выводящих за пределы метаязыка решение вопроса сопоставления этих имен и реальной семантики), в рамках Semantic Web предусмотрены словари метаданных -- "онтологии" (по сути, это иерархические структуры, содержащие относящиеся к предметной области сущности и связи между ними). Онтологии посредством "карт" (maps, фактически -- "междисциплинарных" отношений) образуют информационную среду, облегчающую труд создателя документа и поддерживающую программные системы, использующие документ, -- в первом случае они являются справочником по "языку семантической разметки", во втором -- базой данных, на основании которой проводится разбор документа. "Бархатность" всем этим поистине революционным трансформациям языка разметки придает щадящий синтаксис, основанный на расширениях неотображаемого тэга, применяющегося в заголовках HTML, -- <meta>.

Итак, подводя итоги краткому знакомству, остается только указать перечень задействованных для реализации идей Semantic Web технологий и фундаментальных понятий. Базисными здесь приняты кодировка Unicode и Универсальный Идентификатор Ресурсов URI. Второй уровень абстракции -- вездесущий XML, на третьем уровне -- созданный на основе XML язык RDF, затем следует уровень "онтологий" и "карт".

Теперь кратко и образно представим суть всего этого великолепия: Semantic Web формирует отдельное подпространство инфопространства сегодняшней Паутины, сплетенное из нитей гиперссылок между документами, содержащее собственную, избыточную Сеть, образованную гиперссылками между скрытыми в документах "знаниями". Для чего можно применить "второе измерение", кроме очевидной сегодня задачи совершенствования механизмов поиска? Да для чего угодно. По мнению Бернерса-Ли, была бы возможность, а применения ей найдутся...

Иллюзии и реальность

О Semantic Web можно найти массу опубликованных в Web материалов, характеризующихся общим тоном подачи в диапазоне от "бодро" до "восторженно". И это настораживает. Увы, опыт становления Web показывает, что "бурные аплодисменты, переходящие в овации" лучше всего принимать "после того", а не "до того" или "вместо того". Реальная Web сегодня, мягко говоря, несколько отличается от предполагаемой идиллической модели инфопространства Semantic Web -- Паутина очень быстро прошла стадии роста и коммерциализации. Кризис доткомов показал, что утилитарное отношение к Web-составляющей в традиционном бизнесе вполне разумно и пора истерично больших бюджетов на "интернетизацию" закончилась. Для массового пользователя период лихорадочного наслаждения прелестями Web также подходит к концу: об этом свидетельствует статистика еще конца позапрошлого года (50% времени онлайн отдается американскими пользователями на посещение всего 14 сайтов, itc.ua/8569). Соответственно задача поиска по сложным критериям если не утрачивает актуальность, то становится нечастой, и для ее решения вполне хватает возможностей, предоставляемых существующими поисковыми машинами. Это та часть айсберга скепсиса, которая видна над водой. Менее заметны скрытые проблемы Semantic Web, хотя на самом деле они весьма очевидны, если учесть опыт, полученный в неравной борьбе за "искусственный интеллект". Так, использование словарей-онтологий, безусловно, упрощает жизнь создателю контента Smart Web, но и содержит "новую" трудность -- если словарь обширен, на основе каких формальных критериев некоторый, предназначенный для человека, элемент документа лучше, например, охарактеризовать понятием A, чем понятием B? Такая задача (идентификации) далеко не проста и никакого общего решения не имеет. Значит, или онтологии со временем будут сокращаться до перечня абсолютно тривиальных понятий (что, в общем, бессмысленно), или же выдаваемый обновленными поисковыми машинами результат будет ничуть не лучше, чем сегодня.

Но главный виновник скепсиса, естественно, -- финансовый вопрос. Для создания контента Semantic Web нужен будет какой-никакой, а инструментарий, Web-дизайнерам придется осваивать новые языки, средства, технологии. Провайдерам -- развертывать новые сервисы. Все это стоит денег, а в масштабах Web (фактически в планетарных масштабах) -- астрономических денег. Готов ли сегодня бизнес инвестировать эти средства в Semantic Web или бархатная революция будет еще и очень долгой революцией -- покажет время.

Стратегія охолодження ЦОД для епохи AI