Интерфейсы: на пути к окончательному решению

13 февраль, 2011 - 17:11Павел Молодчик

Прежде всего, позвольте воспользоваться случаем и отрекомендовать забавный сервис от отечественного производителя: Cachescope.

Сопроводительный текст гласит:
"Гугл выдал ссылку на измененную или недоступную страницу? Хорошо, если имеется доступ к кэшу поисковой системы. Если же такого доступа нет, то вам не повезло: в этом случае доступным оказывается лишь крошечный фрагмент искомого текста, отображаемый в окне с результатами поиска. Впрочем, Сachescope шлёт вам луч надежды! Испробуйте наш сервис, реализующий алгоритмы глубокого зондирования кэша Google."

Под алгоритмом глубокого зондирования понимается, очевидно, рекурсивный скрипт, использующий фрагменты найденного текста в качестве строки для нового поискового запроса и так далее.

К примеру, часть окна с выдачей результатов поиска может выглядеть так:


Интерфейсы на пути к окончательному решению


Обратите внимание на отсутствие ссылки "Cached", обычно завершающей текстовые фрагменты (вероятно, вызванное наличием в HTML-коде проиндексированной страницы строки <META HTTP-EQUIV="CACHE-CONTROL" CONTENT="NO-CACHE">, указывающей на нежелание администрации questia.com мириться с дуплицированием своей информации на серверах поисковых служб).

Введя в текстовые поля Cachescope "After having learned that" и "www.questia.com", вы получите более полный фрагмент текста, а имено: "After having learned that she had just given birth to a baby, the herder's family followed the woman and climbed the mountain. When they were about to enter the cave, a crow flew out of the opening and a wolf came running out. "Surely . the crow has pecked out the child's eyes and the wolf has eaten it," they said, and went to the bottom of the cave. There they discovered the baby with a drop of milk on his lips as if he had just drunk its mother's milk. His eyes were wide open and it seemed as if he had a full stomach. This child who had been cared for by a wolf and a crow was the Lama Jiambel Jongdui, who was famous in the area." (естественно, в силу разрушения содержимого кеша Google по мере его устаревания, результаты ваших экспериментов с данным поисковым запросом могут оказаться иными).


К упомянутому в сопроводительном тексте сочетанию обстоятельств, делающих сервис полезным (и без того многочисленных), очевидно, следует добавить еще одно: "на обозримых просторах интернета нет иных страниц, позволяющих получить искомый текст безо всяких ухищрений". Т.о., Cachescope относится к сервисам, востребуемым в столь редкостных ситуациях, что, возможно, вам он и вовсе  никогда не понадобится. И все же согласитесь: в случае, если он вам все же понадобится, лучше, чтобы ссылка на него была под рукой (если в вашем дереве закладок имеется фолдер с названием вроде "exotic surfhacks", то там ей - самое место).

Еще один инструмент нетрадиционного обращения с текстовыми данными Google организован пару месяцев назад самой Google при участии Гарвардского Университета: насколько полезен проект Books Ngram Viewer - трудно сказать, но затягивает он не меньше "тетриса". Он представляет собой нечто вроде экстраполяции сервиса Google Trends www.google.com/trends в область печатных изданий и позволяет строить графики изменения относительной частоты упоминания интересующих пользователя слов и словосочетаний с течением времени, начиная чуть ли не с зари книгопечатания. Поиск ведется в текстах на англ., нем., фр., исп., кит., русском и иврите, хранимых в виртуальном книгохранилище Google Books.

Точнее сказать, не в самих этих текстах, а в списках энграмм, полученных в результате их преобразования. На арго разработчиков энграмма это просто-напросто словосочетание, состоящее из энного количества слов (напр., "Ленин" - монограмма, "Компьютерное Обозрение" - биграмма, и т.д.).

Желающие поэкспериментировать со списками энграмм самостоятельно, вольны их скачать в форме множества обычных текстовых файлов, строки которых отформатированы следующим образом:

энграмма TAB год TAB количество_упоминаний TAB количество_страниц TAB количество_томов

Вот выдержка из перечня русских 5-грамм (как видите, знаки препинания считаются в энграммах отдельными словами):

...
. « Теперь мне все    1950    1    1    1
. « Теперь мне все    1951    3    3    3
...
? Какой угрюмый дурак станет    1989    1    1    1
? Какой угрюмый дурак станет    1990    2    2    2
? Какой угрюмый дурак станет    1993    1    1    1
? Какой угрюмый дурак станет    1995    1    1    1
? Какой угрюмый дурак станет    1997    1    1    1
? Карамзин ? но Карамзин    1949    2    2    2
? Карамзин ? но Карамзин    1950    3    3    3
...
в жизни нашего государства и    1999    1    1    1
в жизни нашего государства и    2000    5    5    5
в жизни нашего государства и    2001    1    1    1
в жизни нашего государства и    2004    2    2    2
...
— въезжает в город он    1924    1    1    1
— въезжает в город он    1937    1    1    1
— въезжает в город он    1939    1    1    1
— въезжает в город он    1940    3    3    3
...

Имейте ввиду, что общий размер текстовых файлов в разархивированном виде составляет по моим поверхностным оценкам несколько сот гигабайт.

Важный вопрос, стоящий перед всяким пользователем сервиса касается степени зависимости формы наблюдаемых графиков с одной стороны от изменений, происходящими с объективной актуальностью описываемых поисковой строкой понятий, с другой - от конъюнктурно-политических и прочих субъективных факторов, а с третьей стороны - от изменений, происходящих с языком. Конечно, в этих явлениях много общего и границы меж ними размыты, однако, путать их нельзя. К примеру, широкие скачки в графике употребления слова "шизофрения" в течение XX в. никак не связаны с распространенностью этого заболевания (которая, как говорят медики, составляет на редкость стабильную константу). Скорее всего, с отношением общества к шизофреникам и продуктивности психиатров, специализирующихся на изучении шизофрении у этих скачков тоже связи немного. Скорее всего, эти скачки гл. обр. отражают распространенность практики обиходного использования слова "шизофрения" (напр., в шутливом или ругательном смысле).

Эволюция языка представляется принципиально новым фактором, непривычным для пользователей традиционных поисковых сервисов, доселе имевших дело с электронными публикациями, возраст которых по лингвоисторическим меркам покамест пренебрежимо мал. Можно предположить, что в ходе предстоящего поисковым сервисам развития им помимо привычых функций межъязыкового перевода придется обзавестись функцией перевода с современого русского на русский 100-летней давности, позуоляющей приводить поисковые строки в соответствиии стандартам начала ХХ в. и т.о. улучшить качество текстового поиска в тогдашних документах.

Поп-блоггеры окрестили построитель графиков энграммоумотребления инструментом исследования "периода полураспада звезд", - т.е., характера флуктуаций интенсивности общественного внимания, уделяемого знаменитостям. Как видно из этого примера, звезды мерцают очень по-разному. Интересно сравнивать интенсивность внимания, уделяемого "звездам" современниками и потомками: превалирование второго показателя, вероятно, указывает на талант, опережающий время.

Примечательно, что графики популярности большинства американских "звезд" (из пришедших мне на ум), - да и многих вполне обыденных понятий, - характеризуются заметным спадом в области конца 1950-х - начала 1960 гг. Похоже, что в это время американцам было не до развлечений, и их обычные интересы вытеснялись из СМИ какими-то другими заботами. Какими же? Одна из них была обнаружена мною по прошествии примерно часа неудачных экспериментов (как же я раньше не догадался?!); буду признателен читателям за другие комментарии к странному "провалу 1960-го года".

В заключение прошу взглянуть на график, собственно говоря, побудивший меня к написанию этого поста.

Интерфейсы на пути к окончательному решению

Он свидетельствует о том, что в сравнении с 2003 г. частота упоминания слова "interface" упала почти вдвое. Сейчас этот показатель находится где-то на уровне четвертьвековой давности. Т.е., на уровне времен гегемонии IBM PC XT. И это несмотря на чуть ли не ежемесячное появление сообщений о революционных интерфейсах от Nintendo, Apple и Microsoft; на разговоры о скором вымирании компьютерных мышек и клавиатур и на общее впечатление о перемещении основного упора в конкурентной борьбе меж производителями гаджетов с вычислительной мощности на оригинальность и привлекательность интерфейсов.

Знакомый функционер из немецкого филиала IBM, с самозабвением культиста пропагандирующий облачные вычисления, утверждает, что это парадоксальное явление вызвано тем, что слово "interface" употребляется-де преимущественно в составе словосочетания "man-machine interface", теряющим актуальность по мере того, как пользователи все меньше взаимодействуют с компьютерами, и все больше - с Сетью. Не могу подыскать смайлика, отражающего смехотворность этой гипотезы.

Может быть, дело в том, что обсуждение интерфейсов привлекает преимущественно технически продвинутую часть населения, презирающую "dead-tree publishing" и предпочитающую взаимодействовать с современными электронными изданиями? В ошибочности этого предположения легко убедиться, взглянув на этот ниспадающий график http://www.google.com/trends?q=interface.

Полагаю, ярко выраженный спад интереса к интерфейсам после 2003 года вызван, гл. обр., характерным для минувшего десятилетия изменением отношения массового пользователя к компьютерам, которые все более воспринимаются как всего лишь одна из разновидностей бытовой техники. А с потребителями бытовой техники говорить об интерфейсе неуместно (ср. "интерфейс кофемолки", "интерфейс холодильника"). В этом смысле крах "Компьютерного Обозрения", в каждом номере которого слово "интерфейс" употреблялось по нескольку раз, неизбежен и закономерен.