`

СПЕЦИАЛЬНЫЕ
ПАРТНЕРЫ
ПРОЕКТА

Архив номеров

Как изменилось финансирование ИТ-направления в вашей организации?

Best CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

Lost in data: погружение продолжается

+33
голоса

О таком явлении как информационная перегрузка (information overload, infobesity, infoxication) говорят уже давно, на эту тему написано множество работ. По странной иронии, материалы, посвященные тому, как избыток информации сказывается на ее восприятии и выработке решений, зачастую лишь сгущают информационный смог.   

Рассуждения о том, что в современном мире ценность (коммерческая, семантическая) данных в расчете на байт снижается, стали общим местом. Попытки определять смысловое содержание информации, например, на основе тезаурусной меры, в целом носят скорее описательный характер. Понятно, что, сопоставляя совокупность сведений, которыми мы обладаем, с поступающей информацией для определения количества воспринимаемой семантической информации, которая затем включается в тезаурус, мы можем прийти лишь к некоторым ad hoc заключениям. В качестве меры в таких случаях обычно используют так называемый коэффициент содержательности C, который равен отношению количества семантической информации к ее объему.

В общем случае зависимость количества семантической информации, воспринимаемой потребителем, от его тезауруса напоминает распределение Максвелла. Очевидно, что полное несоответствие поступающей информации тезаурусу пользователя приводит к тому, что он ее попросту не воспринимает (не понимает). Также количество семантической информации становится равным нулю, когда поступающие данные не содержат в себе ничего нового (полностью перекрываются тезаурусом). Таким образом, семантическая ценность информации падает как в случае некомпетентности ее потребителя, так и в ситуации, когда она является для него трюизмом.

По мере становления «цифровой вселенной» объемы данных, равно как и число источников их генерирующих, стремительно возрастали, при этом доля «оригинального» контента (не являющегося копиями или простой компиляцией ранее созданной информации) неуклонно снижалось. Времени на поиск, верификацию и анализ данных становится все меньше. Применительно к практическим задачам проблема демаркации стала чрезвычайно актуальной. Гипотезы, предлагаемые для принятия решений, все реже являются фальсифицируемыми (то есть не соответствуют критерию Поппера).

 погружение продолжается

 

Рис. 1 Динамика ряда показателей, характеризующих развитие информационной индустрии.1

Другими словами, разобраться с тем, насколько релевантна и пертинентна информация, какой путь она прошла, прежде чем попасть к потребителю (найти первоисточник), на каких фактах и расчетах базируются содержащиеся в ней предикаты, а также проверить их экспериментально, становится все сложней. Как здесь не вспомнить о пресловутой проблеме равенства классов сложности P и NP (одной из семи задач тысячелетия, за решение которой Математический институт Клэя назначил премию в миллион долларов). А именно, если утвердительный ответ на какой-то вопрос можно достаточно быстро проверить (за полиномиальное время), означает ли это, что ответ на данный вопрос можно довольно быстро найти? Иначе говоря, действительно ли решение задачи проверить не легче, чем его отыскать?

Постоянное расширение числа регионов, где люди могут получить образование, и увеличение числа источников информации, позволяющих людям формировать собственную точку зрения, неизменно указывают среди обязательных условий успешного развития общества.

Еще 30-40 лет назад этот подход был во многом оправдан. Чтобы убедиться в этом, достаточно вспомнить, что одним из главных атрибутов всех без исключения тоталитарных государств было ограничение доступа к информации. На протяжении тысячелетий проводилась политика подавления, быть может, ключевых составляющих здорового интеллекта. А именно способности к критическому восприятию действительности и ее последующему анализу (без которых сколько-нибудь корректный синтез умозаключений впоследствии попросту невозможен).  Казалось бы, следует только приветствовать то, что все больше людей может получить образование и влиять на процессы, затрагивающие все общество.

Однако постепенно стала проявляться довольно специфическая проблема, связанная, в частности, с системой образования и социализации в современном обществе. Коротко ее можно сформулировать так: концепция «не думай» сменилась концепцией «думай как-нибудь».

Во множестве отраслей воззрения и теории, считающиеся общепринятыми, очень часто базируются на абсолютно ненадежных предположениях, а то и вовсе на вкусах тех или иных влиятельных специалистов. Не говоря уже о факторе материальной заинтересованности адептов той или иной доктрины. При этом сколько-нибудь надежного универсального механизма проверки – как теорий, так и компетентности исследователей – попросту нет. Поэтому вполне естественно, что даже наиболее фундаментальные представления в этих отраслях регулярно подвергаются пересмотру.

Достаточно вспомнить, например, опубликованные в 2008 году результаты метаанализа, проведенного учеными Oregon Health & Science University, свидетельствующие о том, что 31% из 74 исследований антидепрессантов, утвержденных Управлением по санитарному надзору за качеством пищевых продуктов и медикаментов США в период с 1987 по 2004 год, не были опубликованы. Среди тех работ, что доказывали позитивное действие препаратов, были опубликованы все, кроме одной. Среди тех, что приводили негативные результаты, только три были опубликованы, а остальные 33 либо вообще не вышли в свет, либо были существенно искажены.

Система образования и СМИ очень часто манипулируют массовым сознанием; в результате произошедших преобразований все больше людей считает, что они разбираются в самых разных вопросах достаточно хорошо, чтобы о них рассуждать, а современные средства коммуникации дают им возможность эффективно распространять свои взгляды и непосредственно влиять на глобальные тенденции.  

Критерии оценки корректности тех или иных суждений и умозаключений оказались сегодня настолько размытыми, что стало практически невозможно докопаться до сути. На принципиальную разницу между мнениями эксперта и профана-демагога зачастую не могут указать даже специалисты в той или иной области. Переизбыток неверифицируемой информации привел к дискредитации и деградации большинства ее источников. Мы наблюдаем устойчивый спрос на поверхностно образованных, бойких, имитирующих бурную деятельность «специалистов», в той или иной мере торгующих воздухом. Дискуссии все чаще ведутся не просто за рамками формальной логики, но вне какого бы то ни было общего понятийного аппарата, при этом в качестве арбитров к ним нередко привлекают тех, кто вовсе не разбирается в предмете.

Есть, разумеется, великолепные примеры исследований разнообразных проблем гносеологии с математических позиций или, хотя бы, на основе достаточно строгих, логически обоснованных, рассуждений. Выдающиеся мыслители - от Георга Кантора до Курта Геделя, от Спинозы до Роджера Пенроуза – посвятили им множество работ. Однако примечательно то, что все они старались ответить на вопрос как должно быть (с переменным успехом) гораздо в большей степени, чем на вопрос о том, как быть не должно.

В свете сказанного выше все более уместным с практической точки зрения становится подход, который можно в чем-то сравнить с концепциями искусственных нейронных сетей, построенных на элементарных обрабатывающих элементах. Поскольку у нас нет возможности (времени) проследить и верифицировать каждую итерацию, предшествующую моменту, когда та или иная информация попала к нам, гораздо более эффективным методом во многих случаях становится анализ стратегии тех, от кого мы получаем данные напрямую. Разумеется, у этого подхода есть серьезные недостатки, но он позволяет с приемлемой погрешностью фильтровать информацию за разумное время.

Некоторые характерные особенности в подаче информации, приемы, используемые теми, кто непосредственно снабжает нас данными, позволяют достаточно быстро сделать выводы о том, что полученные от них сведения как минимум сомнительны, рекомендации неубедительны, так что включать их в свой «тезаурус» было бы просто неосмотрительно. Среди наиболее распространенных признаков, свидетельствующих о том, что «вес» источника должен быть снижен, можно выделить следующие:

Рассуждения за рамками компетенции. Попытки строить умозаключения либо давать оценки в отношении предметов, в которых источник не разбирается.
Проблемы верификации и отбора. Склонность к использованию в рассуждениях не верифицированной должным образом информации, удобной для обоснования собственной точки зрения (эффекты селекции).
Догматизм. Наличие в предикатах определенных аксиом и паттернов, которые преподносятся как нечто не требующее обоснования. 
Сознательно вводимые ложные утверждения. Намеренное использование заведомо сфальсифицированных сведений (недостоверность которых ранее была доказана).
Отрицание. Категорическое, не подкрепленное логическими доводами либо релевантными фактами, неприятие аргументов оппонента.
Переход в другую плоскость («Соломенное чучело»). Сознательная подмена обсуждаемой проблемы – другой, якобы связанной с ней.
Обвес. Осознанное или неосознанное искажение иерархии фактов и доводов. Преуменьшение или преувеличение «веса» -– в математическом смысле – одних данных или выводов в ущерб другим.
Сравнения. Попытка проиллюстрировать неочевидное сравнением с чем‑либо, полагающимся наглядным подтверждением того или иного суждения. Попытки прямого сравнения нескольких систем, характеризующихся большим числом параметров, когда «биекция» невозможна.
Дефекты логики. Значительная часть дефектов логики получила подробнейшее описание, зачастую строго математическое, однако его использование нередко оказывается крайне затруднительным в повседневной жизни. Проявляются как нарушения правил индукции и дедукции в утверждениях, вообще переходов между общим и частным, компаративистики и соотнесения объектов. Зачастую прослеживаются ошибки даже в простейших вопросах транзитивности, относящиеся к задачам типа  A=B, B=C, C = ?
Цитации. Попытки аргументировать рассуждения цитатами из источников, полагающихся авторитетными. Цепочки из блоков отсылок к чужим тезисам и выводам, которые как бы не нуждаются в доказательстве, выстраиваемые для утверждения собственной точки зрения. Иногда проявляется как стремление использовать модные термины, квазипрофессиональный жаргон.
Короткая память. Забывчивость в отношении содержания собственных тезисов, подчас озвученных совсем недавно.
Конспирология. Склонность к построению сложных, подчас внутренне непротиворечивых теорий и выводов, на основании крайне неполной либо недостоверной информации и домыслов.
Драпировка и эстетизм. Модель, в рамках которой ни предмет анализа, ни суть обсуждаемых вопросов не воспринимаются как значимые факторы, внимание сосредоточено на стиле изложения, оригинальности или парадоксальности каких-либо суждений.
Фиксация. Стремление свести самые разнообразные вопросы и проблемы к одной центральной теме.
Моделирование. Создание искусственных упрошенных моделей. Эти модели могут базироваться на тщательно проверенных источниках информации, оценке возможных ошибок и строиться на строгой, иногда даже в математическом смысле, логике. Проблема заключается в том, что очень часто в результате получается «сферический конь в вакууме». Практическая ценность полученной таким образом информации близка к нулю.

Весьма показательно, что большая часть «симптомов», описанных выше, наблюдалась и анализировалась еще исследователями античности и средневековья. От Аристотеля до Ричарда Софиста. В академической среде как правило удается отделить зерна от плевел, но в повседневной жизни, где подходу Фреге бросает вызов отнюдь не только парадокс Рассела, это попросту невозможно. Сегодня по крайней мере странно смотрится человек, утверждающий, что Земля плоская, и ему едва ли удастся завязать дискуссию с физиками на этот счет. Однако, когда речь заходит, например, о бизнесе, экономике, развитии технологий, высказывания, граничащие с галлюцинаторным бредом, подчас рассматриваются наравне с обоснованными суждениями. При этом все более активно используются всевозможные инструменты анализа, но математические методы применяют скорее для манипуляции, выуживая из моря данных те, что устраивают заказчика.

От момента своего возникновения, прежде чем попасть к нам, информация проходит через такое количество итераций, что, подчас, меняется до неузнаваемости. Поэтому качество решений, принимаемых на ее основе, далеко не всегда можно повысить путем дальнейшего увеличения объемов данных, подвергающихся подобной обработке.

___________________________________________________________________________

 1Источник и данные являются вымышленными. Но ведь очень похоже на «настоящие» диаграммы, которые демонстрируют на отраслевых конференциях, не правда ли?

+33
голоса

Напечатать Отправить другу

Читайте также

 
 
IDC
Реклама

  •  Home  •  Рынок  •  ИТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Сети  •  Безопасность  •  Наука  •  IoT