Чем определяется длина слов?

16 февраля 2011 г., 18:35

Почему одни слова короткие, а другие длинные? В течение десятилетий интуитивно понятная теория утверждала, что часто используемые слова короче, для того чтобы сделать язык более эффективным. Однако теперь когнитологи из MIT разработали, исходя из нового исследования, альтернативную гипотезу: длина слова отражает количество информации, которое оно содержит.

«Это может показаться неожиданным, но длина слова лучше объясняется его информационным содержанием, чем частотой использования», - говорит Стивен Пьянтадози (Steven Piantadosi), аспирант департамента мозга и когнитологии MIT.

Идея о том, что частота использования определяет длину слов, ведет начало от работы филолога из Гарварда Джорджа Зипфа (George Zipf), опубликованной им в 1930-х годах. Идея Зипфа имела интуитивную привлекательность, но давала весьма ограниченное объяснение длины слов. «Это имеет смысл, если вы говорите что-нибудь снова и снова. В этом случае вы хотите, чтобы речь была покороче, - говорит Пьянтадози. – Но имеется лучшее толкование, чем это. Частота не принимает в расчет зависимость между словами». То есть многие слова в типичном случае появляются в предсказуемом порядке в строке с другими словами. Короткие слова не обязательно те, которые употребляются чаще. Исследователи обнаружили, что часто короткие слова не содержат много информации сами по себе, но появляются в строке с другими привычными словами, и в ансамбле доносят информацию.

В свою очередь, такая кластеризация коротких слов помогает сглаживать поток информации в языке, образуя строки из близких по размеру языковых пакетов, которые обеспечивают эффективность, - это несколько модифицированная гипотеза Зипфа. Эффективность голосовых коммуникаций достигается при однородном темпе, либо посредством кластеров из более коротких слов, либо посредством одиночных более длинных слов, несущих больше информации. Язык стремится доставлять информацию при постоянной скорости.

Вывод ученых основывается на изучении огромного множества данных, имеющихся в онлайновых документах, опубликованных Google. Исследование охватило 11 европейских языков.

Чтобы оценить, как много информации содержится в слове, ее количество определялось как обратное значение предсказуемости появления данного слова в строке. То есть, слова, наиболее часто встречающиеся после известной последовательности двух, трех или четырех слов, содержали меньше индивидуальной информации. Этот принцип базируется на пионерских работах Клода Шеннона.

Команда из MIT обнаружила, что 10% вариаций длины слова связано с количеством информации, которое оно содержит. Значение само по себе невелико, однако оно примерно в три раза больше, чем вариация длины, связанная с частотой использования.

Стратегія охолодження ЦОД для епохи AI