`

СПЕЦИАЛЬНЫЕ
ПАРТНЕРЫ
ПРОЕКТА

Архив номеров

Как изменилось финансирование ИТ-направления в вашей организации?

Best CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

Компьютерная статистика -- доступная и полноценная

0 
 

В начале скажем несколько слов об общей архитектуре статистических пакетов и связанных с ней понятиях. Главной интерфейсной компонентой приложений этого класса является табличный процессор, с помощью которого подготавливаются данные. Поэтому для работы с любым статистическим пакетом желательно иметь навыки использования каких-либо электронных таблиц, например Excel. В соответствии с принятой в компьютерной статистике терминологией строку таблицы данных называют наблюдением, а столбец -- переменной. Современная статистика располагает методами исследования данных практически любой природы (не обязательно численной), но все это разнообразие обычно сводится к трем шкалам -- интервальной, порядковой и номинальной, что и нашло отражение в большинстве статистических продуктов.

После этого краткого пояснения перейдем к рассмотрению приложений.


IDAMS

Первый пакет нашего обзора производится и свободно распространяется одним из исследовательских подразделений UNESCO. IDAMS ведет свою родословную от известного в начале 70 х годов статистического пакета OSIRIS. Текущая версия 1.2 для Windows работает под управлением любой 32 разрядной ОС этого семейства и представлена тремя языковыми релизами -- английским, французским и испанским.

В отличие от других систем, IDAMS для хранения данных не имеет специального внутреннего формата -- таблицы программы хранятся в обычных текстовых файлах, в которых переменные (столбцы) занимают фиксированные позиции. Именно текстовый формат с разделителями или столбцами фиксированной ширины является основным для обмена данными IDAMS с внешними приложениями. В IDAMS допускаются данные двух типов -- численные и текстовые. Длина записи таблицы не может превышать 4096 байт, чего обычно достаточно для нескольких сотен переменных.

Другой важной особенностью IDAMS является то, что для выполнения основных статистических тестов необходимо использовать специальный командный язык. Для расчета той или иной статистической процедуры создается командный файл (Setup file в терминологии IDAMS), и в него записывается требуемая последовательность команд. Setup file создается и редактируется во внутреннем редакторе программы, из которого написанный код сразу же может быть запущен на выполнение. Конечно, эта особенность немного затрудняет применение приложения новичками, но синтаксис команд очень прост и доступен даже для начинающих. В подробности этого языка мы вдаваться не будем, укажем лишь, что работа с ним значительно облегчается благодаря наличию так называемых прототипов -- готовых шаблонов, содержащих команды для выполнения всех поддерживаемых статистических тестов. Созданный на основе шаблона командный файл перед использованием остается только немного подредактировать -- указать интересующие вас переменные и параметры выбранного теста.

Работа с данными в IDAMS обычно проходит в режиме редактирования таблиц, однако наиболее сложные операции удобнее осуществлять с помощью командного языка. Таким образом выполняется проверка корректности данных, их сортировка, выделение из таблицы подмножества (части переменных или наблюдений), слияние двух таблиц, импорт/экспорт, который, кроме текстового, возможен в Data Interchange Format.

Обратимся теперь к статистическим тестам приложения. Во-первых, IDAMS позволяет вычислять базовые статистические параметры выборки -- средние, частотные характеристики, корреляции и другие. Основной набор статистических процедур включает несколько важных видов анализа, к наиболее известным из которых относятся кластерный (поддерживается шесть алгоритмов), дискриминантный, факторный (метод главных компонент и анализ соответствий), регрессионный и дисперсионный.

Несколько процедур IDAMS позволяют строить различные обобщения регрессионной модели, предназначенные для выявления внутренних зависимостей и связей в структуре данных. Это множественный классификационный анализ, типологическая и восходящая классификация и некоторые другие тесты из области прогнозирования и классификации.

Кроме тестов, выполняемых при помощи командного синтаксиса, часть важных процедур можно вычислять интерактивно с использованием удобных диалоговых окон, как это и принято в большинстве статистических пакетов. Таких типов анализа три: многомерные таблицы, графический разведывательный анализ и блок анализа временных рядов. Ввиду важности этих процедур рассмотрим их подробнее.

Многомерные таблицы помогут получить детальную картину распределения значений переменных, причем допускается до семи уровней вложенности, а также проследить связь частот категориальных переменных и вычислить основные статистические характеристики любых численных переменных в зависимости от принадлежности к выбранным категориям. Для дополнительного уточнения различий между категориями возможно введение до трех "страничных" переменных, чьи различные категориальные комбинации образуют отдельные таблицы.

Графический разведывательный анализ позволяет быстро сориентироваться в данных сложной структуры с целью перехода к дальнейшему углубленному исследованию. С его помощью в считаные минуты можно наглядно представить основные взаимосвязи в исследуемом массиве: просмотреть дву- и трехмерные точечные графики (отображающие связь двух или трех переменных), гистограмму распределения и эмпирическую функцию плотности, кривую регрессии (доступно четыре вида регрессии) и некоторые другие известные графические представления. Конечно, на основе разведывательного анализа нельзя сделать каких-либо глубоких заключений, но этот этап просто необходим, если исследователь имеет дело с большим незнакомым массивом.

Компьютерная статистика -- доступная и полноценная
Рис. 1
Блок анализа временных рядов (интерфейс которого показан на рис. 1) поможет провести детальное изучение одного или нескольких временных рядов путем быстрого визуального просмотра ряда и проведения с ним стандартных преобразований, выделения тренда и частотных компонент, вычисления авто- и кросскорреляций, выполнения спектрального и кросс-спектрального анализа.

Кроме интерактивных процедур, IDAMS включает некоторое количество графических функций, вызываемых с помощью команд меню. Число доступных графиков в данной версии невелико, но они могут оказать определенную помощь в исследовании данных или создании отчета. IDAMS также имеет два редактора -- простейший текстовый и усовершенствованный для работы с форматом RTF, причем последний позволяет включать в документ таблицы, рисунки, объекты OLE, что дает возможность подготовить заключительный отчет профессионального качества, не покидая приложения.


Instat+

Следующий пакет имеет также длительную историю, начавшуюся примерно четверть века назад с написания серии отдельных статистических процедур, предназначенных для учебных и научных целей. Сегодня Instat+ производится и распространяется одним из исследовательских подразделений университета города Ридинг (Reading) в Великобритании и свободно загружается с узла www.reading.ac.uk/ssc. Согласно лицензионному соглашению, приложение может бесплатно применяться индивидуальными пользователями -- плата предусмотрена только при его коммерческой и корпоративной эксплуатации. Как и предыдущая программа, Instat+ работает под управлением Windows версии 95 и выше. Номер последней официальной версии программы --2.52, хотя на Web-сайте продукта есть и более поздние версии, проходящие пока доработку.

Instat+ имеет следующие ограничения на размер обрабатываемого массива: таблица может иметь до 127 переменных, категориальная переменная -- до 224 уровней. Количество наблюдений в таблице строго не ограничено, но устойчивая работа приложения гарантируется, если их число не превышает несколько тысяч, чего обычно достаточно для большинства реальных задач.

Компьютерная статистика -- доступная и полноценная
Рис. 2
Instat+ отличается совершенным интерфейсом (рис. 2) и обширными возможностями по манипулированию данными. Некоторые из них настолько нестандартны, что требуют немало усилий для своего осуществления при использовании любого другого статистического пакета или табличного процессора. Например, переменную можно разделить на несколько переменных с меньшим числом наблюдений в зависимости от какого-либо категориального критерия (так называемый unstacking). Имеются специальные функции расслоения данных сложной структуры, напоминающие процедуру получения из сводной таблицы исходного массива данных.

Собственно статистические вычисления Instat+ проводятся четырьмя альтернативными способами в зависимости от задач и подготовки пользователя: путем ручного введения команд в специальном окне (которое служит для ввода команд и отображения результатов в текстовом виде), с помощью запуска макроса на внутреннем языке системы, выбором нужной статистической процедуры из меню или вызовом специального диалогового окна для вычислений. Заметим, что эти способы позволяют осуществлять не только статистическое расчеты, относящиеся к таблице данных, но и разнообразные научные вычисления с использованием математических, логических и статистических функций. Для сохранения результатов указанных вычислений в таблице Instat+ имеются специальные разделы, называемые константами и строками. Вообще говоря, вычислительные возможности пакета приближаются к возможностям систем компьютерной математики и являются одними из наиболее мощных среди аналогов.

Instat+ включает большинство известных параметрических и непараметрических тестов, процедур по вычислению описательных статистик и таблиц сопряженности, известные виды многомерного анализа (вариационный, регрессионный, анализ выживаемости) и многие другие. Однако возможности приложения этим не ограничиваются: поддерживаются некоторые нестандартные процедуры, например так называемые циркуляционные статистики, учитывающие циклический характер данных.

Наконец, важной вычислительной компонентой пакета является блок анализа геоклиматических данных. Не вдаваясь в детали, отметим, что его процедуры предназначены для глубокого анализа сезонной вариабельности количества осадков и испарения, температурной динамики и многих других климатических параметров с учетом географического региона наблюдения. Разработчики особо подчеркивают, что приложение пригодится не только профессиональным метеорологам, но и учащимся, которые ведут наблюдения за погодой и пытаются установить закономерности ее перемен.

С помощью средств визуализации Instat+ можно получить основные статистические графики, хотя, на мой взгляд, в целом эти средства недостаточно развиты по сравнению с общим уровнем пакета. Приложение позволяет обмениваться данными со многими известными табличными процессорами и статистическими программами, в том числе и со специальной системой анализа климатических данных Clicom.

Резюмируя сказанное об Instat+, отметим, что это исключительно профессиональный пакет, обеспечивающий проведение исследований любого уровня.


VisualStat Professional 2003

Последний из рассматриваемых пакетов не является свободно распространяемым, однако мы включили VisualStat в наш обзор по той причине, что цена его намного ниже большинства коммерческих продуктов и устроит многих отечественных пользователей. К тому же приложение можно свободно загрузить с сервера и законно использовать в течение 30 дней, чего обычно достаточно для проведения не слишком обширного исследования. Пакет производится компанией VisualStat Computing (США) и доступен по адресу www.visualstat.com.

Компьютерная статистика -- доступная и полноценная
Рис. 3
Как и описанные выше пакеты, VisualStat (рис. 3) предоставляет богатые и изощренные возможности статистического анализа данных. Его отличительной особенностью является работа с таблицами беспрецедентно больших размеров (до двух миллиардов наблюдений и такое же количество переменных). Поддерживаются данные следующих типов: численные, текстовые, даты/времени и категориальные. Хотя VisualStat использует документы собственных форматов для хранения таблиц и графики, предусмотрен обмен информацией с помощью драйверов ODBC и встроенных конверторов со многими внешними табличными форматами, из которых особо выделим XML и Excel. Кстати, таблица VisualStat (DataSheet) практически идентична листу Excel в части форматирования, сортировки и других операций с данными, что поможет пользователям этого популярного табличного процессора без дополнительного обучения перейти к работе с VisualStat. Еще одной оригинальной особенностью пакета является наличие встроенного браузера, что позволяет путешествовать по Интернету, не переключаясь на внешний обозреватель.

VisualStat поддерживает технологию Speech Technologies, преобразующую текст в синтетический стереозвук, который может быть направлен во внешнее устройство -- наушники или телефонную линию. Для трансформации данных в среде приложения доступны более 100 функций, в частности кодирование, предусматривающее перевод численных данных в категориальные переменные и обратно. В последнем случае преобразование осуществляется двумя способами -- с использованием традиционной булевой или нечеткой логики.

Статистические процедуры VisualStat охватывают все основные разделы математической статистики: это описательные характеристики, таблицы частот и перекрестных признаков, корреляции (линейная и ранговые), параметрические и непараметрические методы сравнения, дисперсионный анализ, линейная регрессия, подгонка функций распределения, методы редукции размерности (различные варианты факторного анализа и кластерный анализ). VisualStat позволяет также строить высококачественные графики основных типов -- линейные, столбиковые, круговые диаграммы, точечные графики, радиальные и комбинированные. Возможности визуализации очень богатые, каждый построенный график можно быстро и в широких пределах настроить в соответствии со стоящими задачами, и в этом отношении VisualStat не уступает лучшим системам научной графики. Практически каждый элемент рисунка -- оси, линии, поверхности, надписи и т. д. -- изменяется путем настройки цвета, заливки, формы, шрифтовых параметров и других графических характеристик.

Вывод результатов вычислений VisualStat (кроме графики) производится в специальное окно, в котором они могут быть изменены или отформатированы во встроенном редакторе, поддерживающем формат RTF и позволяющем включать в документы OLE-объекты и графику. Таким образом, при работе с VisualStat вполне достаточно собственных средств для создания отчета об исследовании.

Заканчивая наш рассказ о VisualStat, отметим некоторую стандартность его статистических и графических процедур. Думаю, пакет значительно усилила бы внутренняя среда программирования, позволяющая расширить функциональность приложения. Однако такую ограниченность штатными возможностями нельзя назвать недостатком, поскольку подавляющая часть исследователей -- не менее 90% -- обычно довольствуется стандартным набором статистических тестов. В этом случае VisualStat является одним из самых подходящих инструментов -- мощным, доступным и удобным.

Разумеется, описанными здесь приложениями не исчерпывается список бесплатных и условно-бесплатных статистических пакетов. Потратив некоторое время на поиски в Интернете, вы найдете и другие программы этого класса. Однако свободно распространяемые статистические пакеты, близкие по функциональным характеристикам к дорогим профессиональным системам, можно пересчитать буквально по пальцам, причем лучшие из них вошли в наш обзор. Поэтому мы надеемся, что настоящий материал будет полезен тем пользователям, перед которыми стоит задача подобрать мощный и одновременно доступный инструмент для статистического анализа данных.
0 
 

Напечатать Отправить другу

Читайте также

 
 
IDC
Реклама

  •  Home  •  Рынок  •  ИТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Сети  •  Безопасность  •  Наука  •  IoT