Мониторинг IT-инфраструктуры с точки зрения Microsoft

Словари трактуют слово «мониторинг» как систематический сбор и обработку информации, которая может облегчить процесс принятия различных решений. В IT-среде основная задача мониторинга – это повышение доступности и предсказуемости самой среды, а также снижение ее стоимости. Давайте же проследим эволюцию систем мониторинга в IT и посмотрим, на что способны самые современные из них на примере нового решения Microsoft System Center Operations Manager 2007.

Рис. 1

Исторически первыми на свет появились реактивные системы мониторинга, позволяющие видеть состояние объектов, за которыми они наблюдают, в реальном времени. Как правило, они располагают ограниченным набором входной информации и довольно часто не понимают логики приложения, а, соответственно, и не могут оценить его работоспособность как целого решения. Например, измеряя только загрузку процессора, свободную память, доступность дисков и состояние сервисов, нельзя адекватно контролировать почтовую систему предприятия или трехуровневое бизнес-приложение. К плюсам таких систем можно отнести простоту в их установке и настройке, а также дешевизну, а к минусам – предсказание только очень ограниченного набора проблем и невозможность выстраивать сложные взаимосвязи между сервисами. Многие ошибки в работе приложения, за которым следят системы, могут вообще остаться неопознанными.

С усложнением IT-сред их мониторинг становится все более типичной задачей администраторов. Комплексный характер бизнес-приложений требует четкого установления всех взаимосвязей и раннего предсказания проблемных ситуаций. Разбираться с проблемой уже после ее возникновения – непозволительная роскошь. Конечно же, определенные прогнозы можно строить, исходя из информации в журналах работы реактивных систем мониторинга, но реалии таковы, что у персонала не хватает времени на ее анализ.

Рис. 2

Именно поэтому дальнейшим шагом в эволюции средств мониторинга стали проактивные системы. Их главное отличие от реактивных в том, что они вооружены определенными знаниями о той среде, за которой следят. Такие системы понимают логику приложения, умеют анализировать его журналы, состояние окружения, контролировать различные счетчики и т. д. Зачастую они способны даже имитировать типичные действия пользователя. Самые сложные из них имеют очень развитую логику определения «нормального» состояния приложений и могут выстраивать взаимосвязи между сервисами. Основное преимущество проактивных систем состоит в том, что они могут предсказать гораздо больше проблем. Естественно, приложение должно уметь сигнализировать о своих неполадках, а система мониторинга – корректно трактовать отклонение от нормы, а не ретранслировать тысячи уведомлений об ошибках. Многие решения этого типа обладают прекрасными системами отчетности, которые помогают предугадывать узкие места в IT-среде и устранять их раньше, чем это почувствуют пользователи.

Но какова бы ни была система мониторинга, ее необходимо конфигурировать для работы в конкретной среде. И очень хорошо, если она способна самостоятельно выполнить львиную долю настройки. Пренебрегать этим ни в коем случае нельзя, иначе система будет сообщать, что «у вас все плохо» и практически ничего не работает. Обслуживающий персонал постепенно привыкает к такому ее поведению и более не обращает на нее внимания, что делает ее абсолютно бесполезной. Фактически происходит возвращение к практике «тушения пожаров», т. е. проблемы решаются уже после того, как с ними столкнутся пользователи и бизнес начнет нести убытки.

Рис. 3

В этой статье предлагается обзор одного из самых современных решений для мониторинга – Microsoft System Center Operations Manager 2007 (OpsMgr, или SCOM), увидевшего свет в конце весны нынешнего года и в предыдущих редакциях известного читателю как Microsoft Operations Manager (MOM). OpsMgr 2007 в состоянии выполнять мониторинг сложнейших распределенных и гетерогенных сред – его масштабируемость можно оценить на примере внедрения во всей корпорации Dell, а это контроль за работой 13 500 серверов и 100 000 рабочих станций! Однако не стоить думать, что данный продукт предназначен только для очень больших структур, приведенный пример лишь свидетельствует о зрелости продукта и его возможностях.

От нового OpsMgr требовалось обеспечить мониторинг распределенных приложений, упростить процесс его развертывания в корпоративной среде, а также углубить знания операторов и предоставить им более широкие возможности для решения обнаруженных проблем. Кроме того, были нужны роли с разными правами для операторов, отвечающих за разные приложения или даже за одно и то же приложение, но в различных региональных представительствах. Скажем, разумно, чтобы операторы Active Directory из Киева не могли управлять структурами в Харькове (где есть свой персонал), а операторы SQL-сервера не могли вмешиваться в работу других серверов.

Рис. 4

Итак, благодаря OpsMgr операторы пополнят свои знания о подконтрольных приложениях и системах. Они заложены в специальные пакеты управления, в свою очередь, претерпевшие в новой версии кардинальные изменения. Самое важное, что эти пакеты готовились теми же группами разработки, что и сами приложения (Exchange, SQL Server, Active Directory и т. д.). Все новые продукты Microsoft и многих партнеров изначально будут комплектоваться пакетами управления для организации надлежащего мониторинга.

Давайте выделим три основных принципа, на которых построен новый OpsMgr 2007:

исчерпывающее управление службами (End-to-End Service Management). Кто лучше в состоянии измерить доступность сервиса, как не сами пользователи, для которых он и создан? Именно поэтому для мониторинга приложения привлекаются «клиенты». Агент с клиентской рабочей станции может пройти через все сетевые механизмы, попробовать получить доступ к нужным функциям, выполнить какие-то действия и измерить скорость реакции системы. Затем эта информация дополнит весь спектр метрик, получаемых непосредственно от мониторинга серверов. При такой схеме, к примеру, можно прогнозировать узкие места не только серверной составляющей, но и коммуникационной. С другой стороны, будет получена четкая информация о том, какие пользователи и сервисы могут быть подвержены влиянию выявленных (или возможных) проблем;
лучший выбор для Windows (Best of Breed for Windows). Мы уже упоминали, что пакеты управления созданы группами разработчиков и содержат знания этих специалистов. Кроме того, появились механизмы обнаружения «корня» проблемы, что, в свою очередь, существенно сокращает время на ее разрешение. Выбрав проблемное распределенное приложение, можно сразу узнать, какой из его компонентов и на каком сервере функционирует ненормально;
качественно новый уровень управления (Increased Efficiency and Control). При управлении сложными средами OpsMgr 2007 позволяет разложить их на простые и наглядные составляющие для облегчения процесса мониторинга. В данной версии поддерживаются ролевые модели для операторов с четким разграничение прав. Существенно увеличена масштабируемость решения за счет использования так называемых серверных ролей, подразумевающих раздельную установку компонентов для выполнения определенных задач. Так, одним требуются именно вычислительные ресурсы, другим – большое количество оперативной памяти или дискового пространства. Распределение этих компонентов между разными серверами обеспечивает независимое масштабирование каждой роли. Доступнее станет и сам сервис мониторинга. Добавлена возможность размещения конфигурационной информации в Active Directory для автоматической настройки клиентов, установленных, например, при помощи стандартного системного образа. Административные роли также могут присваиваться объектам, импортируемым из Active Directory – как правило, последние уже имеют соответствующее целевое назначение, поэтому незачем создавать аналогичную структуру еще раз. Новая версия OpsMgr намного легче настраивается под конкретные нужды среды и бизнес-приложений. Встроенный контекстный поиск и страницы просмотра облегчают ориентирование в развитой IT-инфраструктуре. Особо стоит отметить функциональность «обозревателя исправности» (Health Explorer). Он позволяет быстро определить, что конкретно не так с каждым подконтрольным объектом, и какой аспект в данный момент требует внимания. При необходимости будут предложены и типичные решения проблемы или ссылка на статью базы знаний. На самом деле именно благодаря Health Explorer понимаешь, как разносторонне проводится мониторинг (рис. 1).

Многие новые возможности OpsMgr 2007 изначально ориентированы на мониторинг распределенных приложений. Современные бизнес-системы уже давно вышли за пределы одного сервера, следовательно, обслуживать их нужно комплексно. Для этого OpsMgr 2007 предлагает, скажем, конструктор шаблонов для мониторинга. Допустим, нас интересует работоспособность базы данных SQL на компьютере А, Web-сервер на компьютере B и некое приложение на компьютере С. Причем речь может идти не обо всем SQL-сервере, а об определенном экземпляре или конкретной базе данных. Более того, администратор, если потребуется, сможет перевести базу в режим обслуживания, указав причину и длительность проводимых работ, а все остальные объекты этого сервера продолжат контролироваться независимо. За счет подобной гранулярности удается очень детально и точно настроить всю систему мониторинга. В частности, уровень доступности каждого компонента также может вычисляться отдельно.

Улучшения в консоли управления

Рис. 5

Новая консоль позволяет держать под рукой все самое нужное. Оператор имеет доступ ко всей необходимой информации, в том числе и путям решения проблем из разных областей. Все панели являются контентно-зависимыми и позволяют фильтровать и сортировать выводимые данные. Из них можно формировать специфические представления для различных ролей, есть и несколько готовых – скажем, для проведения всевозможных видов анализа (рис. 2–4).

Интересно представление, отображающее топологию системы или сервиса, причем полученная структура также подлежит фильтрованию, к примеру, по состоянию отображаемых элементов, что может очень пригодиться при поиске источника проблемы (рис. 5).

В целом же консоль стала легковеснее и быстрее, в ней широко применяется кэширование информации.

Изменения в пакетах управления

В новой версии OpsMgr пакеты управления обеспечивают более глубокий анализ, так как позволяют изучать систему с разных точек зрения. Например, мы можем измерять доступность, производительность, корректность конфигурации или уровень безопасности.

Пакеты управления теперь разделяются на два основных вида: подписанные и неподписанные. Главная цель такого нововведения – удержать пользователей от внесения в них изменений. На первый взгляд это кажется нелогичным. Однако, как показала практика, с непрофессионально отредактированными пакетами действительно возникало много проблем. Кроме того, цифровая подпись обеспечивает определенный уровень безопасности, поскольку гарантирует, что пакет выпущен самим производителем и никто не изменял его содержимое. Тем не менее адаптация под конкретные условия вашей среды по-прежнему допускается, только пакет окажется неподписанным. Также имеется возможность экспортировать только изменения, т. е. неподписанные пакеты, что будет полезно и удобно, скажем, при тестировании специфических параметров и последующем переносе пакета в продуктивную среду.

Немаловажный аспект – появление зависимостей между пакетами управления. В данный момент они связаны между собой так же, как объекты в объектно-ориентированном окружении, – в иерархическую модель. Например, нельзя импортировать пакет мониторинга Exchange Server 2003 (Monitoring) без пакета Exchange Server 2003 (Discovery) и Exchange Server Core Library, в котором описано, какие вообще объекты можно контролировать. К счастью, все зависимости отслеживаются автоматически при любых операциях с пакетами, в том числе и при их удалении из рабочей среды.

Но как быть тем, кто уже имеет разветвленную структуру MOM 2005 и затратил усилия на создание собственных пакетов управления? В новом OpsMgr 2007 предусмотрена возможность импорта пакетов из MOM 2005. Во время такой миграции в новую среду переносятся задания, представления и даже знания. Однако следует помнить, что только пакеты, созданные специально для OpsMgr 2007, поддерживают все нововведения по контролю «здоровья» систем.

Автоматические счетчики производительности

После включения системы мониторинга она начинает на протяжении определенного времени (обычно недели) собирать статистику о нормальной нагрузке в вашей продуктивной среде. Полученные таким образом показатели будут рассматриваться как «нормальные», а все отклонения – четко отслеживаться. В дальнейшем конфигурация может также автоматически уточняться. Например, для установления новых показателей «нормы» достаточно просто отключить соответствующий счетчик и включить его снова. При необходимости длительность обучения может изменяться.

SNMP-мониторинг

В гетерогенных средах также нужно осуществлять мониторинг систем. Например, критичное бизнес-приложение или какие-то инфраструктурные компоненты могут работать не в Windows. Для подобных ситуаций идеально подходит SNMP-мониторинг. Пакеты управления для него можно создавать даже самостоятельно, используя как опросы MIB-объектов, так и анализ trap-событий. Впрочем, партнеры Microsoft предлагают и большое количество готовых пакетов для различных систем, таких как Oracle, Apache, SAP, UNIX, Linux, а также сетевых устройств. Их каталог находится по адресу: www.microsoft.com/technet/prodtechnol/mom/catalog/catalog.aspx?vs=2007.

Улучшения в Web-консоли

Новая Web-консоль теперь мало чем отличается от основной оснастки OpsMgr 2007 (рис. 6). Появилась возможность запускать задачи, наблюдать в Health Explorer за поведением различных объектов, просматривать состояние распределенных приложений в виде развернутой диаграммы.

Мониторинг клиентов

Рис. 6

Иногда немалую ценность с точки зрения бизнеса представляют и клиентские рабочие станции, например, банковские аппараты или точки розничной торговли страховыми полисами. Они, конечно, менее критичны, чем серверы, но напрямую влияют на работу предприятия. Поэтому действительно важно контролировать их и заблаговременно принимать меры по поддержанию в рабочем состоянии.

Кроме того, возможен мониторинг не самих рабочих станций, а, к примеру, только возникающих на них ошибок. Благодаря новой функциональности теперь накапливается информация о том, насколько стабильно работают приложения на компьютерах ваших пользователей. Она реализована без использования агентов и основывается на данных о проблемной ситуации, собираемых программой Dr. Watson – при необходимости (это может делаться только для выбранных компьютеров или программ) они передаются на сервер для анализа и поиска решения, в том числе и на глобальных ресурсах Microsoft. Такая статистика помогает оценить, насколько стабильно ваше окружение, какие именно программы дают больше всего сбоев, готово ли ваше бизнес-приложение для распространения в масштабах предприятия.

Система отчетности

Рис. 7

Здесь произошли колоссальные изменения. Теперь это не просто набор графиков, а полностью интерактивная картина. В отчетах выводится информация об изменениях, произошедших в IT-среде. Кроме того, просто щелкая на различных областях отчета, мы можем получить более развернутую информацию. Например, после отключения автоматического роста базы данных возникла проблема нехватки свободного места. Все это мы увидим в отчете и сможем очень быстро перейти к деталям события и его последствиям. Таким образом, значительно упрощается анализ произведенных изменений и планирование будущих действий. Важно, что система отчетности позволяет обращаться к данным в реальном времени, т. е. видеть на графиках и текущее состояние, и предысторию. При этом, как уже отмечалось, многие элементы являются активными, и с их помощью можно перемещаться к большему уровню детализации. В конечном итоге можно, к примеру, получить отчет о доступности любого элемента, вплоть до конкретной почтовой базы (рис. 7).

Сбор информации из журналов безопасности

Вся информация из журналов безопасности собирается в единую централизованную базу для последующего анализа и построения отчетов. На серверах она шифруется и передается в реальном времени, а доступом к ней можно гибко управлять. Однако при проектировании этого сервиса следует быть осторожным, так как размер централизованной базы может оказаться просто огромным.

Более детальную информацию о новом продукте, а также пробную версию можно получить по данному адресу:

e-mail автора: [email protected]

Стратегія охолодження ЦОД для епохи AI