Отказоустойчивый кластер: шаг к безопасности важных данных

Создание отказоустойчивых кластерных систем повышенной надежности – задача весьма непростая, поэтому в основном их разработка является прерогативой крупных специализированных зарубежных компаний. Однако, украинский рынок «тяжелых решений» постепенно взрослеет, и построение сложных систем, ранее казавшееся невозможным в отечественных условиях, сегодня становится реальностью.

Кому это нужно?

Несмотря на кажущуюся элитность кластерных систем, на сегодняшний день они востребованы в целом ряде областей. В первую очередь, разумеется, там, где речь идет о финансовых операциях. Коммерческая деятельность, в том числе электронная, банковские структуры, розничная торговля и другие направления уже давно столкнулись с необходимостью обеспечения непрерывного доступа к данным в любых условиях. К тому же сфера распространения информационных услуг и сервисов непрерывно увеличивается, появляются новые их виды, требующие не меньшего внимания к хранимым данным: телекоммуникации, биллинговые системы, транспорт, – и все они так или иначе используют в своей деятельности последние достижения IT-индустрии. Кроме того, очень многие крупные корпоративные структуры переходят на системы коллективной работы, безбумажный документооборот и системы управления предприятием на основе специализированных программных комплексов. Следовательно, высоконадежные системы, обеспечивающие бесперебойный доступ к информации, востребованы в любом месте, где необходимы постоянное накопление, обработка и управление данными. А таким требованиям удовлетворяют только кластерные структуры.

Кластеры: сущность и типы

Классическая система централизованной обработки данных – выделенный сервер. На его основе строится большинство современных инфраструктур, и для целого ряда задач применение единичного узла – вполне приемлемое решение. Повышение надежности такого подхода заключается в дублировании критичных узлов, внедрении улучшенной поддержки со стороны продавца и привлечении для обслуживания специалистов высокого класса.

Отказоустойчивый кластер шаг к безопасности важных данных

Схема построения кластера позволила исключить возможные точки отказа, максимально повысив отказоустойчивость системы

Все эти меры предназначены только для одного: сократить время простоя системы (в случае ее отказа) до минимально допустимого. Но в ряде случаев такой подход неприменим; кроме того, он не решает проблем, связанных с необходимостью повышения производительности и масштабируемостью системы в целом. Этих недостатков лишены структуры на базе кластерных технологий.

Проще всего кластер можно определить как совокупность взаимодействующих независимых узлов, имеющих общую инфраструктуру и предназначенных для решения общих задач.

Среди вычислительных систем, построенных на основе кластеров, выделяют два основных типа: кластеры высокой готовности и отказоустойчивые кластеры повышенной надежности. В этом вопросе зачастую возникает путаница, поскольку системы одного из типов ошибочно наделяют характеристиками обоих типов. Для более точного понимания следует различать параметры высокой готовности и отказоустойчивости.

Так, готовность системы – это время, в течение которого система способна предоставлять требуемые сервисы своим пользователям. Базовый показатель готовности системы – это отношение времени фактического предоставления услуг к общему времени работы системы, выраженное в процентах. Для системы высокой готовности характерно значение порядка 99,999%. В реальной ситуации для таких комплексов время незапланированного простоя составляет несколько минут в год.

Отказоустойчивость аппаратной части системы предполагает такую реализацию по ее составу, при которой сбои отдельных модулей не приводят к отказу всей системы в целом. Для этого применяются самые различные методы: дублирование, коррекция ошибок, majority-voting, thermal-мониторинг и т. д.

Основные схемы построения кластеров

На практике применяются две основные схемы построения: Active-Active и Active-Passive, каждая из которых имеет свои преимущества и недостатки. Первая из них предусматривает равномерное распределение выполняемой задачи между всеми узлами кластера, а в случае выхода из строя одного узла – между оставшимися. Главным недостатком такой схемы считается необходимость использования прикладного ПО, специально разработанного для выполнения на кластере, а основным преимуществом – увеличение скорости выполнения задачи.

Вторая схема, Active-Passive универсальнее, поскольку допускает решение более широкого круга задач, ориентированных на обычные серверы. В отличие от предыдущей, в таком варианте задача выполняется только на активном узле, а в случае его выхода из строя – на пассивном. Наряду с несомненными достоинствами есть и недостаток – невозможность наращивания скорости выполнения задач. Зато реализация такого кластера допустима за счет встроенных механизмов ОС. Для организации кластеров по последней схеме используются различные операционные системы, например такие, как Microsoft Cluster Server и Linux Failover Cluster. В случае применения модели Active-Active реализация возможна только за счет специального ПО, например Oracle RAC (Real Application Cluster).

Практическая реализация

В качестве примера такого подхода к реализации проектов подобного рода рассмотрим систему, разработанную компанией «Версия» и предназначенную для применения в тех случаях, когда требуется безотказный непрерывный доступ к данным по формуле 24×7×365 с нулевым временем простоя.

Этот вычислительный комплекс выбран не случайно, поскольку при его разработке было принято решение о создании системы высокой готовности, к тому же удовлетворяющей всем требованиям отказоустойчивости. Также обязательным требованием было наличие возможности гибкого масштабирования с расчетом не только создания любой конфигурации, но и адаптивного расширения функциональности после интеграции системы в существующую инфраструктуру.

Таким образом, при разработке заранее предусматривалась возможность обслуживания и профилактики системы без ее останова, конфигурация просчитывалась с учетом потенциальных точек отказа и обязательного их устранения. Во всех модулях применялось дублирование жизненно важных узлов, сочетаемое с возможностью перехвата управления: в нормальном режиме каждый контроллер выполняет свои функции с подчиненными узлами, но при выходе из строя одного из них второй контроллер будет обслуживать все остальные узлы до замены первого.

Ядром вычислительной системы стал сервер ВЕРСИЯ SP-4000. Он поддерживает до четырех 64-разрядных процессоров Intel Itanium 2 с тактовой частотой до 1,6 GHz (кэш-памятью третьего уровня до 9 МВ), до 32 GB оперативной памяти и до трех жестких дисков SCSI. Высокий уровень отказоустойчивости данной модели достигается резервированием компонентов сервера – блоков питания, вентиляторов, жестких дисков.

Все эти компоненты допускают возможность осуществления замены без выключения сервера (hot-plug); кроме того, замену устройств PCI тоже допустимо производить на лету. Помимо этого, данная модель характеризуется наличием универсальных программно-аппаратных средств Intel Server Management, представляющих собой мощные инструменты внутреннего (in-band) и внешнего (out-band) мониторинга и управления сервером.

В качестве коммутатора в разработанной конструкции применено 8-портовое решение SANbox 5200. Его использование дает возможность масштабирования до 64 подключений без дополнительного порта для межкоммутаторных соединений, производительность FibreChannel 10 Gbps и централизованное управление. Масштабируемость и быстродействие модульного коммутатора наращиваются по мере необходимости.

SANbox 5200 поддерживает трафик между коммутаторами, серверами и хранилищами со скоростью 2 Gbps и масштабируется от 4, 8, 12 и 16 до 64 портов в одном стеке. Функция NDCLA (non-disruptive code load and activation) позволяет добавлять, изменять или удалять свойства, не прерывая работу сети хранения данных.

Это один из первых FC-коммутаторов, конфигурировать и зонировать который можно, используя простые программы-мастера (wizard). ПО SANsurfer Management Suite упрощает управление стеками, помогая пользователям установить, конфигурировать, контролировать, диагностировать и осуществлять обновление при помощи одного приложения с простым графическим интерфейсом.

В качестве подсистемы хранения данных в кластер включены два высокоемких накопителя, выполненных по технологии SAN (Storage Area Network). Базовая конфигурация рассчитана на объем не менее 3,7 TВ, но при необходимости возможно расширение.

Каждое хранилище обеспечивает независимый аппаратно-программный мониторинг всех компонентов, контролируя состояние накопителей, источников питания, частоту вращения вентиляторов, температурный режим во всех модулях, своевременно информируя оператора о критических ситуациях, требующих вмешательства. Практически все модули могут быть заменены без остановки системы, в режиме hot plug.

Перспективы

Конечно, устройства такого рода достаточно специфичны и, как правило, разрабатываются для решения определенных проблем. Но, благодаря огромным (практически неограниченным) возможностям масштабирования рассмотренная конфигурация изменяется в весьма широких пределах, что позволяет адаптировать ее к задачам любого типа.

Представленная система ориентирована прежде всего на работу с базами данных большого объема, к которым предъявляются повышенные требования надежности. Такие задачи востребованы не только в корпоративно-промышленном секторе, но и в государственных структурах, впрочем, везде, где обрабатываемые данные имеют первостепенное значение.

Кластерные решения требуют особого внимания при их внедрении, но далеко не всегда в этом есть необходимость. Поэтому при выборе комплекса для обработки и хранения информации следует руководствоваться принципом превентивной конвергенции: если ценность данных или размер прогнозируемых убытков компании из-за простоя оборудования равны или превышают стоимость кластерной системы, выбор однозначно стоит делать в пользу последней.

Стратегія охолодження ЦОД для епохи AI