Данные уходят в сеть

18 январь, 2008 - 11:59Андрій Тищенко

Построение современной и надежной IT-инфраструктуры начинается с разграничения доступа к данным на публичный и внутренний. Вся информация, обладающая коммерческой ценностью, помещается в «резервации», идеальным местом для которых являются внешние дисковые массивы. Потом эти «резервации» огораживают «заборами» и по необходимости прокладывают к ним более или менее скоростные «дороги» – интерфейсы.

Сегодняшний уровень развития IT-инфраструктуры современных компаний, лавинообразный рост количества информации, все более высокие требования к надежности и безопасности ее хранения, а также необходимость обеспечения непрерывного доступа к ней выводит СХД на качественно новый уровень.

О хранении важных данных непосредственно на рабочих местах пользователей уже не стоит и говорить. Еще недавно наличие в организации выделенного файл-сервера решало если не все, то основную массу проблем электронного документооборота, а выделенное хранилище данных (DAS) казалось пределом совершенства. Однако на текущий момент даже DAS-системы в большинстве случаев уже не являются выходом из положения. Назрела необходимость переходить на следующий уровень построения СХД. Оптимальным решением стал NAS. Являясь весьма неплохим компромиссом между DAS- и SAN-архитектурами, NAS предлагает способ организации централизованного хранения и доступа к данным с неплохой масштабируемостью, высокой функциональностью и надежностью.

Именно сетевым хранилищам информации и посвящена сегодняшняя Тема номера. Мы решили осветить максимально широкий круг вопросов, начиная от теории, которая поможет разобраться, что же такое NAS и каковы сильные и слабые стороны данной технологии, и заканчивая обзором готовых решений, доступных отечественному покупателю.

Информация – важнейший компонент и ценный актив любого бизнеса. Если для начинающих компаний коммерчески значимы лишь базы операционных данных и в какой-то степени корпоративная переписка, то со временем к списку «ценностей» добавляются протоколы систем безопасности и контроля доступа, архивы систем видеонаблюдения, образы рабочих мест и многое другое. Объемы обрабатываемой и нуждающейся в сохранении информации растут непрерывно, она накапливается в системах хранения данных (СХД), задача которых – обеспечить, помимо запаса дискового пространства, доступность и скорость работы с ресурсом. Причем сделать это необходимо в соответствии с критичностью приложений и выделенными пользователям правами.

Данные уходят в сеть

Встроенная дисковая подсистема универсального сервера предприятия в роли СХД выглядит привлекательно только до первой потери данных. А еще очень тяжело даются отчеты, запускаемые бухгалтерами или интендантами. Когда с ростом объемов БД и документооборота такие задания начинают тормозить работу всей компании, то возникает насущная необходимость как-то ускорить дисковые операции. Увеличением мощности процессоров проблему не решить – ведь в обработке операций ввода-вывода участвуют центральные процессоры, контроллеры дисковых массивов и сами накопители. На скорость выполнения приложений влияют размеры как ОЗУ в целом, так и кэш-памяти всех уровней во всех задействованных устройствах. Замена компонентов на более скоростные не спасает – при росте объема хранения надо в первую очередь думать о дополнительном дисковом пространстве, а менять накопители на более емкие и наращивать их количество до бесконечности нельзя. И если бы только проблема была во вместимости серверного шасси и достаточной мощности источника питания. Вопрос в том, что с увеличением числа точек отказов надежность сервера и его встроенной системы хранения становится непозволительно низкой. Самое время обратиться к расчету стоимости простоя из-за различных сбоев.

Экстенсивное развитие IT-инфраструктуры предприятия приводит к тому, что в корпоративной сети появляется множество разрозненных относительно недорогих серверов и дисковых устройств, установленных в серверах или подключаемых к ним напрямую. В таком случае ни о каком централизованном управлении серверами и СХД, связности информации, безопасности в системах с фрагментированными данными говорить не приходится. Сегодня же четко выражена тенденция к централизации вычислительных ресурсов распределенных организаций. Оптимизация инфраструктуры и потоков данных технологически опирается на консолидацию серверов, что приводит к снижению их числа, сокращению количества поддерживаемых программных платформ и улучшению управляемости информационной системой предприятия в целом. Централизация данных на выделенных СХД является частью процесса консолидации серверов, хотя эволюция вычислительных мощностей и эволюция СХД описываются, вообще говоря, разными сценариями.

Чего ждут от систем хранения данных

Существующие технологии позволяют разворачивать приемлемые СХД предприятиям любого уровня. Конечно, с ростом капитализации бизнеса появляется естественный стимул к внедрению скоростной и надежной сети обработки, передачи и размещения данных, но даже малым предприятиям следует планировать инфраструктуру исходя из основной идеи разделения серверов на вычислительные средства и устройства хранения. Информация – самостоятельный объект долгосрочного хранения и централизованного управления в гетерогенной (состоящей из разнородных платформ и приложений) среде со своей структурой и внутренней логикой, собственным жизненным циклом.

Современные СХД должны обеспечивать организациям долгосрочные перспективы развития и эффективное расходование ресурсов. Их проектирование – всегда творческое переосмысление комплекса количественных и качественных параметров в соответствии со спецификой информационной системы.

Производительность. Показатели СХД зависят от типа внешнего дискового массива или ленточного накопителя, его интерфейса и места в инфраструктуре предприятия, внутренней компоновки и параметров носителей, всегда – под конкретными приложениями, которые обслуживает данное устройство. По паспорту производительность СХД характеризуется пропускной способностью в операциях записи/чтения и предельным количеством обслуживаемых операций ввода-вывода.

Надежность. В более общей задаче обеспечения непрерывности бизнеса основной целью является минимизация времени простоя системы. Борьба за надежность не сводится к дублированию критичных узлов – дисков, контроллеров, портов, элементов питания и вентиляции. Скорее это комплекс действий по обеспечению безотказности, долговечности, ремонтопригодности, сохранности, притом в составе большой информационной системы, где под объектом надежности понимается не дисковый массив (форма), а сами данные (содержание, а точнее, содержимое).

Функциональность как соответствие СХД задачам бизнеса подразумевает совместимость с существующими приложениями и перспективными технологиями. При разумном балансе между требованиями к системе и ценой реализации достигается адекватность выбранного решения – что сказывается на эксплуатационной эффективности и снижении стоимости владения информацией.

Безопасность. Централизация данных на СХД – уже прогресс в обеспечении информационной безопасности относительно «осколочного» хранения коммерческих данных на компьютерах пользователей, необходимая степень защиты против неквалифицированных действий или злого умысла. Для разграничения доступа клиентов ИС к данным применяются политики администрирования.

Управляемость. СХД ценны не сами по себе, а возможностями централизованного управления и бесшовной интеграции в информационную систему предприятия. Только безопасные и простые в управлении, они становятся составной частью корпоративных систем высокой готовности.

Масштабируемость. Способность к развитию СХД вместе с другими компонентами информационной системы закладывается исходя из целесообразности и экономической оправданности. Адаптивность к новым задачам бизнеса не обязательно означает «вверх», она может быть «в сторону» или «вниз». Место рабочего дискового массива в инфраструктуре предприятия может меняться, и чем разумнее она построена, тем больше возможностей остается для перепрофилирования устройств хранения, не поспевающих за растущими «аппетитами» приложений.

Архитектура и жизнь

Внешние устройства хранения данных отличаются по способу организации доступа (непосредственному от сервера или по сети), типу вычитываемых данных (файловому или блочному), внешнему интерфейсу, виду накопителей и многим другим параметрам. Привычная классификация по топологическим признакам делит внешние СХД на три категории: DAS (Direct Attached Storage) – системы хранения, непосредственно подключаемые к серверу; NAS (Network Attached Storage) – системы хранения, включаемые в сеть; SAN (Storage Area Network) – сети хранения данных.

Популярность DAS-системам принесли простота подключения и относительно невысокая цена реализации. Компаниям, чьи потребности уже превышают возможности одного сервера универсального назначения, непосредственное подключение к одному из них системы хранения по скоростному интерфейсу представляется логичным шагом по увеличению емкости дискового пространства. Производительность и кое-какую емкость хранения такие системы действительно обеспечить в состоянии. Доступность, защищенность, управляемость в сети – уже нет. Применение DAS-массивов оправданно для рабочих станций, локально обрабатывающих большие объемы информации (например, станций нелинейного видеомонтажа). Когда же речь идет о коллективной работе участников корпоративной сети с массивом общей информации, использование DAS становится неэффективным и небезопасным.

Технология NAS выросла из концепции файловых серверов как службы управления файлами для клиентов сети. NAS – это сервер с большой емкостью дискового пространства, как правило, подключаемый по интерфейсу Gigabit Ethernet и снабженный аппаратными средствами защиты данных. От обычного сервера его отличают собственная операционная система, поддержка клиентов различных ОС (Microsoft Windows, Linux, Mac OS и т. д.), простота установки и сопровождения. Основное назначение – хранение информации на удаленном носителе с возможностью разделения доступа и назначения прав пользователей. Доступ к NAS-устройствам осуществляется по локальной сети на уровне протоколов передачи файлов. Со стороны клиентов такие серверы выглядят как подключаемый дисковый сетевой ресурс, а работа с ним не требует установки специального оборудования и дополнительных программных продуктов. Высокий уровень устойчивости позволяет предоставлять NAS-системами немедленный доступ к информации и различные виды сетевого сервиса: резервное копирование данных, их миграцию, восстановление и репликацию на множестве серверов без отключения от сети.

SAN – это выделенная сеть скоростной передачи данных, состоящая из серверов, СХД (дисковых массивов, ленточных библиотек) и коммутаторов. Строится она, как правило, по технологии Fiber Channel (FC SAN). Доступ к данным в SAN осуществляется на уровне блоков (в отличие от NAS, где доступ реализован на уровне файлов). Основная идея SAN состоит в отделении устройств хранения данных от сервера и сетевой ОС, при ее использовании сервер не обслуживает обращения к дискам, его ресурсы расходуются на работу своих приложений. Сложность и стоимость решения SAN определяется количеством серверов и операционных систем, связываемых в сеть. Главные достоинства этой технологии – производительность и гибкая масштабируемость. Можно начать с массива с прямым подключением к серверу по FC, затем, если это потребуется, добавить коммутаторы, другие серверы и СХД, внедрив ПО управления. Недостаток FC SAN – в необходимости развертывания отдельной, достаточно дорогой инфраструктуры.

Сети SAN строят для обслуживания систем, критичных ко времени простоя, кластеров с балансировкой нагрузки (например, Oracle RAC), для работы в ERP-приложениях, в многопользовательских аналитических системах и других задачах с высокой дисковой нагрузкой. На массивах такой сети хранятся транзакционные БД предприятий и CRM, данные систем документооборота (например, Microsoft Exchange), резервные копии. При этом серверы и дисковые системы могут находиться на большом удалении друг от друга – как разнесенные территориально, устойчивые к отказам геокластерные системы.

Активно развивается класс СХД, подключаемых в сеть SAN по стандарту IP (Internet Protocol). IP SAN можно строить в привычной среде Ethernet, в которой серверы (initiators) обращаются к массивам данных (targets) по скоростному протоколу iSCSI (SCSI over IP), инкапсулирующему стандартные команды SCSI в пакеты TCP/IP с целью передачи последних по любым IP-сетям, включая Интернет. Преимущество сетей хранения на основе IP – в использовании существующей, недорогой в сопровождении инфраструктуры. Сходство NAS и iSCSI-массивов по способу подключения побуждает многие компании, выпускающие ПО, предлагать единую, производительную, надежную и масштабируемую платформу DSS (Data Storage server) под IP-ориентированные приложения. При этом файловая система обращается к данным на дисках, которые по отношению к NAS могут быть внутренними или внешними (подключаемыми по iSCSI) – что особенно удобно в гетерогенных средах.

Считается, что распространение технологии IP SAN сдерживается проблемой низкой производительности устройств хранения iSCSI и деградацией пропускной способности IP-сети из-за совмещения трафиков хранения данных и сообщений. На это есть два возражения – «технологическое» и «организационное». Первое состоит в том, что от копеечных инвестиций не следует ждать высокой отдачи. Для продуктивной утилизации ресурсов хранения инфраструктуру IP/Ethernet надо наращивать. Можно начать с замены в дисковых массивах обычных сетевых карт, управляемых программными драйверами iSCSI, на специализированные контроллеры NIC/iSCSI (и даже не 1 GE, a 10 GE), снимающие с центрального процессора двойную нагрузку обслуживания стека TCP и протокола iSCSI. Второе соображение связано с разделением сети Ethernet на несколько областей таким образом, чтобы по возможности развести трафики данных и систем хранения. Сегментацией можно добиться максимальной эффективности передачи обоих типов трафика в существующей общей инфраструктуре.

Подальше положишь – поближе возьмешь

Развитие устройств и сетей хранения данных в корпоративных системах сдерживается не только отсутствием доступных и эффективных технологий. Иногда вредят представления об информации как о материальном активе, место которому в собственном чулане. Возможно, тому виной наследственная память и собственный опыт ведения бизнеса прошлых лет. Долгие годы главным протоколом для перемещения данных между серверами и системами хранения был SCSI, а единственным форматом СХД – непосредственное подключение к серверу. Собственники данных вынужденно становились владельцами серверов и СХД, размещаемых на своих площадках. Обойти ограничения SCSI по масштабируемости удалось за счет создания коммутируемой сетевой инфраструктуры Fiber Channel. Со временем появились протоколы, позволяющие вводить устройства FC и команды SCSI в сетевые среды IP. Для того чтобы совместить хранение данных с корпоративным IP-трафиком, системным администраторам пришлось решать задачу поддержки синхронной работы разнородных сетей. Сегодня есть все предпосылки к тому, чтобы сетевое хранение на базе IP стало основным способом формирования корпоративной IT-среды обитания. Но нет никаких причин для консервирования данных в радиусе физического доступа.

Структурирование информации по разным типам СХД способствует решению задачи безопасного хранения данных. Силами квалифицированных администраторов такие системы обслуживаются как единый ресурс, к которому обращается большое количество локальных и удаленных приложений. При этом все данные или их часть могут находиться где угодно. Интеграция смешанных сетевых ресурсов хранения в мультипротокольные, удаленно управляемые сети SAN избавляет собственников от угрозы несанкционированного вмешательства в работу предприятий, а пользователей – от рисков работы с неполными или недостоверными данными. Так что у тех, кому важны связность информации, непрерывность бизнеса, полнота отчетов и управленческих показателей, просто не остается другого выбора.