Построение современной и надежной IT-инфраструктуры начинается с разграничения доступа к данным на публичный и внутренний. Вся информация, обладающая коммерческой ценностью, помещается в «резервации», идеальным местом для которых являются внешние дисковые массивы. Потом эти «резервации» огораживают «заборами» и по необходимости прокладывают к ним более или менее скоростные «дороги» – интерфейсы.
Сегодняшний уровень развития IT-инфраструктуры современных компаний, лавинообразный рост количества информации, все более высокие требования к надежности и безопасности ее хранения, а также необходимость обеспечения непрерывного доступа к ней выводит СХД на качественно новый уровень.
О хранении важных данных непосредственно на рабочих местах пользователей уже не стоит и говорить. Еще недавно наличие в организации выделенного файл-сервера решало если не все, то основную массу проблем электронного документооборота, а выделенное хранилище данных (DAS) казалось пределом совершенства. Однако на текущий момент даже DAS-системы в большинстве случаев уже не являются выходом из положения. Назрела необходимость переходить на следующий уровень построения СХД. Оптимальным решением стал NAS. Являясь весьма неплохим компромиссом между DAS- и SAN-архитектурами, NAS предлагает способ организации централизованного хранения и доступа к данным с неплохой масштабируемостью, высокой функциональностью и надежностью.
Именно сетевым хранилищам информации и посвящена сегодняшняя Тема номера. Мы решили осветить максимально широкий круг вопросов, начиная от теории, которая поможет разобраться, что же такое NAS и каковы сильные и слабые стороны данной технологии, и заканчивая обзором готовых решений, доступных отечественному покупателю.
Информация – важнейший компонент и ценный актив любого бизнеса. Если для начинающих компаний коммерчески значимы лишь базы операционных данных и в какой-то степени корпоративная переписка, то со временем к списку «ценностей» добавляются протоколы систем безопасности и контроля доступа, архивы систем видеонаблюдения, образы рабочих мест и многое другое. Объемы обрабатываемой и нуждающейся в сохранении информации растут непрерывно, она накапливается в системах хранения данных (СХД), задача которых – обеспечить, помимо запаса дискового пространства, доступность и скорость работы с ресурсом. Причем сделать это необходимо в соответствии с критичностью приложений и выделенными пользователям правами.
Встроенная дисковая подсистема универсального сервера предприятия в роли СХД выглядит привлекательно только до первой потери данных. А еще очень тяжело даются отчеты, запускаемые бухгалтерами или интендантами. Когда с ростом объемов БД и документооборота такие задания начинают тормозить работу всей компании, то возникает насущная необходимость как-то ускорить дисковые операции. Увеличением мощности процессоров проблему не решить – ведь в обработке операций ввода-вывода участвуют центральные процессоры, контроллеры дисковых массивов и сами накопители. На скорость выполнения приложений влияют размеры как ОЗУ в целом, так и кэш-памяти всех уровней во всех задействованных устройствах. Замена компонентов на более скоростные не спасает – при росте объема хранения надо в первую очередь думать о дополнительном дисковом пространстве, а менять накопители на более емкие и наращивать их количество до бесконечности нельзя. И если бы только проблема была во вместимости серверного шасси и достаточной мощности источника питания. Вопрос в том, что с увеличением числа точек отказов надежность сервера и его встроенной системы хранения становится непозволительно низкой. Самое время обратиться к расчету стоимости простоя из-за различных сбоев.
Экстенсивное развитие IT-инфраструктуры предприятия приводит к тому, что в корпоративной сети появляется множество разрозненных относительно недорогих серверов и дисковых устройств, установленных в серверах или подключаемых к ним напрямую. В таком случае ни о каком централизованном управлении серверами и СХД, связности информации, безопасности в системах с фрагментированными данными говорить не приходится. Сегодня же четко выражена тенденция к централизации вычислительных ресурсов распределенных организаций. Оптимизация инфраструктуры и потоков данных технологически опирается на консолидацию серверов, что приводит к снижению их числа, сокращению количества поддерживаемых программных платформ и улучшению управляемости информационной системой предприятия в целом. Централизация данных на выделенных СХД является частью процесса консолидации серверов, хотя эволюция вычислительных мощностей и эволюция СХД описываются, вообще говоря, разными сценариями.
Существующие технологии позволяют разворачивать приемлемые СХД предприятиям любого уровня. Конечно, с ростом капитализации бизнеса появляется естественный стимул к внедрению скоростной и надежной сети обработки, передачи и размещения данных, но даже малым предприятиям следует планировать инфраструктуру исходя из основной идеи разделения серверов на вычислительные средства и устройства хранения. Информация – самостоятельный объект долгосрочного хранения и централизованного управления в гетерогенной (состоящей из разнородных платформ и приложений) среде со своей структурой и внутренней логикой, собственным жизненным циклом.
Современные СХД должны обеспечивать организациям долгосрочные перспективы развития и эффективное расходование ресурсов. Их проектирование – всегда творческое переосмысление комплекса количественных и качественных параметров в соответствии со спецификой информационной системы.
Производительность. Показатели СХД зависят от типа внешнего дискового массива или ленточного накопителя, его интерфейса и места в инфраструктуре предприятия, внутренней компоновки и параметров носителей, всегда – под конкретными приложениями, которые обслуживает данное устройство. По паспорту производительность СХД характеризуется пропускной способностью в операциях записи/чтения и предельным количеством обслуживаемых операций ввода-вывода.
Надежность. В более общей задаче обеспечения непрерывности бизнеса основной целью является минимизация времени простоя системы. Борьба за надежность не сводится к дублированию критичных узлов – дисков, контроллеров, портов, элементов питания и вентиляции. Скорее это комплекс действий по обеспечению безотказности, долговечности, ремонтопригодности, сохранности, притом в составе большой информационной системы, где под объектом надежности понимается не дисковый массив (форма), а сами данные (содержание, а точнее, содержимое).
Функциональность как соответствие СХД задачам бизнеса подразумевает совместимость с существующими приложениями и перспективными технологиями. При разумном балансе между требованиями к системе и ценой реализации достигается адекватность выбранного решения – что сказывается на эксплуатационной эффективности и снижении стоимости владения информацией.
Безопасность. Централизация данных на СХД – уже прогресс в обеспечении информационной безопасности относительно «осколочного» хранения коммерческих данных на компьютерах пользователей, необходимая степень защиты против неквалифицированных действий или злого умысла. Для разграничения доступа клиентов ИС к данным применяются политики администрирования.
Управляемость. СХД ценны не сами по себе, а возможностями централизованного управления и бесшовной интеграции в информационную систему предприятия. Только безопасные и простые в управлении, они становятся составной частью корпоративных систем высокой готовности.
Масштабируемость. Способность к развитию СХД вместе с другими компонентами информационной системы закладывается исходя из целесообразности и экономической оправданности. Адаптивность к новым задачам бизнеса не обязательно означает «вверх», она может быть «в сторону» или «вниз». Место рабочего дискового массива в инфраструктуре предприятия может меняться, и чем разумнее она построена, тем больше возможностей остается для перепрофилирования устройств хранения, не поспевающих за растущими «аппетитами» приложений.
Внешние устройства хранения данных отличаются по способу организации доступа (непосредственному от сервера или по сети), типу вычитываемых данных (файловому или блочному), внешнему интерфейсу, виду накопителей и многим другим параметрам. Привычная классификация по топологическим признакам делит внешние СХД на три категории: DAS (Direct Attached Storage) – системы хранения, непосредственно подключаемые к серверу; NAS (Network Attached Storage) – системы хранения, включаемые в сеть; SAN (Storage Area Network) – сети хранения данных.
Популярность DAS-системам принесли простота подключения и относительно невысокая цена реализации. Компаниям, чьи потребности уже превышают возможности одного сервера универсального назначения, непосредственное подключение к одному из них системы хранения по скоростному интерфейсу представляется логичным шагом по увеличению емкости дискового пространства. Производительность и кое-какую емкость хранения такие системы действительно обеспечить в состоянии. Доступность, защищенность, управляемость в сети – уже нет. Применение DAS-массивов оправданно для рабочих станций, локально обрабатывающих большие объемы информации (например, станций нелинейного видеомонтажа). Когда же речь идет о коллективной работе участников корпоративной сети с массивом общей информации, использование DAS становится неэффективным и небезопасным.
Технология NAS выросла из концепции файловых серверов как службы управления файлами для клиентов сети. NAS – это сервер с большой емкостью дискового пространства, как правило, подключаемый по интерфейсу Gigabit Ethernet и снабженный аппаратными средствами защиты данных. От обычного сервера его отличают собственная операционная система, поддержка клиентов различных ОС (Microsoft Windows, Linux, Mac OS и т. д.), простота установки и сопровождения. Основное назначение – хранение информации на удаленном носителе с возможностью разделения доступа и назначения прав пользователей. Доступ к NAS-устройствам осуществляется по локальной сети на уровне протоколов передачи файлов. Со стороны клиентов такие серверы выглядят как подключаемый дисковый сетевой ресурс, а работа с ним не требует установки специального оборудования и дополнительных программных продуктов. Высокий уровень устойчивости позволяет предоставлять NAS-системами немедленный доступ к информации и различные виды сетевого сервиса: резервное копирование данных, их миграцию, восстановление и репликацию на множестве серверов без отключения от сети.
SAN – это выделенная сеть скоростной передачи данных, состоящая из серверов, СХД (дисковых массивов, ленточных библиотек) и коммутаторов. Строится она, как правило, по технологии Fiber Channel (FC SAN). Доступ к данным в SAN осуществляется на уровне блоков (в отличие от NAS, где доступ реализован на уровне файлов). Основная идея SAN состоит в отделении устройств хранения данных от сервера и сетевой ОС, при ее использовании сервер не обслуживает обращения к дискам, его ресурсы расходуются на работу своих приложений. Сложность и стоимость решения SAN определяется количеством серверов и операционных систем, связываемых в сеть. Главные достоинства этой технологии – производительность и гибкая масштабируемость. Можно начать с массива с прямым подключением к серверу по FC, затем, если это потребуется, добавить коммутаторы, другие серверы и СХД, внедрив ПО управления. Недостаток FC SAN – в необходимости развертывания отдельной, достаточно дорогой инфраструктуры.
Сети SAN строят для обслуживания систем, критичных ко времени простоя, кластеров с балансировкой нагрузки (например, Oracle RAC), для работы в ERP-приложениях, в многопользовательских аналитических системах и других задачах с высокой дисковой нагрузкой. На массивах такой сети хранятся транзакционные БД предприятий и CRM, данные систем документооборота (например, Microsoft Exchange), резервные копии. При этом серверы и дисковые системы могут находиться на большом удалении друг от друга – как разнесенные территориально, устойчивые к отказам геокластерные системы.
Активно развивается класс СХД, подключаемых в сеть SAN по стандарту IP (Internet Protocol). IP SAN можно строить в привычной среде Ethernet, в которой серверы (initiators) обращаются к массивам данных (targets) по скоростному протоколу iSCSI (SCSI over IP), инкапсулирующему стандартные команды SCSI в пакеты TCP/IP с целью передачи последних по любым IP-сетям, включая Интернет. Преимущество сетей хранения на основе IP – в использовании существующей, недорогой в сопровождении инфраструктуры. Сходство NAS и iSCSI-массивов по способу подключения побуждает многие компании, выпускающие ПО, предлагать единую, производительную, надежную и масштабируемую платформу DSS (Data Storage server) под IP-ориентированные приложения. При этом файловая система обращается к данным на дисках, которые по отношению к NAS могут быть внутренними или внешними (подключаемыми по iSCSI) – что особенно удобно в гетерогенных средах.
Считается, что распространение технологии IP SAN сдерживается проблемой низкой производительности устройств хранения iSCSI и деградацией пропускной способности IP-сети из-за совмещения трафиков хранения данных и сообщений. На это есть два возражения – «технологическое» и «организационное». Первое состоит в том, что от копеечных инвестиций не следует ждать высокой отдачи. Для продуктивной утилизации ресурсов хранения инфраструктуру IP/Ethernet надо наращивать. Можно начать с замены в дисковых массивах обычных сетевых карт, управляемых программными драйверами iSCSI, на специализированные контроллеры NIC/iSCSI (и даже не 1 GE, a 10 GE), снимающие с центрального процессора двойную нагрузку обслуживания стека TCP и протокола iSCSI. Второе соображение связано с разделением сети Ethernet на несколько областей таким образом, чтобы по возможности развести трафики данных и систем хранения. Сегментацией можно добиться максимальной эффективности передачи обоих типов трафика в существующей общей инфраструктуре.
Развитие устройств и сетей хранения данных в корпоративных системах сдерживается не только отсутствием доступных и эффективных технологий. Иногда вредят представления об информации как о материальном активе, место которому в собственном чулане. Возможно, тому виной наследственная память и собственный опыт ведения бизнеса прошлых лет. Долгие годы главным протоколом для перемещения данных между серверами и системами хранения был SCSI, а единственным форматом СХД – непосредственное подключение к серверу. Собственники данных вынужденно становились владельцами серверов и СХД, размещаемых на своих площадках. Обойти ограничения SCSI по масштабируемости удалось за счет создания коммутируемой сетевой инфраструктуры Fiber Channel. Со временем появились протоколы, позволяющие вводить устройства FC и команды SCSI в сетевые среды IP. Для того чтобы совместить хранение данных с корпоративным IP-трафиком, системным администраторам пришлось решать задачу поддержки синхронной работы разнородных сетей. Сегодня есть все предпосылки к тому, чтобы сетевое хранение на базе IP стало основным способом формирования корпоративной IT-среды обитания. Но нет никаких причин для консервирования данных в радиусе физического доступа.
Структурирование информации по разным типам СХД способствует решению задачи безопасного хранения данных. Силами квалифицированных администраторов такие системы обслуживаются как единый ресурс, к которому обращается большое количество локальных и удаленных приложений. При этом все данные или их часть могут находиться где угодно. Интеграция смешанных сетевых ресурсов хранения в мультипротокольные, удаленно управляемые сети SAN избавляет собственников от угрозы несанкционированного вмешательства в работу предприятий, а пользователей – от рисков работы с неполными или недостоверными данными. Так что у тех, кому важны связность информации, непрерывность бизнеса, полнота отчетов и управленческих показателей, просто не остается другого выбора.