Метрокластер. 5 основных “active -active” решений. Цикл статей. Часть 1.
Метрокластер – вершина технологий СХД
МетроКластер (MetroCluster) – геораспределенный ( обычно разнесенный на несколько площадок в пределах города/ района) и стойкий к отказам кластер дисковых ресурсов, позволяющий исключить потерю информации за счет кластеризации, зеркалирования, а также механизмов и алгоритмов самовосстановления . Это самодостаточное решение, обеспечивающее непрерывный доступ к данным и устраняющее необходимость в использовании сложных сценариев отказоустойчивости.
Основные преимущества:
- Автоматическое или полуавтоматическое переключение между геораспределенными площадками, ЦОДами
- Защита от всевозможных сбоев в оборудовании
- Единое решение: понятное развертывание и поддержка
- Простое и быстрое восстановление после различных сбоев
- Минимизация влияния человеческого фактора
- Высокий уровень доступности дискового ресурса – 99,99%
- Возможна балансировка нагрузки на дисковые ресурсы между двумя ЦОДами
Узкие места:
- Технологическая сложность / сложный дизайн решения
- Многочисленные требования и ограничения в части оборудования и ПО
- Ограничения, связанные с расстояниями между ЦОД
- Обновление метрокластера требует навыков и четкого следования установленной процедуре вендора. Необходим квалифицированный персонал
- Стоимость решения
В нашем цикле статей мы рассмотрим особенности пяти основных решений для хранения данных “active-active”в отрасли.
Решение HyperMetro вендора 1
Решение первого вендора для хранения данных active-active основано на функции HyperMetro конвергентной системы хранения OceanStor . HyperMetro использует архитектуру active-active для формирования кросс-сайтового кластера с двумя массивами хранения для организации зеркалирования данных в реальном времени. Данные LUN active-active массивов на обоих концах синхронизируются в реальном времени, и обе стороны могут одновременно обрабатывать запросы ввода-вывода на чтение и запись от сервера приложений, предоставляя серверу приложений неразличимые возможности параллельного active-active доступа. При отказе любого дискового массива автоматически осуществляется плавное переключение на хранилище, которое располагается на другом конце, что позволяет организовать бесперебойную работу бизнеса.
1.2. Особенности решения
(1) Дизайн без шлюза: Архитектура Hyper Metro active-active не требует развертывания дополнительных виртуализированных устройств с функцией шлюз и напрямую использует два массива хранения для формирования кросс-сайтовой кластерной системы.
Она поддерживает максимум 32 контроллера хранения, то есть два массива хранения по 16 контроллеров в active-active режиме
(2) Путь доступа к вводу/выводу: На стороне хоста приложения Hyper Metro объединяет active-active LUN-участники на двух массивах хранения в один active-active LUN через программное обеспечение многопутевого хоста UltraPath и предоставляет возможности чтения и записи ввода/вывода приложению в многопутевом режиме Vdisk . Когда приложение обращается к Vdisk , Ultrapath выбирает наилучший путь доступа на основе режима многопутевого режима и отправляет запрос ввода/вывода в массив хранения.
В зависимости от расстояния развертывания active-active сайтов Hyper Metro предоставляет две стратегии доступа к вводу-выводу для выбора.
Первая — режим балансировки нагрузки: в этом режиме может быть достигнута балансировка нагрузки между массивами ввода-вывода, то есть ввод/вывод отправляется на два массива в шардированном виде. Размер шарда можно настроить. Например, если размер шарда составляет 128 МБ, ввод-вывод с начальным адресом 0-128 МБ отправляется на массив A, 128 МБ-256 МБ отправляется на массив B и т. д. Режим балансировки нагрузки в основном используется в сценариях, где АА сервисы развернуты в одном и том же центре обработки данных. В этом сценарии производительность хост-сервиса, обращающегося к двум АА устройствам хранения, почти одинакова. Чтобы максимально использовать ресурсы двух устройств хранения, хост-ввод-вывод отправляется на два массива в шардированном виде.
Другой режим — предпочтительный массив: в этом режиме пользователь указывает предпочтительный массив доступа на OceanStor. UltraPath . При обращении хост-сервиса, ввод-вывод будет сбалансирован только по нагрузке и выдан на предпочитаемом пути массива, установленном пользователем, и не будет сгенерирован кросс-массивный доступ ввода-вывода. Только когда предпочитаемый массив выходит из строя, он переключается на непредпочитаемый массив для выдачи ввода-вывода. Режим предпочитаемого массива в основном используется в сценариях, где active-active сервисы развернуты в двойных центрах обработки данных, которые находятся далеко друг от друга. В этом сценарии стоимость кросс-сайтового доступа в active-active центрах обработки данных высока.
Если расстояние между двумя центрами обработки данных составляет 100 м, передача туда и обратно обычно занимает около 1,3 мс.
Режим предпочитаемого массива может сократить количество кросс-сайтовых взаимодействий, тем самым повышая производительность ввода-вывода. Для сценариев чтения данных хосту службы active-active центра обработки данных необходимо только прочитать массив хранения, соответствующий центру обработки данных, избегая чтения хостом данных между центрами обработки данных и повышая общую производительность доступа. Для сценариев записи данных бизнес-хост напрямую записывает данные в массив хранения active-active, соответствующий центру обработки данных, чтобы избежать пересылки данных хостом между центрами обработки данных и полностью использовать возможности active-active. HyperMetro active-active. Каждый контроллер в кластере active-active может получать запросы ввода- вывода записи , а локальный контроллер обрабатывает запросы ввода-вывода записи локального хоста, сокращая количество пересылок между центрами обработки данных и повышая общую производительность решения.
(3) Сетевое взаимодействие на уровне хранения: на следующем рисунке показана типичная сетевая архитектура для решения Hyper Metro «активный-активный». Можно построить три типа сетей:
- массив и хост,
- зеркалирование «активный-активный»
- внутригородское соединение.
Сеть передачи данных отделена от бизнес-сети. Связь между двумя массивами хранения active-active поддерживают каналы FC или IP. Рекомендуется использовать каналы FC, но RTT (задержка приема-передачи) между сайтами должна быть менее 2 мс. Кроме того, канал между массивом хранения и арбитражным сервером использует общий канал IP.
(4) Интегрированный active-active: набор устройств active-active в рамках этого решения поддерживает как файловые службы данных (File Service), так и блочные службы данных (Block Service) и может предоставлять функции active-active:
- файловая система NFS
- блочное хранилище SAN.
SAN и NAS совместно используют набор арбитража, который может гарантировать, что при сбое связи между двумя сайтами файловое хранилище и блочное хранилище будут предоставлены одним и тем же сайтом для обеспечения согласованности арбитража.
SAN и NAS совместно используют сеть, а тактовый импульс, конфигурация и физические каналы передачи данных между сайтами унифицированы. Одна сеть может соответствовать передаче SAN и NAS и поддерживает полное развертывание IP бизнес-сети, межсайтовой сети и арбитражной сети.
(5) Согласованность данных на уровне хранилища: согласованность данных обеспечивается за счет двойной записи ввода-вывода. В нормальных условиях системы любые отправленные данные ввода-вывода приложения должны быть записаны в оба массива одновременно перед возвратом на хост, гарантируя , что данные на двух массивах согласованы в реальном времени. Есть механизм распределенной блокировки (DLM), чтобы гарантировать, что когда хост обращается к данным по одному и тому же адресу хранилища, они записываются одним из них, чтобы обеспечить согласованность данных; когда одно хранилище недоступно, он имеет механизм обработки разницы данных. Когда одно из хранилищ недоступно, записывается только обычное хранилище, а изменения данных записываются в пространство DCL (журнал изменений данных). После восстановления массива HyperMetro автоматически восстановит отношение active-active и запишет приращение данных в восстановленное хранилище с помощью информации, записанной в DCL. Преимущество заключается в том, что нет необходимости синхронизировать все данные полностью, и весь процесс «прозрачен» для хоста и не повлияет на бизнес хоста.
(6) Технология FastWrite : В традиционном общем решении ввод-вывод записи между двумя сайтами должен проходить через два взаимодействия в процессе передачи: «команда записи» и «запись данных».
Теоретически, когда расстояние между двумя сайтами составляет 100 км, это принесет 2 RTT (задержки на прием и передачу), как показано на левом рисунке ниже. Для повышения производительности двойной записи технология FastWrite объединяет «команду записи» и «запись данных» в одну передачу, сокращая количество взаимодействий ввода-вывода между сайтами вдвое. Теоретически, линия передачи длиной 100 км имеет только 1 RTT, что улучшает общую производительность ввода-вывода записи, как показано на правом рисунке ниже.
(7) Технология восстановления плохих блоков между узлами: для повышения надежности данных Hyper Metro имеет технологию автоматического восстановления плохих блоков между узлами, которая может автоматически выполнять восстановление без вмешательства человека, и доступ к бизнесу не затрагивается. Процесс выглядит следующим образом (см. рисунок ниже): Производственный хост считывает данные хранилища A—>Хранилище A находит плохой блок посредством проверки—>Пытается восстановить плохой блок посредством реконструкции, но восстановление не удается (если восстановление прошло успешно, следующий процесс не выполняется)—>Хранилище A проверяет удаленный статус «завершено» и инициирует чтение данных из удаленного массива B—>Чтение данных проходит успешно, и правильные данные возвращаются на производственный хост—>Восстанавливаются данные, соответствующие плохому блоку на локальном конце, с помощью удаленных данных.
(8) Технология RAID 2.0: Массив хранения может поддерживать различные технологии защиты RAID. Когда любой жесткий диск в группе RAID выходит из строя, технология RAID 2.0 может быстро перестроить RAID и восстановить данные на диске горячего резерва. Скорость значительно улучшена по сравнению с традиционной технологией, что снижает риск множественных сбоев дисков.
Продолжение следует. Следите за нашими новостями!