ЦОДы сегодня и завтра

30.09.2019

По мнению Uptime Institute, основное в работе ЦОДа сегодня -- совершенствование службы эксплуатации и повышение эффективности ИТ-инфраструктуры в целом. В перспективе большое значение будет иметь применение комплексных систем управления инфраструктурой ЦОДа (DCIM).

«ИКС-Медиа» публикует выдержки из интервью, которое Келли Харрис, старший контент-менеджер канала BrightTALK (США), взяла у Криса Брауна, технического директора Uptime Institute.

-- Могли бы вы выделить главное, что позволяет улучшить работу ЦОДа?
 
-- Сосредоточьтесь на повышении эксплуатационной дисциплины -- обучайте персонал, отлаживайте процедуры эксплуатации и добивайтесь необходимого функционала систем управления. Высокий уровень эксплуатации ЦОДа может нивелировать недостатки проектных решений, в то время как недостатки управления легко сведут на нет достоинства даже самого технологически надежного ЦОДа. Многие думают, что проблемы, с которыми они сталкиваются при работе инфраструктуры, обусловлены недочетами в технических решениях, однако мы, исходя из собираемой нами на протяжении 20 лет статистики отказов в ЦОДах, считаем, что необходимо концентрироваться на совершенствовании работы служб эксплуатации.
 
-- Что вы скажете об уплотнении мощности ИТ-систем?
 
-- Мы видим большие различия между тем, что ожидается в будущем, и тем, что делается сегодня. Новые объекты разрабатываются для поддержки высокоплотных ИТ-систем, значительного роста которых мы пока не наблюдаем. Существенная часть высокоплотных инсталляций сосредоточена в гиперЦОДах таких гигантов, как Facebook, Google и др. На развитие ЦОДов сильное влияние оказывает все более широкое использование виртуализации и программно определяемых технологий, которые позволяют создавать виртуальную инфраструктуру без привлечения дополнительных физических ресурсов. Таким образом, вычислительная мощность будет продолжать стремительно расти, тогда как рост потребности в технологическом пространстве, доступной мощности электропитания и ресурсах охлаждения может сравнительно замедлиться.
 
-- А не влияет ли на изменение требований к плотности развитие интернета вещей?
 
-- На данный момент развитие IoT стимулирует рост потребности в вычислительной мощности, но не ведет к существенному увеличению ее плотности на действующих площадках. Внедрение IoT часто требует переноса первого уровня вычислений ближе к точке генерации самих данных, и для решения этой задачи применяются различные стратегии граничных вычислений. Тут важно наличие edge-узлов, а не плотность мощности ИТ-систем в них.
 
В развивающихся регионах мы видим увеличение числа ЦОДов, построенных для удовлетворения местного спроса, но в них также не наблюдается резкого роста плотности. Вероятно, в будущем, когда у нас закончится физическое пространство для построения новых ЦОДов, можно будет ожидать повышения плотности, но пока этого не происходит.
 
-- Работает ли кто-нибудь над разработкой спецификаций и/или стандарта для Edge Computing?
 
-- Ряд организаций пытаются сформулировать стандарт для Edge Computing, но пока безрезультатно. Тем не менее фокус на пограничных вычислениях критически важен.
 
Мы в Uptime Institute работаем с поставщиками решений для Edge Computing, и при этом наша главная цель – гарантировать предоставление необходимых бизнесу услуг. Раньше многие считали, что если edge-ЦОДы -- это небольшие узлы, то они менее важны. Uptime Institute придерживается позиции, что пограничные дата-центры – значимая часть системы ЦОДов любой компании, поэтому их проектирование, строительство и оснащение так же важны, как и проектирование, строительство и оснащение основного ЦОДа.
 
-- Edge-ЦОДы управляются удаленно?
 
-- Да, большинство таких ЦОДов управляются удаленно. Как правило, это небольшие объекты, от одной серверной стойки до пары десятков, размещаемые вблизи места генерации данных, поэтому содержать отдельный штат для постоянного присутствия на таких объектах неоправданно.
 
-- Как меняются управление инфраструктурой и обеспечение безопасности ЦОДов?
 
-- Если говорить об ИТ-устройствах, которые предоставляют сервисы конечным пользователям, то в этой области за последние годы масса усилий была направлена на обеспечение кибербезопасности, что позволило сделать эти устройства хорошо защищенными. Миллионы долларов были вложены в системы кибербезопасности, установленные в большинстве ЦОДов для защиты данных и приложений от нежелательного воздействия.
 
При этом следует обратить внимание на то, что системы управления зданием все чаще используют протокол IP, а инженерное оборудование и его контроллеры подключаются к тем же системам. На некоторых объектах эти системы управления работают в тех же сетях (интернет или интранет) и с теми же протоколами передачи данных, что и ИТ-системы. В результате возникает ситуация, когда средства управления зданием, не рассматриваемые как критические, подвергаются риску несанкционированного доступа извне, поскольку не имеют надежной защиты.
 
К счастью, все больше ЦОДов начинают применять к системам управления инженерной инфраструктурой те же стандарты безопасности, что и к клиентским ИТ-системам, что существенно снижает вышеупомянутые риски.
 
-- Будут ли изменены критерии присвоения того или иного уровня Tier в системе сертификации Uptime Institute в силу появления новых возможностей резервирования на географически разнесенных площадках?
 
-- Эксперты Uptime Institute изучают вопросы отказоустойчивости систем распределенных вычислений, а также ее отражения в стандартах. Разработанные нашей организацией стандарты Tier сфокусированы на том, чтобы гарантировать соответствие отдельного ЦОДа определенному уровню надежности. В данном случае не требуется никаких обновлений критериев стандартов из-за появления новых схем гибридной отказоустойчивости, охватывающей дата-центры как для многопользовательского размещения оборудования, так и для организации облачных решений. Показатели гибридной отказоустойчивости основаны на оценке избыточности в системе из нескольких ЦОДов и, безусловно, важны при оценке непрерывности предоставления бизнес-сервисов. Соответствующий расчет можно сравнить с расчетом времени наработки на отказ для сложных систем.
 
-- Какая метрика для ЦОДа наиболее важна: PUE, RCI (Rack Cooling Index), RTI (Return Temperature Index) или что-то еще?
 
-- Рассматривать только одну метрику для оценки эффективности неправильно. Например, параметр PUE отражает лишь то, насколько эффективно ЦОД может доставить электроэнергию к ИТ-оборудованию, но он не показывает, насколько эффективно используется само это оборудование. Например, КПД систем ИБП повышается с увеличением уровня нагрузки, поэтому более высокая нагрузка ЦОДа может улучшить показатель PUE. Но если вы задействуете только 25% своих серверов, то такой ЦОД нельзя назвать эффективным даже при хорошем расчетном значении PUE. Если вы полагаетесь лишь на одну метрику для измерения эффективности и производительности объекта, то вы упускаете много возможностей для их повышения.
 
-- Как компании оценивают риски, связанные с выносом рабочей нагрузки в облака? Например, если ЦОД компании соответствует уровню Tier IV, то как ей оценивать уровень SLA для облачных сервисов?
 
-- Существуют два основных способа, с помощью которых предприятия могут снизить риски и создать облачную среду уровня Tier IV. Первый, и все более популярный, способ заключается в приобретении услуг «HA как сервис» (HA, High Availability -- высокая доступность) от облачного провайдера, как, например, предлагают Rackspace или Google. Второй способ заключается в том, чтобы самостоятельно разработать индивидуальное решение для резервирования с использованием двух или большего числа публичных или частных облаков.
 
Основной подход к обеспечению высокой доступности облачного сервиса опирается на те же схемы избыточности, что и архитектура ЦОДа уровня Tier IV. На практике серверы объединяются в кластер, на входе которого устанавливается балансировщик нагрузки. Последний распределяет запросы на все серверы в кластере, и в случае сбоя отдельного сервера нагрузка будет поделена между остальными. Как правило, в таком кластере имеется дополнительный резервный серверный узел, поэтому если один из узлов выходит из строя, клиент не ощущает возрастания задержки, а остальные узлы не становятся перегруженными. Эта же концепция может быть применена и для географически разнесенных узлов.
 
Такой подход гарантирует, что данные неизменно будут доступны клиентам в случае сбоя отдельного сервера или даже отказа всей площадки. Уровень доступности инфраструктуры может быть повышен за счет использования нескольких облачных провайдеров в разных географических зонах.
 
-- Каково на сегодня оптимальное значение PUE? Что говорит опыт Uptime Institute?
 
-- На этот вопрос нет однозначного ответа. PUE -- базовая метрика для оценки энергоэффективности механической и электрической (M&E) инфраструктуры ЦОДа. Знание величины PUE важно тем, что позволяет владельцу ЦОДа понимать текущий уровень энергоэффективности инфраструктуры и соответственно планировать его повышение. Тем не менее нам известны примеры ЦОДов, использующих весьма эффективное M&E-оборудование, однако PUE таких объектов выше 1,6 – из-за нерационального управления ИТ-оборудованием. Кроме того, метрика PUE не привязана к фактически выполняемым задачам, поэтому ЦОД может демонстрировать привлекательный показатель PUE, но при этом вообще не выполнять практической работы!
 
Конкретное значение обсуждаемой метрики не так важно, как понимание ее сути и наличие грамотного плана непрерывного улучшения. Uptime Institute рекомендует стремиться к повышению общей эффективности ИТ-инфраструктуры и придерживаться подхода, ориентированного на бизнес-результаты, а не фокусироваться на величине PUE, являющейся лишь малой частью общей оценки. Повышение эффективности ИТ-среды требует целостного подхода «сверху вниз», продуманной оптимизации ИТ-операций и рациональной загрузки ИТ-оборудования. Лишь незначительная доля таких изменений связана непосредственно с энергоэффективностью инженерной инфраструктуры, отраженной в величине PUE.

-- Существуют ли общие рекомендации по выводу ЦОДа из эксплуатации?
 
-- Общих рекомендаций относительно того, когда следует прекращать работу ЦОДа, нет. Решение о выводе ЦОДа из эксплуатации зависит от целого ряда факторов, и основным зачастую является старение и износ инфраструктуры. Кроме того, появление в последнее время облачных и пограничных вычислений, а также гибридных ИТ-сред вызвало изменение ИТ-стратегий, что повлекло за собой закрытие многих ЦОДов.
 
Нам также известен ряд хорошо обслуживаемых ЦОДов со сроком службы более 20 лет, компании-владельцы которых не намерены их закрывать. Эти компании, как правило, имеют стратегический план развития своих ИТ-сред и ЦОДов и работают четко по такому плану. С учетом его положений принимаются инвестиционные решения. Важно, чтобы такой план разрабатывался не за счет усилий отдельных служб компании, будь то служба ИТ, финансирования или недвижимости. ИТ-стратегия развития ЦОДа должна формироваться с участием представителей всех этих служб, работающих в партнерстве. Кроме того, такая стратегия должна регулярно пересматриваться и корректироваться.
 
-- Как в ближайшее время будут развиваться системы DCIM для коммерческих ЦОДов, обслуживающих большое число заказчиков (multi-tenant)?
 
-- Системы DCIM для коммерческих ЦОДов, очевидно, будут развиваться от реализации отдельных базовых функций мониторинга электропитания и параметров рабочей среды (включая выдачу сигналов тревоги и формирование отчетов) в направлении предоставления комплексных функций управления, в том числе возможности управления изменениями и конфигурациями. Владельцы многопользовательских ЦОДов, предлагающие услуги «удаленных рабочих рук», будут использовать средства DCIM для управления активами (asset management), предоставляя своим клиентам возможность удаленно отслеживать работы, выполняемые на площадке, в том числе с аудитом рабочих процессов.
 
В перспективе предоставление услуг будет оцениваться с помощью качественных и количественных показателей, которые определяют не только наличие услуги, но и ее стоимость и производительность. Поэтому системы DCIM смогут предоставлять полный объем аналитики, давая понимание того, как работа организована, и возможность контроля выполнения этой работы. Для этого в многопользовательские системы DCIM, вероятно, будут встраиваться программные шлюзы для взаимодействия с другими программными инструментами управления, такими как ITSM или средства управления виртуальными машинами. Это позволит клиентам соотносить конкретные рабочие показатели с физическими характеристиками ЦОДа, получать прозрачную экономическую оценку, определять достаточный объем ресурсов для выполнения поставленных задач и т.д