Сбои в работе датацентров

Сбои в работе датацентров могут привести к недоступности сервиса или данных, но YDB разработана специально для решения таких проблем. Разные факторы могут вызвать сбои датацентра — сбои в подаче электроэнергии, стихийные бедствия, кибератаки и пр. Распространённая отказоустойчивая топология кластера YDB включает три датацентра или зоны доступности. В этом случае YDB может продолжать работу, даже если будет отключён один датацентр и одна серверная стойка в другом датацентре. Тем не менее, данная ситуация приведёт к переезду таблеток из отключенного датацентра на рабочие узлы, что временно приводит к увеличению задержек в выполнении запросов.

Диагностика

Чтобы установить недоступность одного из датацентров кластера YDB, выполните следующие шаги:

  1. Откройте Встроенный UI.

  2. На вкладке Nodes проанализируйте индикаторы состояния в колонках Host и DC.

    Если все узлы в одном из датацентров недоступны, то в этом датацентре, скорее всего, произошёл сбой.

    В противном случае, посмотрите на колонку Rack и проверьте статус узлов YDB в каждой серверной стойке. Эта информация поможет определить недоступность отдельных серверных стоек, что можно классифицировать как частичный сбой в работе датацентра.

Рекомендации

Обратитесь в поддержку. В больших организациях это может быть своя команда, отвечающая за работу низлежащей инфраструктуры. В других случаях обратитесь в поддержку облачного провайдера или хостинга. Также по возможности проверьте статус датацентра, если таковая страница существует.

Важно учитывать возможные сбои в работе датацентров при планировании мощностей, требуемых для работы базы данных. Узлы YDB в каждом датацентре должны иметь достаточно резервных аппаратных ресурсов для нормальной работы при полной нагрузке в случае сбоев в работе датацентров.