Как не нужно делать облачный хостинг
В этой статье я хотел бы рассмотреть случай, который произошёл с одним из наших конкурентов, компанией cloudmouse.com. В результате некого «аппаратного сбоя» компания потеряла около 22 000 виртуальных машин своих клиентов без возможности восстановления. При этом ни о какой компенсации речи и не шло, техническая поддержка держала своих клиентов в неведении около 1,5 суток. Мы попробуем проанализировать допущенные ими ошибки и рассказать каким образом у нас реализована бесперебойность наших сервисов и ваших виртуальных машин.
Начнём с того, каким образом вообще возможно потерять виртуальные машины вместе с их резервными копиями. Это возможно в следующих случаях:
- Если в системе присутствует единая точка отказа оборудования, в данном случае, единственное хранилище данных (СХД), когда и сами виртуальные машины, и их резервные копии находятся на одних и тех же дисках. Такая конфигурация является грубым нарушением построения не только отказоустойчивой системы, но и безопасности данных вообще.
- Использовалась распределённая файловая система на основе Ceph, имеющая в своём составе большое количество систем хранения данных, дублирующих друг друга, но плохо сконфигурированная. Т.к. данная файловая система относительно молодая, то имеет некоторое количество неисследованных ошибок при работе с огромными массивами данных, получается, что даже используя большое количество многократно дублирующихся дисков, возможность потери данных никуда не девается.
- Эти проблемы были обнаружены специалистами нашей компании из описания произошедшей аварии и анализа причин, почему это могло произойти.
Теперь я расскажу о том, что сделано у нас для предотвращения таких ситуаций, т.к. такая авария – это, фактически, крах хостинг-провайдера.
Наша компания использует полное дублирование как физических гипервизоров, так и систем хранения данных, при этом, резервное копирование осуществляется в отдельную, изолированную среду, из которой, даже теоретически, невозможно удалить резервные копии виртуальных машин.
Резервное копирование осуществляется программным обеспечением всемирно известного бренда, причём, каждая резервная копия после создания в автоматическом режиме запускается и проверяется на работоспособность, что позволяет предотвратить довольно распространённое явление, когда копирование производится, но копии восстановить невозможно.
Говоря о дублировании оборудования, не стоит забывать и о сетевом оборудовании, которое, так же, продублировано в каждом из дата-центров, что, в свою очередь, сводит время простоя при аварии к считанным минутам.
К тому же, техподдержка обучена оперативно реагировать на запросы наших клиентов, в регламенте нашей работы чётко прописаны сроки реакции на те или иные инциденты. Причём, если при звонке в техническую поддержку в течении 30 секунд вам не ответил специалист, то звонок переводится на его непосредственного руководителя, что помогает оперативнее решать проблемы и избегать таких ситуаций в будущем.
Статью подготовил технический директор Гавриш Артем.
Если у вас возникли вопросы, просто наберите (812) 425-12-19.