Co jste hasiči, co jste zálohovali?

26. 5. 2015

Asi takhle nějak by mohl začít můj nový článek o zálohování. Předem varuji slabší nátury, aby při čtení raději seděli a měli po ruce telefon pro případ nouze. Ale teď již k věci, dnes jsem prožil něco, co nepřeji nikomu. Popravdě myslím, že jsem si během 20 hodin prožil celou Božskou komedii od Dante Alighieri, jen to peklo bylo trochu delší.

Začalo to nevině telefonátem našeho technika: „Chystám zálohy na tom serveru, co jsi chtěl, nechci tě strašit, ale chová se divně”. Varování pro všechny: jakmile ajťák začne používat výrazy jako divně nebo není schopen popsat co se vlastně děje, zbystřete, protože se začíná dít něco opravdu divného. Tak si to necháte vysvětlit, co že je to divné a po dvou větách zjistíte, že i přesto, že máte pocit, že o IT něco víte a technik se snaží vám to vysvětlit, jak nejlépe umí, jediné čím jste si jisti, je to, že nevíte vůbec nic. Řeknete si, co to budu řešit, zavolám technikovi z datacentra, ať se na to podívá, je to jeho byznys.

První úspěch je ten, že vám v deset večer zvednou telefon, říkáte si super. Chvilku do telefonu parafrázujete, co jste pochopili, že je divné, a technik na druhé straně souhlasí, že se na to podívá. Řeknete si super, mám to z krku, všechno běží jako na drátkách, lidi se starají a je to fajn, vše bude za chvíli vyřešené. Ale to jsem ještě ani vzdáleně netušil, co se blíží.

Zvoní telefon, volá technik z data centra a do telefonu vám tvrdí, že na serveru nic divného nevidí, vytížený není atd. Takže jediné, co máte v rukávu, je, nasadit na tu jeho technickou převahu vašeho vlastního technika, ať si pánové vysvětlí, co je za problém, a co ne. Když se o půlnoci dozvíte, že pánové si to vysvětlili a problém je znám, říkáte si, že můžete jít v klidu spát, vždyť kdyby bylo zle, máme zálohu. A s tímto klidem v mysli jdete spát.

Je ráno. Dáte si svou kávu či čaj a jen tak při snídani kouknete, jak to večer dopadlo. A namátkou se chcete přihlásit do aplikace, ale ta se nenačte, řeknete si dobře, podívám se na server, ale ten neodpovídá.

Je 7:30 ráno a začínám řešit, co je špatně. Pořád mám ještě k dobru hodinu a půl, v Praze pracují až od 9. Zvedám telefon a volám do datacentra (tady začíná má role spojovatelky), dozvídám se, že večer se technici v rámci ochrany dat dohodli, že server raději vypnou. Volám našeho technika a zjišťuji co a jak. Informace je jasná: vypnout, připravit nový virtuální server, připojit disky a pokusit se obnovit data, ale z data centra neposlali ještě přístupy. Čas neúprosně běží a už teď je mi jasné, že do 9 ráno se to nestihne, tak informuji zákazníka, že je problém a pevně věřím, že do oběda to máme a vše jede jak má. Na všech stranách jsou přece profesionálové, kteří přesně vědí, co dělají! No to jsem si alespoň myslel.

Dobře máme tu 9 hodin ráno a říkáte si, co se děje, vždyť ve smlouvě je, že se vše zálohuje, tak ať vezmou image serveru a obnovíme ho. Žhavím telefon a zjišťuji, jak jsme na tom se zálohami, zda by někdo nemohl obnovit alespoň 24h stará data. Informace z data centra je nejistá, technik se chystá za dalším, který má zálohování na starosti a zjišťuje se, co se vlastně zálohovalo a kdy naposled.

Abych to zkrátil, v 10 přichází telefon, že teda nějaké zálohy máme. Říkáte si heuréka, jsme zachráněni. Jediné, na co musíte počkat, je nainstalování nějakého softwaru, který ty zálohy dokáže obnovit. Pomalu z vás opadá nervozita a stres a říkáte si, už to bude, jen mi obnoví data a za chvíli server běží. Ale další zrada se blíží a vy ji v růžových brýlích zálohovaného systému nevidíte.

11:17 volá datacentum, říkáte si super a s nadšením a očekáváním, že server je obnoven, zvedáte telefon, ale místo pozitivní zprávy přichází studená sprcha, kdy si říkáte to myslí vážně? Místo očekávaného obnoveného serveru vám technik datového centra oznámí, že nainstaloval software na obnovu dat do čistého virtuálního stroje, a že si máte obnovit, co chcete pomocí nějakých příkazů. Snažíte se technika přesvědčit, že to obnoví on, a naivně si myslíte, že s tím souhlasí a udělá to. Ale jen do toho okamžiku, než vám přijde email od vedení z datacentra, že oni vlastně tím, že vám dali nástroj pro obnovení, svoji akci končí, a je to na vás.

Po té co těsně před obědem přežijete první infarkt, vezmete notebook a vyjedete do datacentra popovídat si osobně, protože každá další hodina, kdy aplikace neběží, znamená nemalé problémy. A v očekávání, že osobně to vyřešíte rychleji, řeknete odborníkovi, co má obnovit a on tak učiní. Co by bránilo tomu, aby server do hodiny neběžel. 

To, co tomu brání, zjistíte na místě, a to zjištění je fatální. Je to totiž technik sám. I přesto že vám do emailu poslal jednoduché příkazy, jak obnovit data, sám není schopen je obnovit. V ten okamžik si začnete vytvářet plán B a říkáte si díky bohu, že jsem byl prozřetelný, a chtěl jsem rozdělit databázový disk a aplikační. Tím, že je to virtuálka, mi jen připojí databázový disk do obnoveného virtuálu, já natáhnu data a z gitu vytáhnu aplikaci a do hodiny jedeme, ne? Původní uložiště můžeme obnovovat pak.

Požádáte tedy technika, aby připojil databázový disk. Po hodině práce a konzultace s kolegou a opětovné instalaci virtuálního serveru se dozvíte, že jediné, co vás drželo ještě při životě, a to že máte na separátním disku databázi, je pryč. Protože technik sice disk připojí, ale žádná data nevidí.

A peklo je na světě. Záloha je, ale ne toho co potřebujete. Databáze, byť na separátním disku, který měl zamezit problémům, je pryč.

V těchto pekelných mukách uvítáte jakýkoliv záblesk naděje. A přichází varianta, že je tu někdo kdo snad chápe, jak ten zálohovací systém funguje, ale zrovna je u doktora. Nezbyde vám než počkat až se vrátí. Máme tu hnedle další hodinu pryč a informaci pro klienta stejnou jako na začátku: nemáme nic. Ale možná přijde kouzelník.

Kouzelník se dostavil a s ním i naděje. Našel data, která potřebujeme, a začal obnovu. Říkáte si hurá, máme alespoň scripty a data, třeba tam bude i záloha databáze. Ale hned v zápětí si prožijete infarkt číslo dvě, když zjistíte, že jediné, co máte, je databáze stará 4 měsíce. Pro databázi, která roste cca 150MB za měsíc, je to skoro jako byste neměli nic. Zvednete telefon, ujistíte se, že klient sedí, a oznámíte mu, že v podstatě nemáte nic. Všem je vám jasné, že cokoliv více než data starší než 24h, je likvidační, a máte za sebou třetí infarkt

Naštěstí občas při vás stojí všichni svatí (a to jsem nevěřící Tomáš). Zavoláte svému technikovi a ten si vyžádá nový virtuální server s připojenými poškozenými disky. Vzhledem k tomu, že dva odborníci předtím oznámili, že disk je mrtev - ať žije cloud, připravujete se pomalu na nejhorší a zkoušíte, jestli se ve třetím patře dá otevřít okno. 

Ráj přichází po cca 45 minut. Zavolal mi náš technik se slovy, tak jsem to obnovil, databáze je tam a tam. Sice o 15 let starší, ale i tak šťastný jako malé dítě informujete zákazníka, že není ještě vyhráno, ale teoreticky máte databázi, která bude aktuální i za cenu toho, že přijdete o jeden den.

Haleluja, to je to, co zvoláte, když zjistíte, že databáze je v pořádku. Teď už vám jen zbývá nainstalovat celý server v rekordním čase, aby aplikace běžela co nejdříve. 

I když jsem za poslední den prošel očistcem, peklem i rájem, neznamená to, že je vyhráno. Je nutné obnovit funkcionalitu původního serveru, a i tak nám pořád chybí nějaká data.

Jak se vyhnout výpadku na mnoho hodin?

  1. Nechte si vysvětlit, co vše se zálohuje.
  2. Nechte si nasimulovat, jak dlouho trvá obnova, a o co případně přijdete.
  3. Zvažte, co je pro vás důležité a zda se nevyplatí připlatit si za to, že máte například databázový server samostatně.
  4. Buďte jako dobrovolní hasiči a jednou za čas investujte do toho, že někdo udělá cvičení, které vám ukáže, zda je možné vaše data obnovit a v jakém čase.

Přeji vám, abyste se nikdy do podobné situace nedostali.