Pe scurt despre downtimeul ING

redundancy

In serialul Arrow, Malcom Merlyn ii spune la un moment dat lui Oliver Queen faptul ca din toata cariera lui de afacerist de succes a invatat un singur lucru, si anume ca mereu e nevoie de redundanta:

redundancy

foto via Pinterest

Despre redundanta am scris cateceva atunci cand Delta Airlines a suferit downtime din cauza unui incendiu in centrul lor de date si m-am apucat sa scriu si acum, constantand ca uneori oameni precum Vali, care ar trebui sa stie mai bine cum e cu tehnologia o dau in bara scriind chestii de genul:

Tehnologia e fragilă. Nu există mecanisme de control și fail safe bune, pentru că ele sunt gândite de oameni. Când mașinile le vor gândi, atunci va fi mai bine. Și mașinile nu pot momentan gândi.

Apoi completand si concluzionand cu urmatoarea idee:

Și putem extinde aici: nu ne ținem informațiile doar într-un singur loc. Pozele pe un singur hard, contactele doar in telefon, banii la o singură bancă…

Bun, deci conform celor spuse de Vali e OK si posibil sa avem o oarecare redundanta in viata de zi cu zi, dar e imposibil sa avem redundanta din punct de vedere tehnologic pentru simplul fapt ca masinile nu gandesc singure.

O replica prin care as putea defini sincer opinia mea privind ideea lui e: “dafuq did I just read?”.

Dar s-o luam pe rand pentru ca unii precum Andrei au gandit-o mai bine:

  • Tehnologia de azi nu e nici pe departe limitata de aspecte geografice, iar (la fel cum spuneam si in cazul Delta) degeaba ai 5 servere care stocheaza fix aceleasi date daca le ai pe toate in acelasi centru de date. Daca e sa pice linia de net cu tot cu peeringuri sau linia electrica cu tot cu generatoare (s-a mai intamplat), atunci datele de pe cele 5 servere sunt inaccesibile. Ori lucrul asta e exemplul clar al ideii ca redundanta nu trebuie sa se faca doar la nivel local. E mult mai sigur sa ai 5 servere in 5 centre de date diferite preferabil in 5 tari diferite pe 5 continente diferite al caror acces public sa fie prioritizat doar la nivel de DNS printr-un serviciu similar cu ceea ce ofera Amazon Route35.
  • Rahatul se intampla si o sa se intample. Daca crezi ca ai un sistem informatic bulletproof te inseli amarnic. Orice componenta software si hardware o sa cedeze la un moment dat asa ca din cand in cand e logic sa faci cate o revizie de rutina a echipamentelor, sa inventariezi toate echipamentele care au vechime mai mare de 3 ani si sa le inlocuiesti cu altele noi pe cat posibil. Orice hard disk care a functionat 3 ani fara oprire realizand operatiuni simultane de citire si scriere ajunge sa reprezinte o bomba cu ceas.
  • Nu te bazezi niciodata doar pe faptul ca ai un backup automatizat. Trebuie sa ai mereu backup la backup si sa faci periodic simulari de restaurare bare metal, eventual folosind hardwareul vechi pe care tocmai l-ai inlocuit deoarece sunt sanse ca hardwareul sa crape sau sa aiba o latenta mai mare decat normal. Ce rezolvi facand lucrul asta? Ei bine in primul rand iti calculezi cu exactitate timpii de raspuns si in al doilea rand poti sa constientizezi si sa rezolvi situatii neprevazute, pentru ca de aia se numeste “disaster recovery”.
  • Documentezi totul pentru ca daca azi pui un IT-ist sa-ti faca sistemul si maine responsabilitatea de a gestiona o situatie de criza cade in carca altuia e absurd sa te astepti ca al doilea sa stie sau sa intuiasca ce si cum a facut primul pana la ultimul detaliu. Foarte multe situatii de criza se gestioneaza haotic doar fiindca nu stie mana stanga ce face cea dreapta.

Judecand dupa cele de mai sus as spune ca problemele celor de la ING nu puteau sa fie prevenite, dar impactul lor atat din punct de vedere al functionalitatii cat si din punct de vedere financiar putea sa fie minimalizat masiv. Singura variabila de luat in calcul in povestea asta nu tine nici pe departe de factorul tehnologic pentru ca tehnologia functioneaza perfect si se comporta perfect atunci cand te asiguri de lucrul asta.

In schimb, cand platesti IT-isti cu un salariu mediu pe economie ca sa poti sa dai directorilor bonusuri cat mai mari e mult mai probabil ca tehnologia sa te bata cu o mana legata la spate atunci cand te astepti mai putin.

OK, recunosc! N-a fost chiar “pe scurt”.