down down down, up up up

venerdì 22 aprile 2011
Quando un servizio globale va giù, lascia dei segni che non è facile dimenticare. Molti si accaniscono contro il modello che rappresenta, qualcuno cerca di spiegare, pochi cercano di tranquillizzare.
I FATTI
Il 21 Apr 2011, alle 1:41 AM PT, uno delle zone di Amazon (US-East-1) ha mostrato segni di eccessiva latenza e quindi di indisponibilità di alcuni servizi, i più danneggiati Quora e Reddit.
I report ufficiali dicono che un evento di rete ha scatenato una serie di remirroring sul servizio Elastic Block Storage (EBS), uno dei servizi di base che fornisce i volumi su cui vengono messe a disposizione le macchine virtuali del servizio EC2.
Questo ha scatenato una consumo anomalo di risorse e quindi a catena la possibilità di creare nuovi blocchi EBS.
Il problema si è stabilizzato fornendo risorse aggiuntive per accelerare il processo di ricostruzione dei blocchi
Il problema ha impattato solo sui clienti che non beneficiano di un modello di fornitura di Amazon che può ridondare su diverse zone.

IL COMMENTO
Da tutti si sente tuonare: "Il cloud computing è inaffidabile" ma la verità è che senza queste crisi, non si cresce e non si impara.
La maggior parte dei grandi progressi nel campo dell'ingegneria, sono stati originati da eventi disastrosi, eventi che hanno spinto i ricercatori a focalizzare l'attenzione su un problema specifico e a migliorare e rendere affidabile l'intero sistema sistema.
In questo caso niente vittime, si parla di un blackout di alcuni servizi in una determinata area. La pubblicità grauita che deriva dal tamtam mediatico probabilmente fa più bene che male alle aziende coinvolte. Ovviamente non ad Amazon, almeno sino a quando avrà dimostrato di essere in grado di governare efficacemente questi eventi senza che creino conseguenze ai servizi ospitati.
Tranquilli. Il cloud computing è un modello affidabile. Tutti i servizi che avevano attivato l'opzione di ridondanza multi-area non hanno avuto conseguenze, proprio a causa dei meccansimi di reindirizzamente automatico che hanno deviato le richieste sulle aree non colpite. Quello è cloud computing, se si chiede un hosting cloud vincolato ad un data center, si sta limitando la capacità intrinseca del sistema di adattarsi alle esigenze.

Shit happens, learn from it.

0 commenti:

Posta un commento