Caída 6/06/2017

Durante el día de ayer pudimos ver EOL estaba operativa con una home que mostraba el timeline de twitter, en la información que se hizo pública se decía que se debía a problemas con el HW.
Si no es demasiada molestía, ¿se puede puede publicar lo que ocurrió y las medidas que se han cogido?
Más que nada es curiosidad y para aprender O:-)
Si véis conveniente borrar el hilo y que es una información que no se tiene porque saber, sin problemas.

Saludos y animo a tod@s
Pillo sitio. XD

Pienso que al menos deberían informar de fallo, causas y soluciones. Fue una caída de muchisimas horas.
Se va melado un día de vacaciones y mirar...
XD

a mi tambiem me gustaría saber algo al menos.
Me sumo a la petición :)
Queremos saberrrr! Me uno a la petición.

Yo tengo una tarjeta de 4GB de RAM DDR2 que me sobra. Os hace falta? XD
Si bien es cierto que al principio tuiteamos lo de "problema de hardware", acabó siendo puramente software. La gente de Comvive desde el primer momento nos ayudó para descartar rápidamente un disco roto o algo similar, así que ellos no merecen más que agradecimientos :)

Todo empezó con un disco llenándose de forma rápida e inesperada durante la madrugada del día 6. Eso normalmente no provocaría otra cosa que una simple parada de MySQL y un cartelito de error, pero por razones que todavía no están claras apareció corrupción de datos.

Desde las 9 hasta aproximadamente las 18h intentamos por todos los medios solucionar "in-place" esa corrupción, sin éxito. Insistimos durante muchas horas en esta opción porque creíamos que sería la más rápida que nos permitiera mantener el 100% de los datos sin pérdidas. Pero al final la abandonamos y decidimos restaurar de backup, que entre pitos y flautas no se pudo completar con éxito hasta aproximadamente las 3 de la madrugada del día siguiente. Un rato después reabrimos la web, con el 100% de los datos recuperados.

Los procesos los teníamos, pero nos falló quizás la ejecución. Ya sabéis el chiste de la factura del ingeniero, 1 euro por apretar un tornillo, 1000 euros por saber qué tornillo apretar XD Pero como punto positivo, si nos volviese a ocurrir de nuevo probablemente serían muchas menos horas de parada, y ahora además tenemos claro qué pulir del sistema de backups para que puedan ser aún menos.
Se agradece mucho la explicación @melado, me alegro que pudierais volver a estar online sin pérdidas [oki].
melado escribió:Si bien es cierto que al principio tuiteamos lo de "problema de hardware", acabó siendo puramente software. La gente de Comvive desde el primer momento nos ayudó para descartar rápidamente un disco roto o algo similar, así que ellos no merecen más que agradecimientos :)

Todo empezó con un disco llenándose de forma rápida e inesperada durante la madrugada del día 6. Eso normalmente no provocaría otra cosa que una simple parada de MySQL y un cartelito de error, pero por razones que todavía no están claras apareció corrupción de datos.

Desde las 9 hasta aproximadamente las 18h intentamos por todos los medios solucionar "in-place" esa corrupción, sin éxito. Insistimos durante muchas horas en esta opción porque creíamos que sería la más rápida que nos permitiera mantener el 100% de los datos sin pérdidas. Pero al final la abandonamos y decidimos restaurar de backup, que entre pitos y flautas no se pudo completar con éxito hasta aproximadamente las 3 de la madrugada del día siguiente. Un rato después reabrimos la web, con el 100% de los datos recuperados.

Los procesos los teníamos, pero nos falló quizás la ejecución. Ya sabéis el chiste de la factura del ingeniero, 1 euro por apretar un tornillo, 1000 euros por saber qué tornillo apretar XD Pero como punto positivo, si nos volviese a ocurrir de nuevo probablemente serían muchas menos horas de parada, y ahora además tenemos claro qué pulir del sistema de backups para que puedan ser aún menos.


Primero @melado agradecerte la explicación, de todas estas aventuras se aprende mucho.

Sin entrar demasiado en detalle, ¿se podría saber cuales son las mejoras/optimizaciones en el proceso de restauración de los backups?

¿Se podría saber también de qué volumen de copias de seguridad estamos hablando?

Saludos ;)
Estaría curioso que alguna vez hicierais algún reportaje o noticia en portada sobre como funciona EOL y sus curiosidades/características internas.
k_nelon escribió:Estaría curioso que alguna vez hicierais algún reportaje o noticia en portada sobre como funciona EOL y sus curiosidades/características internas.


Bueno, tampoco es plan de poner ahí en abierto la arquitectura interna para que cualquiera lo juankee!
Moki_X escribió:
k_nelon escribió:Estaría curioso que alguna vez hicierais algún reportaje o noticia en portada sobre como funciona EOL y sus curiosidades/características internas.


Bueno, tampoco es plan de poner ahí en abierto la arquitectura interna para que cualquiera lo juankee!

Ya ya, me refería a lo que se pueda contar hombre [+risas]
Bueno, la estructura realmente es poco interesante, y alguno diría que hasta obsoleta, pero sabéis que en EOL no nos gustan los experimentos [qmparto]

Hasta la mañana del 27 de mayo de 2017 eran 2 servidores en round-robin por DNS con el típico stack LAMP (próximamente LEMP) repartiéndose la carga. Desde entonces nos hemos trasladado a uno solo, porque la carga de EOL no se dobla cada dos años y la capacidad del hardware sí xD

Aquí hay algo más de info aunque hay un par de cosas que ya no utilizamos, a ver si luego lo actualizo.
Gracias, siempre es curioso leer sobre estos temas
15 respuestas