Caída 6/06/2017

Question

Caída 6/06/2017

Newton 07 jun 2017 08:41

happycoder

4.664 mensajes
desde oct 2000
en Delante del PC

Durante el día de ayer pudimos ver EOL estaba operativa con una home que mostraba el timeline de twitter, en la información que se hizo pública se decía que se debía a problemas con el HW.
Si no es demasiada molestía, ¿se puede puede publicar lo que ocurrió y las medidas que se han cogido?
Más que nada es curiosidad y para aprender O:-)
Si véis conveniente borrar el hilo y que es una información que no se tiene porque saber, sin problemas.

Saludos y animo a tod@s

#1302# 07 jun 2017 08:58

Pillo sitio.

Pienso que al menos deberían informar de fallo, causas y soluciones. Fue una caída de muchisimas horas.

Enanon 07 jun 2017 09:30

Repartidor de tofu

22.389 mensajes
y 9 fotos
desde mar 2003
en Madrid

Página web de Enanon Facebook de Enanon Steam ID: enanon

Se va melado un día de vacaciones y mirar...

espetodesardinas 07 jun 2017 10:26

Δ L✪✪K & D❑ IT™

6.127 mensajes
desde jun 2011
en M▲L▲G▲

#69313# 07 jun 2017 12:54

a mi tambiem me gustaría saber algo al menos.

xhakarr 07 jun 2017 13:59

MegaAdicto!!!

9.320 mensajes
desde feb 2013
en Barcelona

Gamertag: Xhakar PSN ID: Xhakar

Me sumo a la petición

Moki_X 07 jun 2017 16:50

Pan duro

5.778 mensajes
desde mar 2003
en Error 404

Queremos saberrrr! Me uno a la petición.

Yo tengo una tarjeta de 4GB de RAM DDR2 que me sobra. Os hace falta?

Waldo64 07 jun 2017 17:41

V1, Rotate, V2

1.058 mensajes
desde mar 2010
en 39°53'21.76"N 4°16'19.3E

Twitter de Waldo64 PSN ID: B747GT Steam ID: thewaldo64

Se agradece mucho la explicación @melado, me alegro que pudierais volver a estar online sin pérdidas [oki]

.

Newton 07 jun 2017 18:46

happycoder

4.664 mensajes
desde oct 2000
en Delante del PC

melado escribió:Si bien es cierto que al principio tuiteamos lo de "problema de hardware", acabó siendo puramente software. La gente de Comvive desde el primer momento nos ayudó para descartar rápidamente un disco roto o algo similar, así que ellos no merecen más que agradecimientos

Todo empezó con un disco llenándose de forma rápida e inesperada durante la madrugada del día 6. Eso normalmente no provocaría otra cosa que una simple parada de MySQL y un cartelito de error, pero por razones que todavía no están claras apareció corrupción de datos.

Desde las 9 hasta aproximadamente las 18h intentamos por todos los medios solucionar "in-place" esa corrupción, sin éxito. Insistimos durante muchas horas en esta opción porque creíamos que sería la más rápida que nos permitiera mantener el 100% de los datos sin pérdidas. Pero al final la abandonamos y decidimos restaurar de backup, que entre pitos y flautas no se pudo completar con éxito hasta aproximadamente las 3 de la madrugada del día siguiente. Un rato después reabrimos la web, con el 100% de los datos recuperados.

Los procesos los teníamos, pero nos falló quizás la ejecución. Ya sabéis el chiste de la factura del ingeniero, 1 euro por apretar un tornillo, 1000 euros por saber qué tornillo apretar Pero como punto positivo, si nos volviese a ocurrir de nuevo probablemente serían muchas menos horas de parada, y ahora además tenemos claro qué pulir del sistema de backups para que puedan ser aún menos.

Primero @melado agradecerte la explicación, de todas estas aventuras se aprende mucho.

Sin entrar demasiado en detalle, ¿se podría saber cuales son las mejoras/optimizaciones en el proceso de restauración de los backups?

¿Se podría saber también de qué volumen de copias de seguridad estamos hablando?

Saludos

xhakarr 07 jun 2017 20:51

MegaAdicto!!!

9.320 mensajes
desde feb 2013
en Barcelona

Gamertag: Xhakar PSN ID: Xhakar

Gracias!

Moki_X 08 jun 2017 17:36

Pan duro

5.778 mensajes
desde mar 2003
en Error 404

k_nelon escribió:Estaría curioso que alguna vez hicierais algún reportaje o noticia en portada sobre como funciona EOL y sus curiosidades/características internas.

Bueno, tampoco es plan de poner ahí en abierto la arquitectura interna para que cualquiera lo juankee!

k_nelon 08 jun 2017 17:40

⭐⭐Neko⭐⭐

21.446 mensajes
desde sep 2006

Steam ID: k_nelon

Moki_X escribió:
k_nelon escribió:Estaría curioso que alguna vez hicierais algún reportaje o noticia en portada sobre como funciona EOL y sus curiosidades/características internas.

Bueno, tampoco es plan de poner ahí en abierto la arquitectura interna para que cualquiera lo juankee!

Ya ya, me refería a lo que se pueda contar hombre [+risas]

k_nelon 12 jun 2017 16:07

⭐⭐Neko⭐⭐

21.446 mensajes
desde sep 2006

Steam ID: k_nelon

Gracias, siempre es curioso leer sobre estos temas

15 respuestas

score 7 · Accepted Answer · 2017-06-07T15:33:50+00:00

Si bien es cierto que al principio tuiteamos lo de "problema de hardware", acabó siendo puramente software. La gente de Comvive desde el primer momento nos ayudó para descartar rápidamente un disco roto o algo similar, así que ellos no merecen más que agradecimientos

Todo empezó con un disco llenándose de forma rápida e inesperada durante la madrugada del día 6. Eso normalmente no provocaría otra cosa que una simple parada de MySQL y un cartelito de error, pero por razones que todavía no están claras apareció corrupción de datos.

Desde las 9 hasta aproximadamente las 18h intentamos por todos los medios solucionar "in-place" esa corrupción, sin éxito. Insistimos durante muchas horas en esta opción porque creíamos que sería la más rápida que nos permitiera mantener el 100% de los datos sin pérdidas. Pero al final la abandonamos y decidimos restaurar de backup, que entre pitos y flautas no se pudo completar con éxito hasta aproximadamente las 3 de la madrugada del día siguiente. Un rato después reabrimos la web, con el 100% de los datos recuperados.

Los procesos los teníamos, pero nos falló quizás la ejecución. Ya sabéis el chiste de la factura del ingeniero, 1 euro por apretar un tornillo, 1000 euros por saber qué tornillo apretar

Pero como punto positivo, si nos volviese a ocurrir de nuevo probablemente serían muchas menos horas de parada, y ahora además tenemos claro qué pulir del sistema de backups para que puedan ser aún menos.

score 1 · Accepted Answer · 2017-06-07T19:51:22+00:00

Estaría curioso que alguna vez hicierais algún reportaje o noticia en portada sobre como funciona EOL y sus curiosidades/características internas.

score 4 · Accepted Answer · 2017-06-12T10:39:53+00:00

Bueno, la estructura realmente es poco interesante, y alguno diría que hasta obsoleta, pero sabéis que en EOL no nos gustan los experimentos [qmparto]

Hasta la mañana del 27 de mayo de 2017 eran 2 servidores en round-robin por DNS con el típico stack LAMP (próximamente LEMP) repartiéndose la carga. Desde entonces nos hemos trasladado a uno solo, porque la carga de EOL no se dobla cada dos años y la capacidad del hardware sí xD

Aquí hay algo más de info aunque hay un par de cosas que ya no utilizamos, a ver si luego lo actualizo.