Problemas con el servidor

Imagen de Rockeye

Tenemos problemas con uno de los HD's y me he visto obligado a pararlo todo ó casi todo. Tengo que hacer algunas pruebas más, backups de todo y abrir un ticket para que lo solucionen. De momento se queda la web y el TS activo, pero es probable que en algún momento de la tarde nos diga "Hasta luego, Lucas...". Mientras tanto iré informando por aquí y si no, pues nos vemos pronto...

Saludos.

Forums:
Imagen de Brigada_Spanish

Lagarto, lagarto, mal día para atender los tickets, fin de semana :bang:
Saludos.-

IMAGE(http://i.imgur.com/szsUi10m.jpg)

Imagen de Rockeye

Bueno ya estamos de vuelta. Os cuento un poco por si alguien tiene curiosidad de qué es lo que ha ocurrido y qué hemos estado haciendo durante el fin de semana. El servidor (uno de los dos que tenemos) trabaja con 2 discos en RAID 1 ó en modo espejo, lo que permite redundancia al manejar la información de forma duplicada. En caso de que uno muera, sigue trabajando el otro y el sistema ni se cosca y si encima soporta hotswap, llega el titi y te lo cambia sin reiniciar la máquina. Entonces, el sistema operativo ve el conjunto de discos en RAID 1 como uno solo, aunque no es del todo correcto decirlo así porque hay un modo de obtener RAID 1 por software y en este caso es el SO quien se encarga de montarlo, como es nuestro caso, pero así nos entendemos mejor.

Primero, hace unos días ya notaba que todo iba más lento de lo normal, pero no hice mucho caso y eché la culpa a problemas transitorios de red, como pasa aveces. Fue el viernes por la mañana cuando recibí un aviso de que uno de los discos había sido expulsado del RAID. Normalmente esto puede pasar después de un corte de corriente y no hay mayor problema porque el equipo sigue trabajando con el otro disco tan normal, luego se vuelve a sincronizar el RAID (el disco actualizado con el inactivo) y asunto resuelto. El problema es que el servidor no se había reseteado. Me puse a reconstruir el RAID y lo que normalmente tarda unas 3 horas, empezó a irse a 7, 8 ó más. Fue entonces cuando me convencí de que pasaba algo y me vi obligado a pararlo todo para acelerar el proceso, hacer una copia de todo y sacar los datos del servidor. En total unos 80Gb a una media de 7 u 8Gb por cada juego que tenemos + otras cosas. Todo esto me llevó parte del viernes, el sabado entero y parte del domingo. Decir también que mientras hacia las copias me volvió a expulsar el dico del RAID y tuve que parar de nuevo para reconstruirlo. El domingo por la tarde ya tenía todo fuera y fue cuando empecé con las pruebas y el diagnóstico, además que me lo exigen para abrir el ticket. El RAID 1 confía en que la velocidad de transferencia ó mejor dicho, el ancho de banda de los 2 discos sean iguales ó similares. Bueno pues uno de ellos estaba trabajando al 20% de su capacidad normal. Ya podéis imaginaros al Llanero Solitario con su caballo Silver tirando del carro a la derecha y la Burra Paca, en la izquierda. Bueno pues el ticket lo cerraron a la hora ó así de abrirlo, pero pasa que ahora tengo el disco con los datos y un disco "nuevo" vacío. Me pongo a sincronizar el RAID y lo dejo, pero al rato cuando voy a ver como va, me encuentro que alguien a reiniciado el servidor, estando ya el ticket cerrado. Así que, lo volví a poner y lo dejé reconstruyendo por la noche. Esta mañana ya estaba sincronizado, pero como no me fío ni de mi sombra, por lo menos en esta materia, volví ha hacer un chequo del RAID, particiones, etc. Y el resultado ha sido todo un éxito. Riesgo casi 0 y ni un dato corrupto. Aunque podía haber subido un poco más mi grado de paranoia si hubiese verificado las copias de seguridad. No será la primera vez que alguien va a tirar de una copia de segurirdad y esta corrupta.

Y la pregunta del millón ¿Si tenemos 2 discos en espejo precisamente para eso? ¿Por qué pegarte el rollo de las copias de seguridad?
Tampoco sería la primera vez que pase, que el tío que cambia el disco, tira a la basura el bueno y deja el malo.

:roll: