Jump to content

Los recientes desagradables sucesos


You are about to reply to a thread that has been inactive for 3609 days.

Please take a moment to consider if this thread is worth bumping.

Recommended Posts

Algo así sería el título del post de Landon Linden en el blog oficial de Second Life. En dicho post nos informa de cuales fueron las causas de los recientes y graves problemas que hubo en Second Life (lentitu de carga, problemas de inicio de sesión, etc.) y que, como hace mucho tiempo no veíamos los usuarios de SL, esta vez, estamos siendo informados de forma clara y transparente.

Les dejo a continuación la traducción del post referido:

------------------------------------------------------------------------------------------------------------------------------------------------------------

Cuando llegué a Linden Lab hace más de cinco años, Second Life había pasado por un período de crecimiento extremo, y, simplemente, no estaba a la altura de las exigencias técnicas que ese tipo de crecimiento exige. Uno o más cortes de servicio importantes a la semana eran comunes.

En mis primeros meses en la empresa, eliminamos más de un centenar de importantes causas de fallo en el servicio, pero varias causas importantes todavía tenían gran influencia, el abuelo de todas ellas es el servidor principal de base de datos MySQL. A finales de invierno de 2009 sufríamos un corte de la base de datos central un par de veces cada semana.

Con un montón de trabajo duro y un sinfín de noches largas estabilizamos el servicio y empezamos a hacer grandes mejoras en la estabilidad y el rendimiento general de Second Life. Sin embargo, a pesar de nuestras continuas mejoras, y la relativa tranquilidad que éstas han creado, los fantasmas de la deuda técnica y los puntos únicos de fallo todavía se ciernen sobre nuestras operaciones. En las últimas semanas algunos de ellos han golpeado y perturbado Second Life. Tanto es así que quiero explicar los cortes que se han producido, la forma en que los solucionamos, y lo que estamos haciendo para el futuro.

En primer lugar, todavía existe ese clúster del núcleo de base de datos MySQL. Sigue siendo el núcleo de muchas de nuestras funciones centrales. Cuando falla el servidor de escritura se necesita un mínimo de treinta minutos para la promoción de un nuevo servidor en su reemplazo. La promoción en sí es en realidad relativamente rápida, pero sus numerosos servicios dependientes deberán ser detenidos y vueltos a poner en marcha con cuidado para asegurarse de que todos ellos están funcionando correctamente.

En los últimos dos meses, el núcleo de la base de datos MySQL de escritura ha sido golpeado por dos diferentes faltas graves de hardware, que nos llevó a suspender temporalmente la mayoría de las operaciones de Second Life. En cierto sentido, dos grandes fallas de escritura de bases de datos muy juntas es mala suerte, pero no podemos depender de la suerte para garantizar la fiabilidad de Second Life. En un futuro muy cercano, estaremos moviendo el núcleo de escritura del servidor MySQL a una nueva clase de hardware, en la cual los servidores de lectura de producción ya se están ejecutando. mover el servidor de escritura mejorará aún más el rendimiento general de bases de datos y hará que los fallos sean menos frecuentes. No resuelve, por supuesto, la raíz del problema del problema del fallo de punto único por lo que en los próximos días, semanas y meses estaremos reduciendo aún más el impacto de las fallas de la base de datos. Esto incluye la mejora constante en el proceso de rotación, quitar más funciones del clúster de base de datos, y reducir aún más el número de características que dependen del servidor único de escritura.

Sin embargo, la base de datos central de MySQL, no ha sido nuestro único problema recientemente. Hace unas semanas hubo un ataque de denegación distribuída de servicios (1) sobre uno de nuestros proveedores de servicio de upstream (2) que afectó a la mayor parte de sus clientes, incluyéndonos, y que se hizo que algunos usuarios no pudieran utilizar nuestros servicios. Desde entonces, hemos mitigado el potencial impacto a futuro de este tipo de ataque mediante la adición de un proveedor adicional. También se han producido fallos de hardware en la infraestructura de búsqueda del mercado en línea (3) que han impactado en el sitio web del mismo, un problema en el que continuamos trabajando para resolverlo. Lo más serio fue el corte de servicio del inicio de sesión durante cuatro horas y media de esta semana.

El martes por la mañana, los usuarios no pudieron entrar en Second Life. La causa principal se originó hace más de diez años en un sistema diseñado para asignar un identificador único para el traspaso de las sesiones de inicio de sesión a las regiones iniciales de los usuarios. A las 7:40 AM, hora del Pacífico, inadvertidamente el sistema se quedó sin posibles números (identificadores) que asignar. Nos tomó cuatro horas encontrar la causa del problema, probar una solución e implementar el cambio. En ese punto, los usuarios ya podían iniciar sesión inmediatamente, pero hicieron falta dos horas adicionales para que los sistemas se asentaran. Cuando decenas de miles de usuarios ingresan masivamente de nuevo en Second Life, después de un corte de servicio, hay que limitar deliberadamente algunos servicios para evitar una saturación.

Tener un fallo oculto en un servicio básico es inaceptable, por lo que estamos haciendo una revisión a fondo del proceso de inicio de sesión para determinar si hay más problemas de este tipo que estén al acecho. Nuestra intención en este punto es también quitar el servicio de asignación de identificador completamente. Eso no fue la única fuente de este último corte de servicio, pero también es un punto de fallo que se debería haber resuelto hace mucho tiempo.

Queremos pedir disculpas por todos los problemas recientes y la frustración que han causado. Nosotros también estamos frustrados y tenemos la intención de hacer que nuestro servicio sea mejor. Pocas cosas me dan más placer que ayudar a que cada día Second Life sea un lugar alegre y divertido. Gracias por vuestra paciencia y apoyo. Nosotros simplemente no podríamos tener una comunidad de usuarios más devotos y es por eso les debemos ser mejores.

Muy Sincenrarmente


Landon Linden

------------------------------------------------------------------------------------------------------------------------------------------------------------

 

SaludOS/2

Link to comment
Share on other sites

  • 2 weeks later...


Viviana Baguier wrote:

Si sentí los fallos, no me cargaba nada, o luego me cargaba solo la mitad del avatar
:P
supuse que estaban en mantenimiento y uno muy grande.

 

Como lei por ahí, al chico que está haciendo High Fidelety, SL es un juego del 2014 con tecnología del 2003.

Philip Rosedale, el creador de SL, tanto él como otros ex miembros de Linden Lab, hace años que lo dicen. Second Life fue construido para las exigencias de 2003, con tecnología de 2003 y para las expectativas de 2003.

Creció exageradamente, llegó a picos de uso muy altos, pero su estructura no creció en la misma proporción. Podemos decir que creció cuantitativamente (mas servidores, uso de la nube, etc.) pero no cualitativamente. Por lo cual, todo cambio para modernizarlo y hacerlo mas cautivamente causa infinidad de problemas.

Ya lo hemos visto con el pase al uso del Mesh, que todavía sigue dando problemas. La estructura de SL, obsoleta, simplemente no está(ba) preparada para el uso de mesh y por esto, quienes usan mesh cada tanto tienen mas de un dolor de cabeza.

Ahora, están implementando la versión 3 del sistema de inventario, se espera que solucione muchos problemas, pero es como parchar una cañería vieja, se refuerza donde está pinchada y, tarde o temprano, reventará en otra parte.

Hay que cambiar la cañería completa. Creo y lo vengo diciendo hace tiempo, que Linden Lab, debería destinar una dotación mínima de desarrolladores a mantener SL tal como está ahora y sentar al grueso del equipo de desarrollo a planear, analizar, desarrollar e implementar SL desde cero, adecuado a 2015 y pensando a futuro (escalabilidad, dirían los puristas). Una  vez obtenido el nuevo producto final, detener SL por un par de días, migrar toda la plataforma y lanzar SL nuevamente.

 

SaludOS/2

Link to comment
Share on other sites

You are about to reply to a thread that has been inactive for 3609 days.

Please take a moment to consider if this thread is worth bumping.

Please sign in to comment

You will be able to leave a comment after signing in



Sign In Now
 Share

×
×
  • Create New...