10 votos

Servidor de alto disponibilidad para una pequeña empresa

Después de tener un poco de susto con un servidor que no vendría hasta que una mañana, los directivos han decidido que la empresa necesita una alta disponibilidad / falla durante la instalación.

Tenemos 5 servidores principales (4x Linux, 1x OpenBSD) todos los cuales deben estar en ejecución para que la empresa pueda operar. Tres de los servidores son bastante estándar (Archivos/Web/Base de datos), el cuarto maneja la mayoría de enrutamiento de la red y los servidores proxy web, mientras que el quinto apoya nuestro sistema de teléfono y ha hardware no estándar.

Mi jefe ha dicho que el tiempo de vuelta para una falla en el servidor debe ser de menos de 30 minutos.

Mi experiencia en este campo es inexistente (sólo soy un programador que era 'promovido'), así que supongo que mi pregunta realmente se reduce a:

  • Es esto algo que aún debe ser realizado por alguien con un promedio de servidor de administración de habilidades. Si es así, ¿qué debería leer, y a quién debo hablar?

Gracias.

5voto

Evan Anderson Puntos 118832

Creo que se debe empezar por conseguir números para describir el costo asociado con el cumplimiento de los declaró "requisito" para ver si entra dentro del presupuesto. Si no estás cómodo con todas las de la "normal" métodos que podrían ser utilizados para cumplir con el requisito (clústeres de conmutación por error, los hipervisores con "migración en caliente de" capacidad, etc), entonces usted probablemente iba a hacer bien para encontrar un consultor que puede ayudar.

Va a haber algunos costos asociados con el estudio de factibilidad, pero va a costar mucho menos para descubrir que una buena solución que no caben dentro de los requisitos (lo que significa que las expectativas deben ser establecidos de manera más realista por la administración, o se necesita aportar más dinero) que va a costar hacer algo a medias que termina por no cumplir el requisito a todos y haciendo un montón de dinero en el proceso.

Suena como su jefe acaba de sacar ese número fuera del aire. Tal vez ha hecho algún análisis y sabe lo que el coste por hora asociada con el tiempo de inactividad de varios sistemas, pero lo dudo. Suena como algo de pastel-en-el-cielo número que no está atada a la realidad. Me gustaría ser surpirsed si todos los sistemas necesitan ese tipo de disponibilidad. Puede ser que, en el curso de estudio de la empresa, que descubre que sólo un subconjunto de la funcionalidad que se necesita tener un grado de tiempo de disponibilidad y tolerancia a fallos (y, por lo tanto, una solución en última instancia le costaría menos). Estoy seguro de que los teléfonos y la línea de negocio de la aplicación están allí, pero usted puede tener un poco de tolerancia para el tiempo de inactividad de algunos de los otros sistemas.

Mi instinto dice que usted está probablemente va a buscar una victoria en el uso de las tecnologías de virtualización para crear una conmutación por error del sistema basado en la migración de máquinas virtuales entre hardware redundante. Si se va a adaptarse a su presupuesto o no dependerá de su negocio, ya que definitivamente se necesita algún tipo de SAN para hacer que el trabajo de manera efectiva.

No descuento "tradicional" clústeres de conmutación por error, sin embargo. Definitivamente hay "gana" allí, también, si sus aplicaciones se adaptan bien a este tipo de configuración.

Me pregunto si su jefe se lo ha pensado acerca de una falla catastrófica en los escenarios (edificio quemaduras, inundación, tornado, robo, etc). Si ya que no es planificado, esto sería una oportunidad de oro para trabajar en algunos generales de planificación de continuidad de negocio y recuperación de desastres de contingencia.

Obtener un poco de ayuda de alguien que pueda venir y estudio de su empresa y hacer recomendaciones. Usted no se arrepentirá.

2voto

Guy Puntos 2102

"Esta carretera conduce a mucho dolor y daño..."

Así que, ¿cuál es su Negocio Plan de Continuidad? Usted plan de Recuperación de Desastres?

Has comentado? Escrito abajo? PROBADO?

Usted necesita tener una buena conversación con el "más arriba" y realmente llegar a la parte inferior de los requisitos de alta disponibilidad, ya que es diferente para los distintos servicios.

Así que lo que realmente fue el "punto de dolor" que sentían que mañana?

Era?

  • Los teléfonos dejaron de funcionar? Bastante importante (y visible) problema. Y, sí, esto tendrá una "solución", pero espero que esto sea en virtud de un acuerdo de apoyo?
  • Sitio Web fallado? OK, Bastante visible, pero no inesperado, y a menos que tenga una GRAN presencia en la web, a continuación, no es importante. ACEPTAR para que este servidor hacia abajo por un par de horas.
  • Servidor de base de datos de abajo? Miedo... Espero que tengas buenas copias de seguridad! No perder los datos, de lo contrario el negocio VA a fracasar. Pero, mientras la seguridad de los datos, a continuación, es un servidor que es importante, y debe tener un plan de recuperación.
  • Archivo y de impresión (y las aplicaciones internas, etc). Esto es pan de PITA para la mayoría de la gente como se van a sentarse y no hacer nada para mañana, ya que arreglarlo.

Supongo que usted ha comprado de alta calidad de hardware para los principales sistemas? Bueno, porque para hoteles en hardware es una falsa economía, ya que estos servidores vienen con "dual" todo en la caja.

También voy a suponer que usted sabe CÓMO reconstruir un servidor, de intercambio ventiladores, fuentes de alimentación, estante de un servidor, configurar la doble ruta de acceso de redes en conmutadores redundantes? Usted ha hecho esto suficientes veces para entender lo que funciona y lo que no, lo que es normal y lo que es erronous? Si no, a continuación, obtener ayuda y la formación (o, al menos, la práctica y la experiencia).

Tal vez una gran parte del problema era el MIEDO. Ellos no tienen ni idea de que un problema podría ocurrir (y de lo importante que los servidores estaban a su negocio) y que realmente no sabía lo que estaba haciendo (?) Un asunto de la confianza?

Usted necesita para obtener todos los de arriba a la derecha ANTES de bajar la muy caro HA ruta. ¿Puede la empresa permitirse el lujo de este equipo costoso (y la mayoría de ésta, por definición, va a ser usado sólo una vez en un fracaso y, a menudo, nunca usado!)

1voto

Jonathan Branam Puntos 616

Evan hit en algunos puntos buenos, pero aquí hay quizá algunos específicos de la forma más rentable de obtener sub 1 hora el tiempo de recuperación en la cara de los fracasos.

Pequeñas empresas probablemente significa pequeño de hardware, por lo que no puede ser un montón de costo para hacer algunas cosas simples que realmente añadir una cantidad significativa de la resistencia en la cara de los problemas. La idea principal es simplemente tener más hardware listo para ir.

En primer lugar, que sea cómodo con la idea de una IP virtual. Que es la dirección IP de los usuarios para hablar, pero pueden residir en cualquier servidor de dársela. Esta es la dirección IP que estés usuarios, y las aplicaciones se desea hablar. Y va a ser el más útil para ultimatly cualquier solución que usted va para. Tener un VIP significa que usted no debería tener que volver a configurar los oft las aplicaciones cuando se conmuta por error. También, tenga en cuenta que tener un hardware redundante también tiene el impacto de los aumentos de sobrecarga de administración, haciendo dos actualizaciones de la configuración en lugar de 1.

Si empezamos con los eres de enrutamiento / servidor proxy de web, es probablemente el más fácil, ya que su no ser de cualquier situación real que necesita ser almacenado en el propio cuadro. Así que acaba de obtener un duplicado de la misma caja, y configurarlo de la misma. Me gustaría seguir enchufados en el segmento de LAN, y suponiendo que está en internet está en otra interfaz, intercambie los cables si es un fracaso. Desde una perspectiva de enrutamiento, se establece todo lo que somos clientes de la lan de destino .1 dirección (VIP) para su ruta por defecto y el servidor proxy dar servidor a la .2 dirección y el servidor B .3 la dirección. De esta manera ambos pueden ser gestionados de configuración de las actualizaciones (se aplica a ambos). Y todo lo que tiene que hacer para la conmutación por error es eliminar el .1 asignación de IP de .2 y moverlo a .3, y mover la conexión a internet a la otra interfaz. No es muy complicado, fácil de entender y hacer, y los costos de la extra de hardware de una segunda caja. Si usted puede conseguir la redundancia en el internet, usted puede agregar complejidad, y obtener la conmutación automática por error el uso de algo como VRRP.

Sin detalles, es difícil de decir, pero estás servidor web puede ser tan simple. Agregar un segundo servidor con una configuración Idéntica, crear un vIP entre los dos, y mover el VIP a la copia de seguridad de cara al fracaso. Generalmente no me importa si el estado de sesión se pierden en una conmutación por error (es un problema crítico para causar una conmutación por error). Así que si los usuarios tienen que ingresar de nuevo, no es gran cosa. De nuevo, vrrp, probablemente, puede ser utilizado para la conmutación por error automática.

De pasar a estás DB, esto es mucho más compleja. La mayoría de los DB de tener algún tipo de primario / secundario modelo, donde usted copia de seguridad de la original de DB a la secundaria, y luego copiar todos los registros de transacciones o DB cambios a la secundaria. De nuevo, esto se puede combinar con VIP para las aplicaciones a los usuarios a acceder a la DB. Sin embargo, el error es más complicted. Según el fallo de la primaria, usted puede necesitar para conseguir las unidades en marcha y funcionando para copiar y sobras de los registros de transacciones. A continuación, llevar el activo secundario. Si usted puede tolerar la pérdida de algunos datos, entonces usted puede traer la secundaria activa de inmediato. Después de la conmutación por error, el servidor B es ahora estás primaria, y usted es el trabajo sería para restaurar el servidor a, y convertirlo en la nueva copia de seguridad para que esté listo para ser fallado cuando el servidor b, finalmente, tiene problemas.

Los servidores de archivos son siempre la parte más difícil, ya que a diferencia de DB, que es mucho más difícil conseguir un construido en la característica del sistema de archivos. Sin embargo, un cierto nivel de flexibilidad puede ser alcanzado por tener un segundo servidor, y simple de escribir un script que analiza el sistema de archivos para los cambios, y copia los archivos nuevos para usted es secundario. Básicamente, puede ejecutar rsync en un cron yo beleive para ello. De nuevo, se utiliza un VIP que le dan a los usuarios, que se mueve sobre si hacer una conmutación por error. En tu script, me wrould recomendamos que verifique para asegurarse que el sistema es el propietario de la VIP antes de la transferencia de archivos. Usted realmente realmente realmente no desea que el rsync para ejecutar en la dirección equivocada y sobrescribir los cambios que los usuarios están haciendo. Este podría perder algunos archivos si su es un fracaso, y también no va a proteger de nuevo a los usuarios borrando los archivos mismos.

No tengo idea de lo que podría hacer acerca de usted es el sistema de teléfono... realmente depende del proveedor y de cómo es el programa de instalación. El proveedor puede disponer de algunos fuera de la plataforma de solución para la resiliencia.

Algunas últimas palabras de advertencia. Asegúrese de probar exhaustivamente cualquier instalación que se va a ir. Asegúrese de saber cómo fallan más sin perder esa información crítica. Prueba de prueba de prueba para asegurarse de que funciona cuando se necesita. Asegúrese de tener los procesos en lugar de que los cambios de configuración, actualizaciones de software, etc. son bien aplicada a la enseñanza primaria y copias de seguridad. La buena noticia es que usted puede hacer probablemente controlada de conmutación por error cuando usted quiere traer a un servidor hacia abajo para actualizar, etc. No se trata de un activo de instalación, por lo que no tienen idea de si el secundario va a trabajar cuando usted lo necesita.

Yo trabajo en los sectores de telecomunicaciones, y nuestro equipo es muy altamente redundante, incluyendo en la mayoría de los casos geo-gráfico de redundancia. Nuestro número de 1 punto de falla es la redundancia no está probado después de los cambios, y los usuarios realizar cambios que no sé cómo la redundancia modelo funciona. Sin embargo, tenemos el problema añadido de que todo nuestro equipo necesita el apoyo automático de conmutación por error en no más de varios segundos. Usted puede tolerar la intervención manual en el que estás conmutaciones por error si sólo necesita estar en funcionamiento dentro de los 30 - 60 minutos. Sólo tienes que estar preparado. La buena suerte.

1voto

SpaceManSpiff Puntos 2372

Todo el mundo que mas puntos son grandes por lo que sólo un par de comentarios.

30 minutos es imposible de garantizar, especialmente para todo. Se puede decir que es un objetivo, pero no hay ninguna manera puede ser una garantía, porque siempre existe el X factor. Usted podría tener 2 ISP líneas y un camión choca contra el edificio y los lleva a ambos a cabo porque no pensar que dirige desde los extremos opuestos del edificio que importaba es un ejemplo.

Como punto de partida para el cálculo del coste, el doble de todo. Tiene 5 servidores, por lo que necesitan el doble de eso. No necesita estar en el hardware, puede virtualizar, pero ver a lo que me refiero. En la parte superior de que, todo lo que debe ser, JA, consciente de que también se suman al costo, usted puede encontrar que usted va a tener que sustituir el router por uno nuevo y oh, usted necesita 2 de ellos. No olvides doble de las fuentes de energía y conseguir el generador, debido a que no se puede garantizar el poder de la compañía estará de regreso hasta dentro de 30 minutos.

Estos ejemplos están pensando en sus más o menos un hot standby de instalación que es lo que tengo la sospecha de que su jefe está pensando.

Lo que me parece mejor para la pequeña empresa es el diseño de un plan para recuperar y clasificar todo.

Averiguar qué servicios están

crítico (empresa deja de funcionar)

importante (negocio se ralentiza)

rutina (empresa puede prescindir de él por un tiempo).

Por ejemplo, su centro de llamadas de teléfonos son critial, así que tal vez es un valor de compra de un segundo servidor y un segundo proveedor de internet y su promedio de corte de energía es de unos 15 minutos, así que vamos a obtener un UPS para que durarán 60 minutos (no te olvides de las estaciones de trabajo). Ahora digamos que el ERP es sólo importante, es decir, puede funcionar sin él para un poco. Tal vez su centro de llamadas de la gente lo usa, pero si es hacia abajo, se puede volver a lápiz y papel o bloc de notas y, a continuación, actualizar el ERP después. El procedimiento para hacer que si se puede ser más barato, a continuación, tratando de hacer un servicio crítico. Y la rutina queridos podría ser algo como impresoras, aceptar su dolor, pero podemos hacer un par de días si todos van hacia abajo.

Que también le dan la orden de arreglar cosas si el s**t realmente golpea el ventilador de un día :)

1voto

Bart Silverstrim Puntos 28092

Es posible? Seguro. Es asequible? Probablemente no para un "pequeño negocio", especialmente si usted tiene un jefe dando cifras arbitrarias por el que trabajar, y él exigentes de la alta disponibilidad de un departamento que consta de un delegado programador (visto muchas veces en otros lugares y nunca es bastante para sus niveles de estrés, si su situación era como la de ellos).

El error es posible, pero por lo general requiere de un hardware redundante, SANs para compartir datos entre servidores, etc...en otras palabras, la buena suerte de llegar a financió si no contratar a un administrador dedicada a cuidar de él.

Su sistema de llamada de hardware que usted ha mencionado es de hardware especializado, y usted se refirió a ser un callcenter. Usted debe hablar con el proveedor acerca de las opciones para hacer que redundante. Haciendo el tonto con la que podría anular el apoyo en el primer lugar.

Otros sistemas que podrían más probable que ganar algo de redundancia mediante la inversión en VMWare-tipo de soluciones (o Hyper-V o XenServer, pero me gustaría mirar VMware y XenServer primera). Entonces usted puede mirar en conseguir un SAN, un par de fornidos servidores con rápido conmutadores de red, y el uso LiveMotion a migrar los servidores virtualizados entre el hardware de los servidores, si hay una falla, así como el balance de algunos de la carga entre los servidores como de las necesidades de venir.

Usted mencionó que está corriendo Linux en esos sistemas. Con el dinero de obtener múltiples servidores, se podía ver en su lugar a la creación de DRBD con un latido del corazón del programa y STONITH para replicar datos entre los servidores y tomar el relevo cuando uno deja de estar disponible; se estaría buscando en la configuración de un sistema en el que literalmente se han duplicado cada servidor, así como duplicado su consumo de energía y disipación de calor en la sala del servidor (si usted tiene una sala de servidores). Que se puede hacer para que el costo del hardware y su cordura. Además, usted tendría que probarlo, usted tendría tiempo de inactividad durante la configuración, y usted todavía tiene la posibilidad de que no funciona a veces como todavía hay la posibilidad de problemas de recorte hasta que tienen que ser atendidos (de cerebro dividido, por ejemplo).

El último es un plan para conseguir un par de sistemas para actuar como pizarra en blanco en sistemas y tiene un muy buen plan de copia de seguridad para permitir que restaurar los datos a uno de los "blanco" de los sistemas si un servidor muere. Tener hardware en sitio le dará algunas opciones si/cuando un servidor se muere; pero usted todavía tendrá un tiempo de inactividad, mientras que la restauración de datos, y necesita instrucciones sobre cómo instalar correctamente sus aplicaciones para el nuevo servidor. Dependiendo de qué tan rápido el trabajo y el tamaño de los datos se puede tener el tiempo de inactividad que duran desde unas pocas horas hasta un día o dos. Que hacer un buen estado de copia de seguridad de sus servidores, con un plan de recuperación, ¿sí?

Debe probarla? Mi primera reacción es que si vas a rascarse la cabeza en cualquiera de las sugerencias o sensación de un hoyo en el estómago tratando de pensar en estas cosas, entonces usted no debería. Usted necesita una empresa de consultoría para entrar y mirar el problema y el trabajo de los costes y ponerlo en práctica, o es necesario contratar un dedicado sysadmin a hacer por su empresa.

El hecho de que están diciendo que usted lo haga y usted está diciendo que está "sólo un programador que fue "promovido" y tiene un PHB decirle a dar redundancia con un máximo de tiempo de falla de 30 minutos es que eres un poco hasta un arroyo.

EnMiMaquinaFunciona.com

EnMiMaquinaFunciona es una comunidad de administradores de sistemas en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros sysadmin, hacer tus propias preguntas o resolver las de los demás.

Powered by: