Alta disponibilidad en la industria: soluciones para mejorar nuestros indicadores de producción
¿Cuáles son los puntos a tener en cuenta cuando se elige un sistema de alta disponibilidad para mejorar los indicadores de producción de planta?


En este post se pretende dar la visión de cuáles son los puntos a tener en cuenta cuando se elige un sistema de alta disponibilidad para mejorar los indicadores de producción de planta, como por ejemplo el OEE.
Desde el inicio de la automatización en la industria, los PCs industriales han alojado aplicaciones HMI y SCADA. Si es verdad que se ha intentado substituir el control de los PLC y DCS por PCs industriales que fueran robustos, pero finalmente esto nunca se ha acabado de conseguir debido a la inestabilidad de los sistemas operativos y las constantes actualizaciones, así que hoy en día, los PCs industriales siguen albergando aplicaciones HMI y SCADA. No obstante, estas aplicaciones han cambiado mucho respecto a las aplicaciones típicas, teniendo que soportar ahora múltiples comunicaciones con distintos elementos (M2M) y funciones de historización y análisis, con una gran cantidad de datos. Además, estos PCs también incluyen dispositivos de seguridad y servidores de acceso y autenticación remota. Por ese motivo, hay cierta incertidumbre en si un PC (una máquina física) es una opción adecuada para alojar una aplicación crítica para el proceso de producción.
En este punto de reflexión es donde nos planteamos si realmente el sistema operativo y la aplicación deben ir ligadas al hardware o es mejor virtualizar nuestro sistema para así desvincularlo de la máquina física.

Foto: ThinManager
Para ello, los Hipervisores de virtualización como EverRun de Stratus Technologies, Microsoft Hyper-V o VMWare Sphere proporcionan un sistema tolerante a fallos entre la aplicación y el hardware. Hay que tener en cuenta que diseñar un sistema tolerante a fallos exclusivamente con aplicaciones software, sistemas operativos o hipervisores puede añadir un cierto grado de complejidad si utilizamos hipervisores como VMWare Shpere, en los cuales se necesitan elementos extra como switches reduntantes o almacenamiento externo compartido, además de un gran conocimiento de administración por parte del equipo IT. Otra opción pasa por la utilización de elementos redundantes de hardware que tienen la intención de aumentar fiabilidad, pero la utilización de estos debe planearse de una manera correcta o muy simplificada, ya que pueden llevar a más puntos de fallo.
Todo este análisis desemboca en tres indicadores distintos que nos van a ayudar a mirar desde un punto crítico nuestros sistemas de planta: fiabilidad, mantenibilidad y disponibilidad.
Fiabilidad
La fiabilidad es la probabilidad que un dispositivo realizará la función para la que está diseñado en unas condiciones específicas y un periodo de tiempo especifico, y se cuantifica con el promedio del tiempo entre fallos de un sistema (MTBF).
El método más simple para el cálculo del MTBF es:
MTBF = Tiempo total de fabricación / número total de fallos.
La eliminación de las principales causas de fallos de hardware aumenta significativamente el MTBF. Por ese motivo, lo primero que hay que hacer es identificar los elementos de HW con más fallos e intentar eliminarlos o mitigar sus fallos.
Como comentábamos anteriormente, una posible solución pasa por eliminar los PCs físicos de planta, virtualizarlos y concentrarlos en un servidor central. En planta pues, podríamos colocar simples clientes ligeros, que son elementos de hardware sin partes móviles, sin sistema operativo y robustos. Estos clientes ligeros apuntarán a las máquinas virtuales mediante conexión RDS o VDI. Fijémonos que, si se opta por esta solución, estamos eliminando puntos de fallo en un sitio, pero estamos creando un punto potencial de fallo en otro ya que concentramos en un servidor central todas las máquinas virtuales. Por lo tanto, aquí entran en juego los hipervisores como EverRun de Stratus y la utilización de servidores redundantes, o los servidores tolerantes a fallos que nos proporcionan una solución compacta de redundancia y nos aseguran que no hay paso por 0 en el caso de que caiga algún elemento de la máquina primaria.

Foto: ThinManager
Con esta solución nos aseguramos de que el MTBF global de nuestro sistema aumenta y por lo tanto la fiabilidad.
Mantenibilidad
La mantenibilidad mide cuánto tarda una máquina en volver a un estado normal de operación después de un fallo en el sistema, y se mide con el tiempo promedio de reparación (MTTR). Este valor es más difícil de calcular, ya que depende del tiempo de repuesto y de cómo estuviera configurado ese PC. Dependiendo de las configuraciones de usuario, el MTTR puede ir de minutos a semanas.
Si hemos seguido la solución propuesta en el apartado de fiabilidad y estamos utilizando clientes ligeros en planta en lugar de PCs, la utilización de un software que gestione éstos clientes ligeros puede ser la clave para disminuir los tiempos de cambio de un hardware, y por tanto disminuir el MTTR. Un software como ThinManager está preparado para gestionar la configuración de los propios clientes ligeros, consiguiendo que en cuestión de pocos minutos seamos capaces de realizar un cambio por culpa de un fallo de hardware.
Referente al servidor central donde vamos a alojar nuestras máquinas virtuales, la mejor opción de cara a la mantenibilidad es la utilización de un servidor tolerante a fallos con hardware redundado y CPUs y comunicaciones sincronizadas. Este tipo de servidores están formados por dos bandejas con elementos redundados. Si hay un fallo en el elemento de una de las bandejas, el elemento secundario pasa a tomar el mando, siendo totalmente transparente de cara al usuario. Gracias a la monitorización del estado del servidor, mediante por ejemplo traps SNMP, podemos detectar qué elemento ha fallado, y si el servidor tolerante a fallos lo he adquirido de Stratus Technologies, el contrato de mantenimiento nos asegura que en menos de 24h tendremos el recambio de una bandeja entera en planta. El cambio de la bandeja es cuestión de pocos minutos, lo que consigue que el MTTR se reduzca significativamente.

Foto: Stratus Tecnologies
Finalmente, la última propuesta para disminuir el MTTR es la utilización de un buen software de backups y copias de seguridad, tanto para nuestras máquinas virtuales como para los PLCs y SCADA de planta. Cabe la posibilidad de que haya un desastre en planta y se tengan que reponer múltiples PLCs y volver a cargar los programas. Si esto ocurre, y no se tienen los backups controlados, esta tarea puede durar mucho tiempo, provocando grandes pérdidas en la producción.

Foto: MDT SOFTWARE
Disponibilidad
La disponibilidad es una función de la fiabilidad y mantenibilidad, y define el porcentaje de tiempo que el sistema está operacional. Se puede calcular siguiendo la siguiente ecuación:
Disponibilidad = MTBF/(MTBF+MTTR);
Maximizar la disponibilidad requiere incrementar el MTBF y disminuir el MTTR.
Una forma muy conocida de expresar la disponibilidad es mediante los “nueves” o el downtime. Tres nueves de disponibilidad (99,9%) puede sonar a un buen objetivo de diseño, no obstante, dependiendo de la criticidad de la aplicación, puede llegar a ser catastrófico para el proceso, como ya vimos con anterioridad en otro post
Como conclusión, destacar que el parámetro de disponibilidad es clave en el cálculo del OEE, y que si se siguen estrategias para intentar aumentarlo, nuestra producción y por tanto nuestros ingresos se verán beneficiados.

Foto: ThinManager