Elevada disponibilidade na indústria: soluções para melhorar os nossos indicadores de produção
Quais são os pontos a ter em conta ao escolher um sistema de elevada disponibilidade para melhorar os indicadores de produção da fábrica?
Este artigo pretende dar a visão de quais são os pontos a ter em conta ao escolher um sistema de elevada disponibilidade para melhorar os indicadores de produção da fábrica, como, por exemplo, o OEE.
Desde o início da automatização na indústria, os PCs industriais têm alojado aplicações HMI e SCADA. É verdade que se tentou substituir o controlo dos PLC e DCS por PCs industriais que fossem robustos, mas, no final, isso nunca se conseguiu devido à instabilidade dos sistemas operativos e às constantes atualizações, pelo que, atualmente, os PCs industriais continuam a albergar aplicações HMI e SCADA. No entanto, estas aplicações mudaram muito em relação às aplicações típicas, tendo de suportar agora múltiplas comunicações com distintos elementos (M2M) e funções de historização e análise, com uma grande quantidade de dados. Além disso, estes PCs também incluem dispositivos de segurança e servidores de acesso e autenticação remota. Por esse motivo, existe alguma incerteza sobre se um PC (uma máquina física) é uma opção adequada para alojar uma aplicação crítica para o processo de produção.
Neste ponto de reflexão, questionamos se realmente o sistema operativo e a aplicação devem estar ligados ao hardware ou se é melhor virtualizar o nosso sistema para, assim, desvinculá-lo da máquina física.

Foto: ThinManager
Para tal, os Hipervisores de virtualização como o EverRun da Stratus Technologies, o Microsoft Hyper-V ou o VMWare Sphere proporcionam um sistema tolerante a falhas entre a aplicação e o hardware. É preciso ter em conta que conceber um sistema tolerante a falhas exclusivamente com aplicações de software, sistemas operativos ou hipervisores pode adicionar um certo grau de complexidade se utilizarmos hipervisores como o VMWare Shpere, nos quais são necessários elementos extra como switches redundantes ou armazenamento externo partilhado, além de um grande conhecimento de administração por parte da equipa de IT. Outra opção passa pela utilização de elementos redundantes de hardware que têm a intenção de aumentar a fiabilidade, mas a utilização destes deve ser planeada de uma maneira correta ou muito simplificada, uma vez que podem levar a mais pontos de falha.
Todo este análise desemboca em três indicadores distintos que nos vão ajudar a olhar desde um ponto crítico nossos sistemas de planta: fiabilidade, mantenibilidade e disponibilidade.
Fiabilidade
A fiabilidade é a probabilidade de que um dispositivo realize a função para a qual está concebido em condições específicas e num período de tempo específico, e quantifica-se com a média do tempo entre falhas de um sistema (MTBF).
O método mais simples para o cálculo do MTBF é:
MTBF = Tempo total de fabrico / número total de falhas.
A eliminação das principais causas de falhas de hardware aumenta significativamente o MTBF. Por esse motivo, a primeira coisa a fazer é identificar os elementos de HW com mais falhas e tentar eliminá-los ou mitigar as suas falhas.
Como comentávamos anteriormente, uma possível solução passa por eliminar os PCs físicos da fábrica, virtualizá-los e concentrá-los num servidor central. Na fábrica, pois, poderíamos colocar simples clientes leves, que são elementos de hardware sem partes móveis, sem sistema operativo e robustos. Estes clientes leves apontarão para as máquinas virtuais mediante ligação RDS ou VDI. Reparemos que, se se optar por esta solução, estamos a eliminar pontos de falha num sítio, mas estamos a criar um ponto potencial de falha noutro, uma vez que concentramos num servidor central todas as máquinas virtuais. Portanto, aqui entram em jogo os hipervisores como o EverRun da Stratus e a utilização de servidores redundantes, ou os servidores tolerantes a falhas que nos proporcionam uma solução compacta de redundância e nos asseguram que não há passagem por 0 no caso de que caia algum elemento da máquina primária.

Foto: ThinManager
Com esta solução, asseguramos que o MTBF global do nosso sistema aumenta e, portanto, a fiabilidade.
Manutenibilidade
A mantenibilidade mede quanto tempo demora uma máquina a voltar a um estado normal de operação após uma falha no sistema, e mede-se com o tempo médio de reparação (MTTR). Este valor é mais difícil de calcular, uma vez que depende do tempo de substituição e de como estivesse configurado esse PC. Dependendo das configurações de utilizador, o MTTR pode ir de minutos a semanas.
Se seguirmos a solução proposta na secção de fiabilidade e estivermos a utilizar clientes leves na fábrica em vez de PCs, a utilização de um software que faça a gestão destes clientes leves pode ser a chave para diminuir os tempos de mudança de um hardware e, portanto, diminuir o MTTR. Um software como o ThinManager está preparado para gerir a configuração dos próprios clientes leves, conseguindo que, em questão de poucos minutos, sejamos capazes de realizar uma mudança por causa de uma falha de hardware.
No que se refere ao servidor central onde vamos alojar as nossas máquinas virtuais, a melhor opção tendo em vista a mantenibilidade é a utilização de um servidor tolerante a falhas com hardware redundado e CPUs e comunicações sincronizadas. Este tipo de servidores é formado por duas bandejas com elementos redundados. Se houver uma falha no elemento de uma das bandejas, o elemento secundário passa a assumir o comando, sendo totalmente transparente para o utilizador. Graças à monitorização do estado do servidor, mediante, por exemplo, traps SNMP, podemos detetar que elemento falhou e, se o servidor tolerante a falhas foi adquirido à Stratus Technologies, o contrato de manutenção assegura-nos que, em menos de 24 horas, teremos a substituição de uma bandeja inteira na fábrica. A mudança da bandeja é uma questão de poucos minutos, o que faz com que o MTTR se reduza significativamente.

Foto: Stratus Tecnologies
Finalmente, a última proposta para diminuir o MTTR é a utilização de um bom software de backups e cópias de segurança, tanto para as nossas máquinas virtuais como para os PLCs e SCADA da fábrica. Existe a possibilidade de haver um desastre na fábrica e terem de ser repostos múltiplos PLCs e voltar a carregar os programas. Se isto ocorrer e não se tiverem os backups controlados, esta tarefa pode durar muito tempo, provocando grandes perdas na produção.

Foto: MDT SOFTWARE
Disponibilidade
A disponibilidade é uma função da fiabilidade e da mantenibilidade, e define a percentagem de tempo que o sistema está operacional. Pode ser calculada seguindo a seguinte equação:
Disponibilidade = MTBF/(MTBF+MTTR);
Maximizar a disponibilidade requer aumentar o MTBF e diminuir o MTTR.
Uma forma muito conhecida de expressar a disponibilidade é mediante os “noves” ou o downtime. Três noves de disponibilidade (99,9 %) pode soar a um bom objetivo de design, no entanto, dependendo da criticidade da aplicação, pode chegar a ser catastrófico para o processo, como já vimos anteriormente noutro post.
Como conclusão, destacar que o parâmetro de disponibilidade é fundamental no cálculo do OEE e que, se forem seguidas estratégias para tentar aumentá-lo, a nossa produção e, portanto, os nossos rendimentos serão beneficiados.

Foto: ThinManager


