Original Article: Drinking from the industrial IoT data fire hose
Author: Andy Oram

Bebendo da mangueira de incêndio de dados industriais IoT

Damage Controlmen spray fire hoses off the hanger deck during a damage control demonstration.
Damage Controlman instala mangueiras de incêndio no convés do gancho durante uma demonstração de controle de danos. (source: Companheiro do fotógrafo segundo classe Charles A. Edwards Jr. no Wikimedia Commons)

Por trás da grande promessa oferecida pela Internet das Coisas (IoT) encontra-se uma série de desafios para administradores de sistemas e redes que têm que transmitir e armazenar a igualmente imensa quantidade de dados que irão ser gerados dispositivos de ponta e para programadores que tem que processar esses dados. Esses desafios são inéditos, mesmo no contexto do enorme crescimento de dados durante a era digital.

Muitas pessoas sentiram o stress da “sobrecarga de dados” na década de 1990, quando tinham que ler 50 mensagens de email por dia. Nos anos 2000, estávamos falando sobre o tamanho impressionante da Web, quando oferecia uma estimativa de sete milhões de sites. Durante aquele tempo, novas palavras foram inventadas para referir-se aos tamanhos exorbitantes de dados, e eu sugeri (ironicamente) que o tamanho de dados corporativos estava ultrapassando a disponibilidade de prefixos gregos. Em 2013, Cisco estimou "“o número de objetos conectados a alcançar aproximadamente 50 bilhões em 2020." Um exemplo típico do volume da IoT atual envolve 2.5 terabytes de dados por dia de 6,000 sensores em uma única máquina. Você pode conferir um artigo da ZDNet para mais estatísticas induzindo uma mistura de dados.

Está longe de estar perdida, apesar disso. Eu escrevi um manual sobre as maneiras que você pode filtrar as saídas dessas mangueiras de dados para ganhar valor e visões acionáveis desses dados. Vamos dar uma olhada em algumas considerações básicas que estão subjacentes com seu uso de dados IoT.

Procurar por valor

Gerentes e planejadores financeiros irão querer saber qual valor será derivado dos sensores e grandes dados. Usos amplos podem ser reportados de vários campos:

Esses exemplos poderiam ser multiplicados por muitos campos e indústrias. A questão é como sua organização pode usar dados. Quais mercados você gostaria de entrar? Onde são seus produtos ou operações atuais ineficientes? Qual informação ajudaria você a tomar tais decisões? E você está pronto para investir os recursos humanos e dinheiro para criar grandes mudanças em sua organização baseando-se na informação recebida? Se você tem respostas satisfatórias para essas perguntas, você pode seguir para o próximo passo.

Determinar o que você precisa aprender dos dados

Através de aprendizagem por máquinas, cientistas de dados entregaram percepções fascinantes que técnicas tradicionais nunca teriam produzido. Deslumbrados pelos resultados, alguns web sites coletam tudo que aparece em seu caminho, armazenando grandes quantidades de dados históricos brutos. Algumas das decisões impulsionadas por esses dados foram feitas imediatamente (notavelmente, quais anúncios mostrar a um visitante), enquanto outros analíticos podem ser processados no tempo do site.

A Internet das Coisas é diferente; apesar de, aqui também haver decisões que devem ser feitas rapidamente (tais como de desligar um motor superaquecendo), e outros podem usar dados históricos para tirar conclusões de longo alcance. Uma diferença, como já vimos, é a grande quantidade de dados que dispositivos de ponta conseguem gerar. Outra diferença é que a IoT tem uma quantidade de informações potencialmente infinita a oferecer. Tudo depende de quais e quantos sensores você instala.

Então, sua organização precisa decidir o que tem que aprender de seu ambiente, e escolher sensores sabiamente. Uma decisão chave é granularidade. Você consegue se safar com um sensor na ponta de um tubo, ou você precisa de sensores em intervalos regulares? Um fazendeiro consegue tirar conclusões úteis de um sensor em um campo, ou ela precisa de um sensor para cada fileira de plantas? Essas são questões de engenharia.

Determinar quais proxies usar

Raramente você consegue extrair a resposta exata para suas questões do seu ambiente. Por exemplo, poucos planetas de outro sistema solar podem ser detectados através de observação direta, então a NASA usa quatro outros métodos para achar planetas, tais como observar por oscilações nas próprias estrelas ou na luz que vem delas. Similarmente, uma questão comum em produção seria, “Quanto tempo essa limitação irá durar?”. Mas você não pode obter um cronograma diretamente do cerco. Você precisa, ao invés disso, monitorar por falhas, enfraquecimento do cerco, ou outras medidas de proxy.

Determinar onde processar dados

A arquitetura mais simple para processamento de dados é sugar tudo em um armazenamento central de dados, provavelmente em uma facilidade de nuvem, e executar análises de grande escala lá. Entretanto, encargos na sua armazenagem e rede de comunicação podem ser reduzidos ao processar alguns dados próximos ao local onde estão reunidos.

burdens on your storage and networking can be reduced by processing some data close to where it is gathered

Um exemplo típico de processamento nas margens é monitorar os valores gerados por um dispositivo para procurar por anomalias. Por exemplo, um eletrocardiograma poderia procurar por picos ou quedas na batida cardíaca e mandar um aviso ao serviço central apenas para irregularidades. Outra opção é mandar a média de valores coletados uma vez por segundo ou uma vez por minuto, ao invés de todos os valores brutos.

send the average of values collected once a second or once a minute

Outra arquitetura comum da IoT é para dispositivos em cada site geográfico para mandar dados para um hub local, geralmente dentro de uma rede sem fio local. O hub local pode parcialmente processar os dados e mandar os resultados através da internet para um depósito centralizado que combina dados de diversos sites.

The local hub can partially process the data and send results over the internet to a centralized store that combines data from many sites

As decisões sobre onde processar dados depende de vários fatores:

  • Percepções úteis podem ser geradas de dados em um único dispositivo ou em um único site, ou as análises exigem dados combinados de um número maior de dispositivos?
  • Os dispositivos de ponta têm poder de CPU, armazenamento de dados, e fontes de energia suficientes para fazer o processamento?
  • A sua rede tem a banda larga para transmitir os dados?
  • Você quer preservar os dados para processamento futuro?
  • Quão rapidamente você precisa de resultados? Mudanças urgentes para dados que exigem ação em tempo real são mais suscetíveis a ocorrer de maneira pontual se são processados próximos às margens.
  • Quão sensível são suas análises a perder dados? Dispositivos de ponta são suscetíveis a falhar ou parar de relatar dados por outros motivos.

Há algumas dessas considerações para lidar com dados em aplicativos IoT. Leia meu relatório, Dimensionando a Ciência de Dados para a Internet Industrial: Análises Avançadas em Tempo Real, para mais percepções e orientações.

Esse post é uma colaboração entre ThingWorx e O’Reilly. Veja nossa declaração de independência editorial.