

Dados: o “novo petróleo”, e o desafio de extrair valor
Os dados são o novo petróleo do mundo digital, mas só geram valor quando refinados por arquiteturas inteligentes e estratégias bem estruturadas.
TECNOLOGIAMERCADOINTELIGÊNCIA ARTIFICIAL
Por Bruno Jardim
10/10/20254 min read


Vivemos uma era em que a quantidade de dados gerada cresce em ritmo exponencial. Estimativas recentes apontam que, em 2028, o volume de dados criado, capturado, copiado e consumido no mundo pode chegar a 394 zettabytes, segundo a IDC. Para efeito de comparação, em 2024 esse volume era de aproximadamente 149 zettabytes.
Estamos nos aproximando de um marco simbólico e curioso: 1 mol de bytes! Lembra das aulas de química? Um mol representa aproximadamente 6,02 x 10²³, o famoso número de Avogadro. Ou seja, em poucos anos estaremos falando de volumes de dados na ordem do “mol”, só que em bytes. É o tipo de dado que nem a tabela periódica estava preparada para explicar!
O dado é o novo petróleo, um ativo riquíssimo que as empresas já possuem, muitas vezes sem saber seu valor total. Mas, como o petróleo bruto, ele só gera impacto quando bem refinado. E, nesse contexto, a refinaria chama-se engenharia de dados: é ela que organiza, transforma e distribui os dados para que se tornem insights, decisões e inovações.
Apenas reter dados não é mais novidade. O que diferencia empresas de sucesso é o que elas fazem com esses dados. Ainda assim, pesquisas mostram que uma parcela muito relevante dos dados coletados é subutilizada ou sequer aproveitada. O Gartner afirma que essa parcela chega a 80%, ou seja, um ativo supervalioso que fica “dormindo” sem uso para gerar resultado.
Além disso, parte significativa dos dados corporativos é semiestruturada ou não estruturada, como e-mails, documentos, chats, logs, áudio e vídeo. Segundo o Gartner, cerca de 80% dos dados corporativos estão nesse formato, o que exige arquiteturas mais flexíveis para lidar com essa heterogeneidade.
Com esse cenário, falar de dados não é apenas um projeto de TI, é reconhecer que dados são ativos estratégicos, com riscos, custos, retornos e decisões associadas.
Fontes principais de geração de dados
As principais fontes de geração de dados dentro das empresas incluem:
Sistemas transacionais, como ERP, CRM, vendas e financeiro.
Web e aplicativos, que geram clickstreams, logs e informações de comportamento do usuário.
APIs externas, que fornecem dados de redes sociais, clima, mercados, bureaus, sites e portais públicos.
IoT e sensores, presentes em equipamentos industriais e dispositivos vestíveis (wearables).
Logs de infraestrutura, vindos de servidores e sistemas de telemetria.
Conteúdo humano, como e-mails, documentos, áudios e vídeos.
Saídas de IA e machine learning, incluindo scores, predições, modelos e features derivados de análises automatizadas.
Essas fontes alimentam desde dashboards gerenciais até modelos de machine learning que apoiam a tomada de decisão em tempo real.
Com o aumento da complexidade dos sistemas, a explosão de fontes e a redução do custo de processamento, tornou-se essencial criar uma estrutura organizacional e técnica para lidar com o ciclo de vida dos dados dentro das empresas.
Essa estrutura é chamada de arquitetura de dados, o conjunto de padrões, tecnologias e processos que definem como os dados são coletados, armazenados, processados e disponibilizados para uso.
Evolução das arquiteturas
Na década de 90 surgiram os primeiros Data Warehouses, voltados à consolidação de dados operacionais em repositórios estruturados e confiáveis, ideais para relatórios e indicadores.
Com a digitalização e o crescimento exponencial de novas fontes, surgiram os Data Lakes, capazes de armazenar grandes volumes de dados brutos, estruturados ou não, permitindo transformações sob demanda.
Cada arquitetura surgiu para resolver um desafio específico, e entender essas diferenças é essencial para escolher a melhor forma de refinar o “petróleo digital”.
Data Warehouse (DW)
Orientado a consumo estruturado: dashboards, BI, relatórios.
Usa ETL: extrai, transforma e carrega os dados em um modelo relacional.
Vantagens: consistência, governança, desempenho.
Limitações: baixa flexibilidade e lentidão para novos dados.
Data Lake
Armazena dados brutos de forma flexível.
Ideal para dados não estruturados e experimentações com machine learning.
Vantagens: agilidade, suporte a grandes volumes e variedade.
Limitações: risco de “data swamp”, necessidade de governança.
Qual escolher?
A escolha entre Data Warehouse, Data Lake ou uma arquitetura híbrida depende do perfil e das necessidades da empresa.
Para dashboards e BI estáveis, o ideal é o Data Warehouse, utilizado por empresas de varejo que precisam de relatórios mensais e KPIs financeiros para a diretoria.
Para projetos dinâmicos que envolvem machine learning ou novas fontes de dados, o mais indicado é o Data Lake, como no caso de fintechs que analisam risco de crédito com base em dados de redes sociais e comportamento de navegação.
Já a arquitetura híbrida (DW + Lake) é recomendada para organizações que precisam unir relatórios estruturados e análises avançadas, como indústrias que geram dashboards operacionais e utilizam IoT e machine learning para manutenção preditiva.
Reflexão final
Você, gestor, provavelmente está cercado de dados, mas:
Eles estão sendo usados estrategicamente?
Estão acessíveis para quem toma decisão?
Seus cientistas de dados têm agilidade para testar hipóteses?
Você conhece os custos da sua arquitetura?
Lembre-se: dados são o novo petróleo, mas o petróleo só tem valor quando refinado.






