Estruturando um Data Lake para Transformação Digital

Publicado por:

Visagio

19/4/18

10 min. de leitura

A crescente visibilidade dos dados como ativo estratégico e fonte de vantagem competitiva nas empresas é um fenômeno que vem acelerando a demanda por capacidade de processamento e análise. A explosão do volume de dados nas organizações e a pluralidade de sistemas criam um ecossistema em que a existência de uma arquitetura para coleta, estruturação, armazenamento e processamento de dados é fundamental. Essas arquiteturas podem apresentar grande complexidade dependendo do porte da empresa e de seus dados em questão, de modo que não existe uma solução ou software único que atenda todos os cenários.

Entre os principais desafios desse tema, está a coleta e armazenamento dos dados brutos dos sistemas fonte como ERPs, APIs, inputs manuais como Excel e Access entre outros. Esta coleta deve atender aos seguintes requisitos: alta volumetria, capacidade de escala, baixa latência, capacidade de lidar com dados em formatos diversos diferentes níveis de estruturação/formatos, além de baixo custo.

Atualmente existem no mercado muitas soluções que buscam atender à demanda de coleta e armazenamento de dados. Denominados genericamente de data lakes, esses sistemas são compostos por um repositório capaz de armazenar dados brutos ou pouco estruturados atendendo aos requisitos de volumetria, confiabilidade e custo. Porém, implementar um data lake que gere resultados não depende apenas da escolha de uma boa ferramenta. Um data lake de sucesso depende de trabalho técnico aliado à mudança de mindset na companhia.

**Os quatro pilares para construir um data lake de sucesso**:

Apesar de construído e mantido pela TI, um data lake como base unificada e governada dos dados só será corretamente estruturado com a participação de todas as áreas da companhia e o interesse da alta gestão. É importante que haja sinergia entre TI e áreas de negócio para garantir maior eficiência na geração de resultados e melhor alinhamento estratégico com as diretivas e metas da empresa. Abaixo listamos os quatro pilares de um data lake de sucesso:

1 – Plataforma correta: existem muitas opções de plataformas no mercado, inclusive alternativas open-source. Deve-se garantir que ela cumpra requisitos referentes a volume de dados, custo, variedade de dados e escalabilidade. É muito comum que as ferramentas empregadas sejam subdimensionadas ou superdimensionadas, o que pode acarretar em custos desnecessário ou então em falta de performance para atender os requisitos solicitados pelo cliente.

2 – Organização: o objetivo do data lake é que o maior volume de dados possível seja armazenado em sua forma natural, evitando pré processamento que pode ser custoso e demorado para implementar dependendo do dado em questão. Além disso, a plataforma deve ser transparente para que os usuários saibam exatamente como obtê-los.

3 – Interface: construir um data lake de sucesso significa não só armazenar um gigantesco volume de dados, mas também conseguir fornecê-los para o usuário no formato mais adequado dependendo do uso em questão e de sua expertise. Tomemos como exemplo a área comercial de uma empresa. Um analista da área estará interessado no volume médio de vendas de um determinado produto. Já um cientista de dados busca a correlação do volume de vendas diário do produto x em função do produto y e da disposição desses produtos nas prateleiras (próximos ou separados). Ambos os usuários acessarão o data lake em busca de informações de vendas, porém cada um necessitará do dado em um nível diferente de processamento.

4 – Pessoas: é imprescindível que haja pessoas e times capacitados para a concepção do data lake. Conforme mencionado, não se trata apenas da escolha de uma ferramenta correta, é necessário intenso trabalho técnico para a definição da melhor solução que atenda a cada empresa.

De modo geral, as equipes de TI precisam ter conhecimento técnico aprofundado além do conhecimento processual do negócio. As áreas de negócio, por sua vez, precisam conhecer não só seus processos, como também, minimamente, a tecnologia que será aplicada. Essa interdisciplinaridade ajudará na sinergia entre as áreas, o que é fundamental para o sucesso não só do data lake como de qualquer outro sistema implementado na empresa.

Ganhos reais da implementação de um data lake

A correta implementação de um data lake pode trazer ganhos à companhia em diferentes níveis:

Governança: o armazenamento centralizado dos dados permite a criação e manutenção de políticas e normas que permeiam toda a companhia. Um dos principais pontos desse assunto é a segurança da informação, que será abordada em maiores detalhes na seção seguinte.
Negócio: os ganhos em escalabilidade de armazenamento permitem que as empresas guardem dados históricos com granularidade significativamente menor. Isso aumenta a precisão dos dados além de criar espaço para iniciativas de analytics que por sua vez geram mais valor ao negócio
Reduções de custo: é possível otimizar a estrutura de custos relacionados a armazenamento e processamento por meio de uma arquitetura de dados que utilize o data lake para descarregar dados armazenados em outras tecnologias mais caras, como um data warehouse.

Exemplos reais de ganhos da implementação de um data lake

Setor financeiro

A gigante de serviços financeiros American Express usou a sua arquitetura cloud para melhorar seu algoritmo de detecção de fraude. Os métodos de modelagem devem consultar uma variedade de fontes de dados, desde informações básicas sobre o cartão de crédito até detalhes sobre gastos e informações sobre comerciantes, a fim de bloquear transações fraudulentas. Ao mesmo tempo, deve permitir que transações legítimas prossigam rapidamente.

Os sistemas de detecção de fraudes devem sinalizar eventos suspeitos com antecedência e tomar decisões em alguns milissegundos contra um vasto conjunto de dados. Nesse contexto, o uso da arquitetura cloud associado ao aprendizado de máquina proporcionou uma melhoria em relação aos métodos tradicionais de regressão linear, elevando a precisão das previsões a um novo nível.

Setor automotivo

A luxuosa marca de carros Mercedes-Benz reduziu em um dia o ciclo de testes semanais de seus motores ao implementar uma arquitetura de cloud. Um típico motor tem cerca de 300 sensores e gera cerca de 30,000 dados a cada segundo. Antes da arquitetura cloud, os engenheiros tinham que esperar cerca de uma hora de testes e depois analisar os dados manualmente procurando por anomalias. Com a arquitetura cloud é feita uma correlação entre os dados do motor coletados em tempo real e dados históricos de testes. Com isso, é possível detectar problemas de performance ocasionados por falha no motor quase instantaneamente.

Segurança e considerações legais

A segurança da informação é um dos principais pontos quando se fala da implantação de data lakes e de democratização dos dados. A pergunta é: como garantir acesso aos dados e ao mesmo tempo seguir as normas corporativas e governamentais?

Conforme discutido anteriormente, um data lake bem estruturado permite a criação de uma governança centralizada de dados. Porém, para que as políticas sejam de fato seguidas, é necessário que a estrutura do data lake esteja preparada para tal. Isso exige uma arquitetura com regras de permissão, além de uma árvore de diretórios organizada. De modo geral, as principais ferramentas disponíveis no mercado já possuem os recursos necessários para tal organização, cabe à governança corporativa ser corretamente estruturada para que isso funcione.

A seguir apresentamos uma estrutura recomendada para um data lake.

Estrutura recomendada do Data Lake

A estrutura ideal para uma companhia pode variar dependendo do seu porte. De forma geral, a Visagio recomenda a seguinte organização:

Transient: Local de armazenamento para arquivos temporários usada como staging. Apagada regularmente.
Raw: Local de armazenamento onde são encontrados os arquivos brutos, ou seja, todos os arquivos extraídos de sistemas são guardados nesta pasta em seu formato original
Curated: Local de armazenamento onde estão os dados limpos e refinados para consumo de dados. Ela é composta por dois subdiretórios:
- Converted: Local de armazenamento com arquivos convertidos pelo ETL (Extract, Transform and Load, o processo básico de preparação dos dados) em formatos otimizados para serem lidos e processados pelas ferramentas.
- Enriched: Local de armazenamento com arquivos enriquecidos com novos dados, cruzamentos, cálculos ou modelos analíticos.
Lab Zone: Pasta para os cientistas de dados realizarem experimentações e atividades exploratórias.

Outra boa prática é com relação à nomenclatura. Deve-se adotar um único padrão que evite ambiguidades e seja facilmente reconhecido. Iniciar o nome com a data da extração no formato AAAAMMDD, usar apenas caixa alta, sem acentuação, caracteres especiais e/ou espaço são exemplos de boas práticas que recomendamos.

Exemplo:um arquivo .csv extraído diretamente de uma base do ERP em uma determinada data estaria no diretório RAW/[NOME_DO_ERP]/[NOME_DA_BASE]/[ANO]/[MES]/[DIA]/[ANO][MES][DIA]-[NOME_DA_BASE].csv

Conclusão

A organização dos dados é peça chave para a transformação digital dos negócios. É necessário que, além da implementação de novas tecnologias, haja uma mudança organizacional e de mindset para que real valor seja extraído dos dados.

Em outras palavras, é preciso que a área de dados seja estruturada com o apoio da alta gestão da companhia.

Com relação à tecnologia, é necessário uma arquitetura de dados bem definida. Nesse contexto, o uso de um data lake seguindo as melhores práticas é fundamental, e pode representar um grande passo na transformação digital das empresas.

Saiba mais sobre arquitetura de dados para BI & Analytics

Este conteúdo atendeu suas expectativas?

Sim! ? Um pouco…? Não ?

Fontes externas

[1] Big Data Requires a Big, New Architecture
Fonte: https://www.forbes.com/sites/ciocentral/2011/07/21/big-data-requires-a-big-new-architecture/#242d04ab1157

[2] Data Lake – Wikitionary
Fonte: https://en.wiktionary.org/wiki/data_lake

[3] James Dixon’s Blog – Pentaho, Hadoop, and Data Lakes
Fonte: https://jamesdixon.wordpress.com/2010/10/14/pentaho-hadoop-and-data-lakes/

[4] Gartner – Look Before Driving Headfirst Into a Data
Fonte: https://www.gartner.com/smarterwithgartner/look-before-diving-headfirst-into-a-data-lake-2/

[5] Gartner – Gartner Glossary
Fonte: https://www.gartner.com/en/information-technology/glossary/data-lake

[6] Gorelic – The Enterprise Big Data Lake (2019)

‍

Sobre os autores

José Suen é consultor na Visagio, atuando em projetos de Tecnologia com foco em BI e Analytics desde 2019.

Julio Batista é consultor na Visagio, atuando em projetos de Tecnologia com foco em BI e Analytics desde 2017.

Compartilhe este Insight:

Facebook