Olá galera o/
No post de hoje, vamos aprender um pouco sobre as camadas do data lake e como elas são importantes na organização dos nossos dados nos projetos de big data.
O que é a Arquitetura Medalhão?
A arquitetura medalhão representa um padrão de design para data lakes, que tem como principal objetivo a organização, eficiência e manutenção dos dados. Essa abordagem proativa busca impedir que o data lake torne-se um “Data Swamp” (um ambiente de dados confuso e inutilizável).
Obs.: Dependendo do projeto, as camadas podem receber outra nomenclatura.
Camadas do Data Lake!
Neste post, iremos dividir o data lake em camadas. No entanto, lembre-se que podem existir outras camadas dependendo do projeto e de como foi realizada a implementação.
Irei dar minha opinião profissional sobre os formatos de arquivo que gosto de trabalhar nesta estrutura.
- Transient: Camada onde os dados são recebidos e armazenados em seu formato original.
- Ex.: Dados em formato Parquet, CSV, Avro, etc. Gosto de trabalhar com os dados em formato Parquet, pois, facilita a transformação para o formato Delta.
- Bronze: Camada onde os dados são transformados para um formato padronizado e carregados no data lake.
- Ex.: Nos projetos que atuo, transformo o parquet em formato delta.
- Silver: Camada onde os dados são limpos, corrigidos e enriquecidos com metadados.
- Ex.: Os dados continuam em formato delta.
- Gold: Camada onde os dados são preparados para análise e visualização.
- Ex.: Os dados continuam em formato delta.
- Sandbox: Camada onde os dados são usados para desenvolvimento, testes e experimentação.
- Ex.: Os dados continuam em formato delta.
Importância das camadas do data lake
Cada camada do data lake desempenha um papel importante no processo de análise de dados. A camada transient é responsável por receber e armazenar os dados, a camada bronze é responsável por transformá-los em um formato padronizado, a camada silver é responsável por limpar e corrigir os dados, a camada gold é responsável por prepará-los para análise e a camada sandbox é responsável por usá-los para desenvolvimento, testes e experimentação.
A arquitetura medalhão é uma abordagem eficaz para gerenciar dados em um data lake. Ela ajuda a garantir a qualidade e a disponibilidade dos dados para análise e visualização.
Transient / Staging
A camada transient é a primeira camada de um data lake. É aqui que os dados são recebidos e armazenados em seu formato original. É projetada para processamento temporário e rápido de dados. Os dados ou arquivos podem ser temporários e não persistentes, frequentemente descartados após o processamento.
Bronze / Raw
A camada bronze é a segunda camada de um data lake. É aqui que os dados são transformados para um formato padronizado e carregados no data lake. Essa camada é geralmente usada para armazenar dados de diferentes fontes em um formato que possa ser facilmente analisado. A importância da Camada Bronze reside na preservação da integridade dos dados originais, além disso, manter os dados brutos permite rastrear problemas ou discrepâncias até sua fonte original, facilitando a solução de problemas.
Nesta camada trabalho com a tabela em formato delta table.
Silver / Trusted
A camada silver é a terceira camada de um data lake. É aqui que os dados são limpos, corrigidos e enriquecidos com metadados. Essa camada é geralmente usada para limpeza e validação dos dados, garantindo assim maior qualidade e confiabilidade nas análises subsequentes. As tabelas nesta camada podem ser compostas por mais de uma tabela da camada bronze, ou seja, uma tabela da camada silver é construída por mais de uma tabela da camada bronze.
Gold / Refined
A camada gold é a quarta camada de um data lake. É aqui que os dados são preparados para análise e visualização. Essa camada é geralmente usada para armazenar dados que são usados para relatórios, análises preditivas e outros tipos de análise avançada. Podemos aplicar um controle de acesso rigoroso garantindo que apenas usuários autorizados possam acessar os dados de alta qualidade e confiabilidade.
Nesta camada trabalho com a tabela em formato delta table e aplico o modelo multidimensional (Fatos e Dimensões) com suas respectivas recomendações (surrogate key, slowly changing dimension, star schema ou snowflake).
Sandbox
A camada sandbox é a quinta camada de um data lake. É aqui que os dados são usados para desenvolvimento, testes e experimentação. Neste espaço, cientistas de dados e analistas podem testar hipóteses, criar modelos de machine learning e realizar experimentos de análise de dados sem afetar os dados nas Camadas Bronze, Silver e Gold.
Ilustração Arquitetura medalhão
Considerações Finais!
Neste post, compreendemos como as camadas do Data Lake desempenham papéis cruciais na gestão e na exploração de dados. Desde a Camada Bronze, que preserva os dados brutos, passando pela Silver, Gold, Sandbox e Transient, cada camada contribui para a obtenção de insights valiosos e aprimora a capacidade das organizações de tomar decisões informadas com base em dados. Implementar e gerenciar essas camadas de forma eficaz é essencial para o sucesso de projeto de big data.
Espero que tenham gostado, boa leitura e bons estudos.
Quem quiser mandar comentários, sugestões, críticas ou dicas complementares, fiquem a vontade, pois feedbacks positivos ou negativos engradecem meu conhecimento para poder melhorar as postagens para vocês.
Até a próxima o/
Acessem nossas Redes Sociais:
Muito obrigado por esse post, altamente esclarecedor e didático.
CurtirCurtir