Olá galera o/

No post de hoje, vamos aprender um pouco sobre as camadas do data lake e como elas são importantes na organização dos nossos dados nos projetos de big data.

O que é a Arquitetura Medalhão?

A arquitetura medalhão representa um padrão de design para data lakes, que tem como principal objetivo a organização, eficiência e manutenção dos dados. Essa abordagem proativa busca impedir que o data lake torne-se um “Data Swamp” (um ambiente de dados confuso e inutilizável).

Obs.: Dependendo do projeto, as camadas podem receber outra nomenclatura.

Camadas do Data Lake!

Neste post, iremos dividir o data lake em camadas. No entanto, lembre-se que podem existir outras camadas dependendo do projeto e de como foi realizada a implementação.

Irei dar minha opinião profissional sobre os formatos de arquivo que gosto de trabalhar nesta estrutura.

  • Transient: Camada onde os dados são recebidos e armazenados em seu formato original.
    • Ex.: Dados em formato Parquet, CSV, Avro, etc. Gosto de trabalhar com os dados em formato Parquet, pois, facilita a transformação para o formato Delta.
  • Bronze: Camada onde os dados são transformados para um formato padronizado e carregados no data lake.
    • Ex.: Nos projetos que atuo, transformo o parquet em formato delta.
  • Silver: Camada onde os dados são limpos, corrigidos e enriquecidos com metadados.
    • Ex.: Os dados continuam em formato delta.
  • Gold: Camada onde os dados são preparados para análise e visualização.
    • Ex.: Os dados continuam em formato delta.
  • Sandbox: Camada onde os dados são usados para desenvolvimento, testes e experimentação.
    • Ex.: Os dados continuam em formato delta.

Importância das camadas do data lake

Cada camada do data lake desempenha um papel importante no processo de análise de dados. A camada transient é responsável por receber e armazenar os dados, a camada bronze é responsável por transformá-los em um formato padronizado, a camada silver é responsável por limpar e corrigir os dados, a camada gold é responsável por prepará-los para análise e a camada sandbox é responsável por usá-los para desenvolvimento, testes e experimentação.

A arquitetura medalhão é uma abordagem eficaz para gerenciar dados em um data lake. Ela ajuda a garantir a qualidade e a disponibilidade dos dados para análise e visualização.

Transient / Staging

A camada transient é a primeira camada de um data lake. É aqui que os dados são recebidos e armazenados em seu formato original. É projetada para processamento temporário e rápido de dados. Os dados ou arquivos podem ser temporários e não persistentes, frequentemente descartados após o processamento.

Bronze / Raw

A camada bronze é a segunda camada de um data lake. É aqui que os dados são transformados para um formato padronizado e carregados no data lake. Essa camada é geralmente usada para armazenar dados de diferentes fontes em um formato que possa ser facilmente analisado. A importância da Camada Bronze reside na preservação da integridade dos dados originais, além disso, manter os dados brutos permite rastrear problemas ou discrepâncias até sua fonte original, facilitando a solução de problemas.

Nesta camada trabalho com a tabela em formato delta table.

Silver / Trusted

A camada silver é a terceira camada de um data lake. É aqui que os dados são limpos, corrigidos e enriquecidos com metadados. Essa camada é geralmente usada para limpeza e validação dos dados, garantindo assim maior qualidade e confiabilidade nas análises subsequentes. As tabelas nesta camada podem ser compostas por mais de uma tabela da camada bronze, ou seja, uma tabela da camada silver é construída por mais de uma tabela da camada bronze.

Gold / Refined

A camada gold é a quarta camada de um data lake. É aqui que os dados são preparados para análise e visualização. Essa camada é geralmente usada para armazenar dados que são usados para relatórios, análises preditivas e outros tipos de análise avançada. Podemos aplicar um controle de acesso rigoroso garantindo que apenas usuários autorizados possam acessar os dados de alta qualidade e confiabilidade.

Nesta camada trabalho com a tabela em formato delta table e aplico o modelo multidimensional (Fatos e Dimensões) com suas respectivas recomendações (surrogate key, slowly changing dimension, star schema ou snowflake).

Sandbox

A camada sandbox é a quinta camada de um data lake. É aqui que os dados são usados para desenvolvimento, testes e experimentação. Neste espaço, cientistas de dados e analistas podem testar hipóteses, criar modelos de machine learning e realizar experimentos de análise de dados sem afetar os dados nas Camadas Bronze, Silver e Gold.

Ilustração Arquitetura medalhão

Considerações Finais!

Neste post, compreendemos como as camadas do Data Lake desempenham papéis cruciais na gestão e na exploração de dados. Desde a Camada Bronze, que preserva os dados brutos, passando pela Silver, Gold, Sandbox e Transient, cada camada contribui para a obtenção de insights valiosos e aprimora a capacidade das organizações de tomar decisões informadas com base em dados. Implementar e gerenciar essas camadas de forma eficaz é essencial para o sucesso de projeto de big data.

Espero que tenham gostado, boa leitura e bons estudos.

Quem quiser mandar comentários, sugestões, críticas ou dicas complementares, fiquem a vontade, pois feedbacks positivos ou negativos engradecem meu conhecimento para poder melhorar as postagens para vocês.

Até a próxima o/

Acessem nossas Redes Sociais: