Data Engineer – Conhecendo os Tiers do Azure Data Lake!

Olá galera o/

No post de hoje, vamos aprender um pouco sobre os Tiers no Azure Data Lake e como eles mexem tanto nos custos quanto no acesso às informações. Além disso, entenderemos o funcionamento do ciclo de vida desse Data Lake.

O que é o Azure Data Lake?

O Azure Data Lake é um serviço de armazenamento altamente escalável oferecido pela Microsoft no Azure, projetado para armazenar e processar grandes volumes de dados, incluindo dados estruturados e não estruturados. Ele fornece um repositório seguro e flexível para armazenar dados brutos, permitindo análises avançadas e processamento de big data. O Azure Data Lake é integrado com ferramentas de análise e aprendizado de máquina, facilitando a obtenção de insights valiosos a partir dos dados.

Para mais informações, consultar documentação do produto: https://learn.microsoft.com/pt-br/azure/storage/blobs/data-lake-storage-introduction

O que são Tiers?

O termo “tier” refere-se ao conceito de armazenamento em camadas, que é uma estratégia de gerenciamento de dados usada para otimizar o custo e o desempenho do armazenamento de dados em nuvem.

Quais são os Tiers disponíveis no Azure Data Lake?

Atualmente o Azure Data Lake possui 3 tiers disponíveis:

Hot tier: O nível Hot é otimizado para dados que são acessados com frequência. Ele tem o melhor desempenho e disponibilidade, mas também é o nível mais caro.

Cool tier: O nível Cool é otimizado para dados que são acessados com menos frequência. Ele tem um desempenho e disponibilidade menores, mas também é o nível mais barato.

Archive tier: O nível Archive é otimizado para dados que são acessados com muito pouca frequência. Ele tem o pior desempenho e disponibilidade, mas também é o nível mais barato.

A escolha do nível de acesso ideal para seus dados depende de suas necessidades específicas de desempenho, disponibilidade e custo. Se você precisar de um desempenho e disponibilidade altos, você deve usar o nível Hot. Tier recomendado para projetos de BI (business Intelligence), big data e data science, pois, os dados estão em constante transformação.

Se você puder tolerar um desempenho e disponibilidade menores, você pode usar o nível Cool para economizar dinheiro, porém, este tier é mais barato para armazenamento estatico. Os custos por transações (leitura, escrita e etc) são mais caras a medida que você utiliza tiers mais baratos em armazenamento.

Se você precisar armazenar dados por um longo período de tempo e não precisar acessá-los com frequência, você deve usar o nível Archive para economizar ainda mais dinheiro.

Abaixo segue uma tabelinha para exemplificar um pouco sobre os Tiers.

Tier	Desempenho	Disponibilidade	Custo	Aplicação
Hot	Melhor	Melhor	Mais caro	Dados acessados com frequência, como arquivos de trabalho, dados analíticos em tempo real e dados de aprendizado de máquina
Cool	Menor	Menor	Mais barato	Dados acessados com menos frequência, como arquivos de log, arquivos de backup e dados históricos
Archive	Pior	Pior	Mais barato	Dados acessados com muita pouca frequência, como dados de arquivamento e dados de backup de longo prazo

Tier Cold

O Azure Data Lake agora oferece um novo nível de acesso chamado Cold. O nível Cold é otimizado para dados que são acessados com pouca frequência. Ele tem um desempenho e disponibilidade menores do que o nível Hot, mas também é mais barato.

O nível Cold é uma boa opção para armazenar dados que não precisam ser acessados com frequência, como arquivos de log, arquivos de backup e dados históricos. Ele também é uma boa opção para armazenar dados que podem ser compactados, como arquivos de texto e arquivos de imagem.

O nível Cold é mais barato do que o nível Hot porque é armazenado em um local diferente e tem um nível de replicação diferente.

Para mais informações, consultar documentação do produto: https://learn.microsoft.com/pt-br/azure/storage/blobs/access-tiers-overview

Abaixo segue uma tabelinha para exemplificar um pouco sobre os Tiers atuais e o cold.

Tier	Desempenho	Disponibilidade	Custo	Aplicação
Hot	Melhor	Melhor	Mais caro	Dados acessados com frequência, como arquivos de trabalho, dados analíticos em tempo real e dados de aprendizado de máquina
Cool	Menor	Menor	Mais barato	Dados acessados com menos frequência, como arquivos de log, arquivos de backup e dados históricos
Cold	Menor ainda	Menor Ainda	Mais barato ainda	Dados acessados com pouca frequência, como dados de arquivamento e dados de backup de longo prazo
Archive	Pior	Pior	Mais barato	Dados acessados com muita pouca frequência, como dados de arquivamento e dados de backup de longo prazo

Você já ouviu falar em ciclo de vida do data lake?

É uma estratégia de gerenciamento de dados que define como os dados são tratados desde a sua criação até a sua exclusão ou arquivamento. O objetivo principal é otimizar o armazenamento, o acesso e o custo dos dados ao longo do tempo. Abaixo estão alguns estágios do ciclo de vida:

Ingestão de Dados: Neste estágio, os dados são criados ou importados para o Azure Data Lake. Isso pode incluir a captura de dados em tempo real, a importação de arquivos existentes ou a ingestão de dados de fontes externas.
Armazenamento: Os dados recém-ingestados são inicialmente armazenados na camada HOT para garantir um acesso rápido e baixa latência. Isso é adequado para dados ativamente usados.
Análise e Processamento: Durante este estágio, os dados são processados, transformados e analisados usando ferramentas de big data e análise de dados disponíveis no Azure. Isso permite extrair insights e valor dos dados.
Tiring (Movimentação de Dados): À medida que os dados envelhecem ou se tornam menos ativos, você pode configurar políticas de ciclo de vida para mover automaticamente os dados da camada HOT para a camada COOL. Isso ajuda a otimizar custos de armazenamento, pois a camada COOL é mais econômica.
Retenção e Exclusão: Conforme necessário, você pode definir políticas de retenção para garantir a conformidade com regulamentações e regras de negócios. Isso também pode envolver a exclusão de dados que já não são necessários.
Arquivamento: Para dados que precisam ser retidos por longos períodos, você pode arquivá-los em um armazenamento de longo prazo, como o Azure Blob Storage ou outro repositório de arquivamento. Os dados são movidos para a Camada ARCHIVE.

Este processo é muito relevante em cenários de big data, análise avançada e retenção de dados a longo prazo. Estratégia deve ser estudada e analisada antes de ser aplicada, é sempre importante consultar o cliente e o arquiteto de dados da empresa antes de aplicar este procedimento.

Como aplicar o estratégia de ciclo de vida no Azure Data Lake!

Para aplicar o processo de gerencimaneto do ciclo de vida no azire data lake siga os seguintes passos:

1 – Com o data lake aberto, vá até a seção Data Management.
2 – Selecione a opção Lifecycle management.
3 – Clique em + Add a rule para criar sua regra de ciclo de vida.

Irei fazer o processo mais detalhado em outro post.

Considerações Finais!

Neste post, compreendemos a dinâmica dos tiers, sua relevância para nossas estratégias de gerenciamento de armazenamento e controle de custos no ambiente do Data Lake. Além disso, exploramos um pouco sobre o ciclo de vida no contexto do Azure Data Lake, destacando sua importância para o gerenciamento eficaz de dados ao longo do tempo.

Espero que tenham gostado, boa leitura e bons estudos.

Quem quiser mandar comentários, sugestões, críticas ou dicas complementares, fiquem a vontade, pois feedbacks positivos ou negativos engradecem meu conhecimento para poder melhorar as postagens para vocês.

Até a próxima o/

Acessem nossas Redes Sociais: