Olá galera o/

Neste post vou fazer um resumo sobre a Palestra que fiz na 3ª edição do evento Data Engineer’s Conference. Agradecimento a Carol Lavecchia pela oportunidade de participar deste evento.

O que é o Data Engineer’s Conference?

Evento idealizado e organizado pela Caroline Lavecchia afim de levar conhecimento, novas tecnologias, utilização de Engenharia de Dados, Business Inteligente e solução de Big Data em ambientes em Cloud Microsoft.

Utilizando recursos do Azure para soluções de Datawarehouse moderno afim de levar a transformaçao digital para as empresas atendendo à tomadas de decisão em tempo real trazendo benefícios à seus negócios.

Evento gratuito e online com palestrantes do mundo todo para que todos fiquem conectados com as tecnologias utilizadas em grandes corporações.

Como foi a palestra?

A palestra aconteceu no dia 02/12/2021 (quinta-feira) com inicio as 19h. O tema da minha palestra foi Conhecendo o poder do Data Flow do ADF e teve como objetivo mostrar como realizar transformações de dados utilizando o módulo do Data Flow contido dentro do Azure Data Factory. O data flow utiliza o poder do Spark para processar grandes volumetrias de dados no Azure Data Factory. Os tópicos da palestra foram:

1 – Quem sou eu
2 – O que é o Azure Data Factory (ADF)
3 – Componentes do ADF
4 – ETL x ELT
5 – Spark
6 – Fluxo do Hands-On
7 – Arquitetura do Hands-on
8 – Demonstração
9 – Perguntas

O slide utilizado na apresentação está abaixo e disponível para download.

Segue as imagens de divulgação criadas pelo organizador do evento.

Para o Hands-on (demonstração) utilizei a API das Espécies de Aves presente nas Praças do Recife, que estão contidas no portal de dados do Recife. O Link está a seguir.

http://dados.recife.pe.gov.br/dataset/1ddcc3d1-a596-4416-bee8-7d38d45c12fa/resource/536a9a9f-7860-40db-9931-0b9374d174bf

Qual foi o processo realizado no hands-on:

  1. Consumir dados de uma API do portal Dados do Recife. Os dados são sobre Espécies de Aves presente nas Praças do Recife.
  2. Copiar os dados da API para o Container RAW no data lake em formato JSON.
  3. Executar a activity do Data Flow que realizará os seguintes passos:
    1. Ler os dados do container RAW.
    2. Utilizando o Flatten para normalizar o array do atributo properties do JSON, ou seja, transformar o JSON em formato Colunar.
    3. Utilizando o Derived Column para realizamos um Split na coluna Especies, gerando um array de especies na coluna.
    4. Utilizamos o Flatten novamente, agora para normalizar o array de especies armazenando na coluna espécies, assim, gerando um registro para cada espécie listada.
    5. Salvamos os dados no container TRUSTED em formato Parquet.
  4. Carregar os dados do container TRUSTED para uma tabela no Azure SQL Database utilizando uma activity de copy data.
  5. Executar outra activity do Data Flow que realizará os seguintes passos:
    1. Ler os dados do container TRUSTED.
    2. Realizar duas agregações sendo elas QtdEspeciesPorTipoLocal e QtdEspeciesPorPraca.
    3. Salvamos os dados agregados em dois arquivos no container REFINED em formato Parquet.
  6. Realizamos a leitura dos arquivos do container REFINED utilizando a activity de Get Metadata.
  7. Colocamos os itens listados no ForEach.
  8. Para cada arquivo lido na iteração do foreach, criamos uma tabela no Azure SQL Database com os dados que foram refinados utilizando uma activity de copy data.
  9. Após execução do Pipeline do ADF, consultamos os dados nas tabelas do Azure SQL Database.

É isso galera, espero que tenham gostado do resumo da palestra, fiquem atentos nos eventos e lives da comunidade técnica. Abaixo, segue o vídeo da palestra que aconteceu no YouTube, super recomendo assistir, até porque a palestra ficou bem legal, deixem seu like no vídeo e se inscrevam no canal da Carol.

Desejo a todos uma boa leitura, bom vídeo, boa prática e bons estudos.

Para quem quer estudar:

  • Curso preparatório para Certificação Microsoft MTA Database Fundamentals | BD Relacional e Linguagem T-SQL.
    • Segue o link do curso na Udemy. >> LINK <<
  • Curso Azure Databases para Iniciantes
    • Segue o link do curso na Udemy. >> LINK <<
  • Curso Azure Data Factory para Iniciantes
    • Segue o link do curso na Udemy. >> LINK <<

Não se esqueçam de avaliar esta postagem através da ESTRELAS abaixo das redes sociais, isso vai me ajudar muito a melhorar as postagens.

Quem quiser mandar comentários, sugestões, criticas e complementos, fiquem a vontade, pois feedbacks positivos ou negativos engradecem meu conhecimento para que possa melhorar as postagem para vocês.

Até a próxima o/

Acessem nossas Redes Sociais: