Olá galera o/
Neste post vou fazer um resumo sobre a Palestra que fiz na 3ª edição do evento Data Engineer’s Conference. Agradecimento a Carol Lavecchia pela oportunidade de participar deste evento.
O que é o Data Engineer’s Conference?
Evento idealizado e organizado pela Caroline Lavecchia afim de levar conhecimento, novas tecnologias, utilização de Engenharia de Dados, Business Inteligente e solução de Big Data em ambientes em Cloud Microsoft.
Utilizando recursos do Azure para soluções de Datawarehouse moderno afim de levar a transformaçao digital para as empresas atendendo à tomadas de decisão em tempo real trazendo benefícios à seus negócios.
Evento gratuito e online com palestrantes do mundo todo para que todos fiquem conectados com as tecnologias utilizadas em grandes corporações.
Como foi a palestra?
A palestra aconteceu no dia 02/12/2021 (quinta-feira) com inicio as 19h. O tema da minha palestra foi Conhecendo o poder do Data Flow do ADF e teve como objetivo mostrar como realizar transformações de dados utilizando o módulo do Data Flow contido dentro do Azure Data Factory. O data flow utiliza o poder do Spark para processar grandes volumetrias de dados no Azure Data Factory. Os tópicos da palestra foram:
1 – Quem sou eu
2 – O que é o Azure Data Factory (ADF)
3 – Componentes do ADF
4 – ETL x ELT
5 – Spark
6 – Fluxo do Hands-On
7 – Arquitetura do Hands-on
8 – Demonstração
9 – Perguntas
O slide utilizado na apresentação está abaixo e disponível para download.
Segue as imagens de divulgação criadas pelo organizador do evento.
Para o Hands-on (demonstração) utilizei a API das Espécies de Aves presente nas Praças do Recife, que estão contidas no portal de dados do Recife. O Link está a seguir.
Qual foi o processo realizado no hands-on:
- Consumir dados de uma API do portal Dados do Recife. Os dados são sobre Espécies de Aves presente nas Praças do Recife.
- Copiar os dados da API para o Container RAW no data lake em formato JSON.
- Executar a activity do Data Flow que realizará os seguintes passos:
- Ler os dados do container RAW.
- Utilizando o Flatten para normalizar o array do atributo properties do JSON, ou seja, transformar o JSON em formato Colunar.
- Utilizando o Derived Column para realizamos um Split na coluna Especies, gerando um array de especies na coluna.
- Utilizamos o Flatten novamente, agora para normalizar o array de especies armazenando na coluna espécies, assim, gerando um registro para cada espécie listada.
- Salvamos os dados no container TRUSTED em formato Parquet.
- Carregar os dados do container TRUSTED para uma tabela no Azure SQL Database utilizando uma activity de copy data.
- Executar outra activity do Data Flow que realizará os seguintes passos:
- Ler os dados do container TRUSTED.
- Realizar duas agregações sendo elas QtdEspeciesPorTipoLocal e QtdEspeciesPorPraca.
- Salvamos os dados agregados em dois arquivos no container REFINED em formato Parquet.
- Realizamos a leitura dos arquivos do container REFINED utilizando a activity de Get Metadata.
- Colocamos os itens listados no ForEach.
- Para cada arquivo lido na iteração do foreach, criamos uma tabela no Azure SQL Database com os dados que foram refinados utilizando uma activity de copy data.
- Após execução do Pipeline do ADF, consultamos os dados nas tabelas do Azure SQL Database.
É isso galera, espero que tenham gostado do resumo da palestra, fiquem atentos nos eventos e lives da comunidade técnica. Abaixo, segue o vídeo da palestra que aconteceu no YouTube, super recomendo assistir, até porque a palestra ficou bem legal, deixem seu like no vídeo e se inscrevam no canal da Carol.
Desejo a todos uma boa leitura, bom vídeo, boa prática e bons estudos.
Para quem quer estudar:
- Curso preparatório para Certificação Microsoft MTA Database Fundamentals | BD Relacional e Linguagem T-SQL.
- Segue o link do curso na Udemy. >> LINK <<
- Curso Azure Databases para Iniciantes
- Segue o link do curso na Udemy. >> LINK <<
- Curso Azure Data Factory para Iniciantes
- Segue o link do curso na Udemy. >> LINK <<
Não se esqueçam de avaliar esta postagem através da ESTRELAS abaixo das redes sociais, isso vai me ajudar muito a melhorar as postagens.
Quem quiser mandar comentários, sugestões, criticas e complementos, fiquem a vontade, pois feedbacks positivos ou negativos engradecem meu conhecimento para que possa melhorar as postagem para vocês.
Até a próxima o/
Acessem nossas Redes Sociais: