Olá galera o/
Neste post vou fazer um resumo sobre a Palestra que fiz na edição de 2021 do evento MVPConf Latam. Agradecimento aos coordenadores que aprovaram a minha palestra.
O que é o MVPConf Latam?
O MAIOR EVENTO DE TECNOLOGIA QUE DOA 100% DO VALOR DOS INGRESSOS PARA QUEM MAIS PRECISA!
MVPConf LATAM é mantido pelos maiores influenciadores técnicos do Brasil, com foco na construção de comunidades, compartilhamento de conhecimento e expansão de redes. MVPConf LATAM envolve mais de 100 especialistas. [Site do MVPConf]
- Objetivos do Evento:
- Alavancar a comunidade
- MVPs são sobre comunidade. Um dos objetivos deste evento é alavancar esse espírito de equipe e networking. Você será capaz de interagir e aprender com colegas e especialistas.
- Avance na sua carreira
- Outra meta importante está relacionada ao desenvolvimento profissional. Você aprenderá novas tecnologias por meio de experiências práticas e palestras com especialistas reconhecidos.
- Bem Social
- Finalmente, o terceiro objetivo é ajudar as organizações sem fins lucrativos e tornar o bem social.
- Alavancar a comunidade
Todo valor arrecadado no evento foi doado para instituições de caridade e para cada ingresso adquirido uma árvore foi plantada na Amazônia.
Como foi a palestra?
A palestra aconteceu no dia 09/12/2021 (quinta-feira) com inicio as 20h, inclusive foi a última palestra da trilha de Data and Analytics do dia. O tema da minha palestra foi Tratando dados com o Data Flow do Azure Data Factory e teve como objetivo mostrar como realizar transformações de dados utilizando o módulo do Data Flow contido dentro do Azure Data Factory. O data flow utiliza o poder do Spark para processar grandes volumetrias de dados no Azure Data Factory. Os tópicos da palestra foram:
1 – Quem sou eu
2 – O que é o Azure Data Factory (ADF)
3 – Componentes do ADF
4 – ETL x ELT
5 – Spark
6 – Fluxo do Hands-On
7 – Arquitetura do Hands-on
8 – Demonstração
9 – Perguntas
Segue as imagens dos conteúdos abordados na palestra do MVPConf 2021 Latam:
Segue as imagens de divulgação criadas pelo organizador do evento.
Para o Hands-on (demonstração) utilizei a API das Espécies de Aves presente nas Praças do Recife, que estão contidas no portal de dados do Recife. O Link está a seguir.
Qual foi o processo realizado no hands-on:
- Consumir dados de uma API do portal Dados do Recife. Os dados são sobre Espécies de Aves presente nas Praças do Recife.
- Copiar os dados da API para o Container RAW no data lake em formato JSON.
- Executar a activity do Data Flow que realizará os seguintes passos:
- Ler os dados do container RAW.
- Utilizando o Flatten para normalizar o array do atributo properties do JSON, ou seja, transformar o JSON em formato Colunar.
- Utilizando o Derived Column para realizamos um Split na coluna Especies, gerando um array de especies na coluna.
- Utilizamos o Flatten novamente, agora para normalizar o array de especies armazenando na coluna espécies, assim, gerando um registro para cada espécie listada.
- Salvamos os dados no container TRUSTED em formato Parquet.
- Carregar os dados do container TRUSTED para uma tabela no Azure SQL Database utilizando uma activity de copy data.
- Executar outra activity do Data Flow que realizará os seguintes passos:
- Ler os dados do container TRUSTED.
- Realizar duas agregações sendo elas QtdEspeciesPorTipoLocal e QtdEspeciesPorPraca.
- Salvamos os dados agregados em dois arquivos no container REFINED em formato Parquet.
- Realizamos a leitura dos arquivos do container REFINED utilizando a activity de Get Metadata.
- Colocamos os itens listados no ForEach.
- Para cada arquivo lido na iteração do foreach, criamos uma tabela no Azure SQL Database com os dados que foram refinados utilizando uma activity de copy data.
- Após execução do Pipeline do ADF, consultamos os dados nas tabelas do Azure SQL Database.
É isso galera, espero que tenham gostado do resumo da palestra, fiquem atentos nos eventos e lives da comunidade técnica.
Desejo a todos uma boa leitura, bom vídeo, boa prática e bons estudos.
Para quem quer estudar:
- Curso preparatório para Certificação Microsoft MTA Database Fundamentals | BD Relacional e Linguagem T-SQL.
- Segue o link do curso na Udemy. >> LINK <<
- Curso Azure Databases para Iniciantes
- Segue o link do curso na Udemy. >> LINK <<
- Curso Azure Data Factory para Iniciantes
- Segue o link do curso na Udemy. >> LINK <<
Não se esqueçam de avaliar esta postagem através da ESTRELAS abaixo das redes sociais, isso vai me ajudar muito a melhorar as postagens.
Quem quiser mandar comentários, sugestões, criticas e complementos, fiquem a vontade, pois feedbacks positivos ou negativos engradecem meu conhecimento para que possa melhorar as postagem para vocês.
Até a próxima o/
Acessem nossas Redes Sociais: