Olá galera o/

Neste post vou fazer um resumo sobre a Palestra que fiz na edição de 2021 do evento MVPConf Latam. Agradecimento aos coordenadores que aprovaram a minha palestra.

O que é o MVPConf Latam?

O MAIOR EVENTO DE TECNOLOGIA QUE DOA 100% DO VALOR DOS INGRESSOS PARA QUEM MAIS PRECISA!

MVPConf LATAM é mantido pelos maiores influenciadores técnicos do Brasil, com foco na construção de comunidades, compartilhamento de conhecimento e expansão de redes. MVPConf LATAM envolve mais de 100 especialistas. [Site do MVPConf]

  • Objetivos do Evento:
    • Alavancar a comunidade
      • MVPs são sobre comunidade. Um dos objetivos deste evento é alavancar esse espírito de equipe e networking. Você será capaz de interagir e aprender com colegas e especialistas.
    • Avance na sua carreira
      • Outra meta importante está relacionada ao desenvolvimento profissional. Você aprenderá novas tecnologias por meio de experiências práticas e palestras com especialistas reconhecidos.
    • Bem Social
      • Finalmente, o terceiro objetivo é ajudar as organizações sem fins lucrativos e tornar o bem social.

Todo valor arrecadado no evento foi doado para instituições de caridade e para cada ingresso adquirido uma árvore foi plantada na Amazônia.

Como foi a palestra?

A palestra aconteceu no dia 09/12/2021 (quinta-feira) com inicio as 20h, inclusive foi a última palestra da trilha de Data and Analytics do dia. O tema da minha palestra foi Tratando dados com o Data Flow do Azure Data Factory e teve como objetivo mostrar como realizar transformações de dados utilizando o módulo do Data Flow contido dentro do Azure Data Factory. O data flow utiliza o poder do Spark para processar grandes volumetrias de dados no Azure Data Factory. Os tópicos da palestra foram:

1 – Quem sou eu
2 – O que é o Azure Data Factory (ADF)
3 – Componentes do ADF
4 – ETL x ELT
5 – Spark
6 – Fluxo do Hands-On
7 – Arquitetura do Hands-on
8 – Demonstração
9 – Perguntas

Segue as imagens dos conteúdos abordados na palestra do MVPConf 2021 Latam:

Segue as imagens de divulgação criadas pelo organizador do evento.

Para o Hands-on (demonstração) utilizei a API das Espécies de Aves presente nas Praças do Recife, que estão contidas no portal de dados do Recife. O Link está a seguir.

http://dados.recife.pe.gov.br/dataset/1ddcc3d1-a596-4416-bee8-7d38d45c12fa/resource/536a9a9f-7860-40db-9931-0b9374d174bf

Qual foi o processo realizado no hands-on:

  1. Consumir dados de uma API do portal Dados do Recife. Os dados são sobre Espécies de Aves presente nas Praças do Recife.
  2. Copiar os dados da API para o Container RAW no data lake em formato JSON.
  3. Executar a activity do Data Flow que realizará os seguintes passos:
    1. Ler os dados do container RAW.
    2. Utilizando o Flatten para normalizar o array do atributo properties do JSON, ou seja, transformar o JSON em formato Colunar.
    3. Utilizando o Derived Column para realizamos um Split na coluna Especies, gerando um array de especies na coluna.
    4. Utilizamos o Flatten novamente, agora para normalizar o array de especies armazenando na coluna espécies, assim, gerando um registro para cada espécie listada.
    5. Salvamos os dados no container TRUSTED em formato Parquet.
  4. Carregar os dados do container TRUSTED para uma tabela no Azure SQL Database utilizando uma activity de copy data.
  5. Executar outra activity do Data Flow que realizará os seguintes passos:
    1. Ler os dados do container TRUSTED.
    2. Realizar duas agregações sendo elas QtdEspeciesPorTipoLocal e QtdEspeciesPorPraca.
    3. Salvamos os dados agregados em dois arquivos no container REFINED em formato Parquet.
  6. Realizamos a leitura dos arquivos do container REFINED utilizando a activity de Get Metadata.
  7. Colocamos os itens listados no ForEach.
  8. Para cada arquivo lido na iteração do foreach, criamos uma tabela no Azure SQL Database com os dados que foram refinados utilizando uma activity de copy data.
  9. Após execução do Pipeline do ADF, consultamos os dados nas tabelas do Azure SQL Database.

É isso galera, espero que tenham gostado do resumo da palestra, fiquem atentos nos eventos e lives da comunidade técnica.

Desejo a todos uma boa leitura, bom vídeo, boa prática e bons estudos.

Para quem quer estudar:

  • Curso preparatório para Certificação Microsoft MTA Database Fundamentals | BD Relacional e Linguagem T-SQL.
    • Segue o link do curso na Udemy. >> LINK <<
  • Curso Azure Databases para Iniciantes
    • Segue o link do curso na Udemy. >> LINK <<
  • Curso Azure Data Factory para Iniciantes
    • Segue o link do curso na Udemy. >> LINK <<

Não se esqueçam de avaliar esta postagem através da ESTRELAS abaixo das redes sociais, isso vai me ajudar muito a melhorar as postagens.

Quem quiser mandar comentários, sugestões, criticas e complementos, fiquem a vontade, pois feedbacks positivos ou negativos engradecem meu conhecimento para que possa melhorar as postagem para vocês.

Até a próxima o/

Acessem nossas Redes Sociais: