Olá Galera!!!

Venho compartilhar com vocês como fiz para ser aprovado na certificação DP-203 Data Engineering on Microsoft Azure. Aeehhh mais uma pra conta o/.

Esta foi a minha quarta certificação de 2021 e a 18ª da carreira. Fiz esta prova da primeira vez em 21/03/2021 na versão beta e reprovei, vinha estudando bastante, mas havia muito conteúdo novo que eu nunca tinha visto, serviços que eu nunca tinha utilizado e etc, tirei 637. Decidi fazer a prova quando tivesse realmente preparado, então comecei a estudar com mais ênfase, fiz treinamentos on-lines com profissionais referências na comunidade técnica, cursos da udemy, li bastante o Microsoft Learn, além de tentar aplicar os conhecimentos estudados no trabalho. No dia 15/10/2021 refiz a prova e passei. É tudo uma questão de muito foco, preparação e estudo.

Meu perfil no Credly: LINK
Link de verificação da badge: LINK

Este exame é do nível associate, são exames que contém um conteúdo com nível de intermediário para avançado sobre os serviços específicos do Azure voltados para engenharia de dados.

  • Microsoft Certified: Azure Data Engineer Associate: DP-203

Mas o que a DP-203 avalia?

Este exame avalia sua capacidade em realizar as seguintes tarefas técnicas: projetar e implementar o armazenamento de dados; projetar e desenvolver processamento de dados; projetar e implementar a segurança de dados; e monitorar e otimizar o armazenamento de dados e o processamento de dados.

Se quiser saber mais sobre as certificações Microsoft, dicas, feedback de provas e como montar a trilha correta, seguem alguns links de postagens que fiz e estão bem legais.

  • Montando Trilha de certificações Microsoft: >> LINK <<
  • Conhecendo sobre a nova prova para engenharia de dados do Azure: DP-203 (Data Engineering on Microsoft Azure): >> LINK <<
  • Marcando um exame de Certificação Microsoft!: >> LINK <<
  • Tópicos Genéricos da certificação DP-203
    • Projetar e implementar o armazenamento de dados (40-45%)
    • Projetar e desenvolver o processamento de dados (25-30%)
    • Projetar e implementar a segurança de dados (10-15%)
    • Monitorar e otimizar o armazenamento de dados e o processamento de dados (10-15%)
  • ATENÇÃO.:
    • O link abaixo contém os assuntos detalhados contidos dentro de cada tópicos mostrado acima, podendo ser baixado em formato PDF.
    • Este arquivo deve ser seu guia sobre quais assuntos estudar para a prova.
    • Sempre que um assunto é adicionado ou removido da prova, este arquivo é atualizado contendo todas as informações sobre a atualização do conteúdo do exame.
    • https://query.prod.cms.rt.microsoft.com/cms/api/am/binary/RE4MbYT

Agora vamos para a parte que interessa, como eu fiz para me preparar para esta prova. Abaixo segue meu cronograma de estudo.

Cronograma de estudo utilizado:

  • Destrinchar todos os tópicos da prova no site da Microsoft, ou seja, estudar cada assunto ao mínimo detalhe.
  • Estudar o conteúdo oficial da Microsoft Learn voltado especialmente para a prova. Tentem estudar o conteúdo em inglês para forçar a leitura.
    • Leiam e façam os sandboxs do treinamento. É muito importante!!!
    • Fiz o treinamento todo 2 vezes para fixar o conteúdo.
  • A prova pode ser feita em Inglês, Espanhol, Alemão, Chinês (Simplificado), Francês, Coreano e Japonês !!!
  • Atenção: A prova pode ser feita no idioma Português também!!!
    • Pratiquem a leitura do inglês com duolingo ou outras plataformas de idiomas.
  • Estudei por Curso da Udemy (INGLÊS) voltado para a prova.

Materiais de estudo utilizados para a DP-203

Minha visão sobre a prova

Fiz a prova de madrugada (3h da manhã no Brasil) e na modalidade on-line. A comodidade de fazer a prova em casa é muito boa. A questão é prepara o ambiente e fazer os testes com antecedência. Fiz a prova em português, mas recomendo ficar atento a tradução dos termos técnicos. Durante o exame, você possui um botão que traduz o texto para o idioma original que é o inglês, assim você consegue verificar o nome da alternativa em inglês. Mas recomendo fazer em inglês hein.

Esta prova tem duração de 2h e contém 65 questões, sendo 4 estudos de caso e 61 se lecionar opções.

As questões estavam todas de acordo com os tópicos da prova e com os assuntos do Microsoft Learn. Parabéns novamente para a Microsoft, os treinamentos e documentações estão Tops.

Lembrando que, essa prova pode passar por atualização, se você vai fazer a prova, recomendo abrir o PDF que contém os assuntos da prova e verificar se os assuntos estão atualizados, ou seja, se algum assunto foi removido ou adicionado.

Mas vamos ao que caiu na minha prova neh!

Maioria das questões aborda sobre sobre Azure Synapse Analytics, principalmente sobra SQL Dedicated Pool, Modelos de distribuição das tabelas (hash, round robin, replicated), particionamento de dados (ficar atento a este item), leitura de arquivos do data lake utilizando o SQL Serveless. Além disso, algumas questões abordaram bastante sobre Polybase e External table, como configurar uma external table, como realizar a leitura dos dados a partir da external table e etc. Conhecer T-SQL é um diferencial grande para esta prova, caiu comando básicos, como montar uma tabela fato ou dimensão, DDM(dynamic data masking), além de como fazer uma query performatica ao ler dados de uma tabela muito populosa. Por baixo, umas 20 questões eram sobre estes tópicos abordados acima.

Outro ponto bastante interessante que achei nessa prova, vou as perguntas sobre o Azure Data Factory. Perguntas sobre o integration runtime, integration runtime self-hosted, uma questão sobre integração com Devops, triggers, data flow, fluxo de execução dos pipelines, configuração do Copy Data, saber as estruturas dos tipos AVRO e PARQUET, além disso, integração com outros serviços como Azure databricks, Synapse Analytics, Data Lake. Pelo menos umas 10 questões sobre este serviço.

Para o Databricks, houveram questões de transformação de dados utilizando PySpark (data frame), sobre como é a sequencia de leitura de dados de um data lake até escrita no synapse analytics, conceitos sobre o serviço e como configuração de cluster para obter a melhor performance de acordo com o cenário. Foram em torno 7 a 10 questões sobre o mesmo.

Para o Azure Data lake, muitas questões sobre leitura de dados do lake, tipos de redundância )LRS, ZRS e etc), segurança do data lake (chaves de acesso), criação de estrutura de pastas dentro de um data lake, quais tipos de arquivos performam melhor data lake. Além disso, entender como os dados trafegam entre os demais serviços até chegar no data lake é muito importante, por exemplo, entender que uma informação vai ser carregado via ADF ou Stream Analytics em um formato X e ele deve ser armazenado em um formato Y no data lake, seguindo uma estrutura Z de pastas. Em torno de 10 questões.

As demais questões foram sobre o Stream Analytics, que na minha humilde opinião, foram as mais difíceis, por que é algo que eu não trabalho no meu dia a dia. Questões sobre como funcionam as funções janela de tempo, como o Stream analytics realiza a leitura e processamento dos dados, como ele se conecta com o data lake, como carregar as informações sem onerar o serviço e etc, como funciona o Event Hub. Foram em torno de 10 questões.

Se eu fosse dar um conselho para esta prova, seria o seguinte: tente estudar integrando todos os serviços, ou seja, ADF + Lake + Bricks + Synapse + Stream Analytics.
Dar um foco grande em entender bem o Synapse Analytics, pois boa parte da prova é com foco neste serviço.
– Para o Azure data lake uma ênfase em estrutura de pastas e que tipo performa melhor no lake.
– Para o Azure databricks, entender bem sobre como configurar um cluster e ficar atento aos códigos com PySpark, saber bem data frame e como montar um notebook para leitura de dados de um lake e escrita em um banco de dados é uma boa.
Para o ADF conhecer bem o componente copy data e como ele realiza a leitura/escrita de arquivos do tipo Parquet e Avro, tipo de triggers, e como ele carrega os dados para o lake ou para o synapse.
Para o stream analytics, ficar atento aos tipos de janelas de tempo, como funciona o processamento de dados via streaming e funcionamento do event hub.

Essa prova da Microsoft foi a mais difícil que fiz até hoje. Bem elaborada e vai exigir que o candidato tenha tanto o conhecimento dos conceitos de cada serviço quanto experiência e pratica nos mesmos. Estudem que essa prova é PUNK.

Um conselho que sempre dou a meus alunos e profissionais que me pedem ajuda sobre certificações é: “façam prova de certificação para aprender e não para apenas ter um título“, uma hora o mercado de trabalho vai cobrar o conhecimento que seu título possui, ou seja, um título sem conhecimento não vale de nada.

Microsoft Certified: Azure Data Engineer Associate

É isso galera, um post bem simples sobre como estudei para passar na prova DP-203, espero que essas dicas ajudem nos seus estudos e aprovação. Desejo a todos bons estudos e para quem for fazer a prova boa sorte.

Desejo a todos uma boa leitura, boa prática e bons estudos.

Para quem quer estudar:

  • Curso preparatório para Certificação Microsoft MTA Database Fundamentals | BD Relacional e Linguagem T-SQL.
    • Segue o link do curso na Udemy. >> LINK <<
  • Curso Azure Databases para Iniciantes
    • Segue o link do curso na Udemy. >> LINK <<
  • Curso Azure Data Factory para Iniciantes
    • Segue o link do curso na Udemy. >> LINK <<

Não se esqueçam de avaliar esta postagem através da ESTRELAS abaixo das redes sociais, isso vai me ajudar muito a melhorar as postagens.

Quem quiser mandar comentários, sugestões, criticas e complementos, fiquem a vontade, pois feedbacks positivos ou negativos engradecem meu conhecimento para que possa melhorar as postagem para vocês.

Até a próxima o/

Acessem nossas Redes Sociais:

Publicidade