Olá galera o/

No post de hoje, vamos explorar os conceitos dos “V’s” do Big Data, compreendendo o que cada um deles representa e como podem aprimorar a precisão em nossos projetos utilizando os mesmos.

Este o último post de 2023 do Consulta BD, então aproveitem e boas festas! Aguardo vocês em 2024 com mais conteúdos tops no blog.

O que são V’s do Big Data?

“Vs” do Big Data são uma forma de descrever as características que descrevem os dados. Através destas características é possível compreender e lidar com os desafios que grandes volumetrias de dados apresentam, possibilitando obtermos informações valiosas e insights relevantes para nossos projetos.

Uma observação importante é sobre a quantidade de V’s que existem, em algumas literaturas vocês irão encontrar sobre 3 V’s, 4 V’s, 5 V’s, já li artigos que continham 12 V’s. Neste artigo vamos abordar apenas 5 V’s.

5 V’s do Big Data

Abaixo iremos listar os 5 V’s do big data e como cada “V” é descrito:

  • Volume: Refere-se ao volume de dados gerados, ou seja, com novas tecnologias a capacidade de armazenamento dos dados aumentou bastante.

  • Variedade: Refere-se a variedade de fontes que o negócio possui, como bancos de dados, sensores, aplicativos móveis, mídias sociais, imagens, vídeos, etc.

  • Velocidade: Refere-se a velocidade que os dados são gerados, processados e analisados. Em outras palavras, em que velocidades meus dados estarão disponíveis para eu poder tirar insights relevantes do meu negócio.

  • Veracidade: Refere-se sobre os quão confiáveis são os dados para que possam ser usados para tomada de decisões.

  • Valor: Refere-se sobre como os dados podem ser usados para gerar valor para a companhia, como melhorar a eficiência, aumentar a lucratividade, criar produtos e serviços.

Como os 5Vs do Big Data podem influenciar nos projetos de Big Data de várias maneiras.

  • O volume de dados pode determinar a quantidade de recursos de computação e armazenamento necessários para o projeto.
  • A variedade de dados pode determinar o tipo de ferramentas e técnicas de análise necessárias para o projeto.
  • A velocidade dos dados pode determinar o tempo necessário para coletar, processar e analisar os dados.
  • A veracidade dos dados pode determinar a qualidade dos resultados do projeto.
  • O valor dos dados pode determinar a importância dos resultados do projeto para o negócio.

Simulando um projeto usando os 5 V’s a nosso favor!

Vamos simular que estamos realizando um projeto para a empresa Consulta BD, iremos necessitar de algumas informações para realizarmos orçamentos, indicarmos as melhores soluções, entendermos sobre as origens dos dados, etc.

Vamos realizar 5 perguntas utilizando os conceitos aprendidos anteriormente e iremos analisar como essas 5 perguntas simples podem ajudar no desenvolvimento do nosso projeto.

  1. Volumetria
    • Qual a volumetria de dados que a empresa gera?
      • Resposta do cliente: O Consulta BD gera cerca de 5 GB de dados por semana, provenientes de um SQL Server de 50 GB que é o banco do ERP Totvs RM, arquivos CSV e Excel gerados por sistemas terceiros que possuem um tamanho de cerca de 20 MB.
  2. Velocidade
    • Com que frequência os dados são gerados e qual seria o tempo aceitável para análise destes dados?
      • Resposta do cliente para a pergunta 01: Os dados do ERP são gerados diariamente e os dados dos arquivos CSV’s e Excel são gerados 1 vez por semana.
      • Resposta do cliente para a pergunta 02: Inicialmente, gostaríamos de analisar os dados do dia anterior (D-1), porém, após estabilização dos dados, necessitamos analisar os dados a cada 5 horas.
  3. Variedade
    • Qual a variedade de fontes de dados que geram informações para a empresa?
      • Resposta do cliente: Atualmente utilizamos as seguintes fontes de dados.
        • ERP Totvs RM utilizando o SQL Server 2022 (Versão Standard) como banco de dados da aplicação.
        • Arquivos CSV e Excel gerados por sistemas terceiros.
        • Futuramente teremos informações sendo geradas através de consumo de API disponibilizadas por órgãos municipais, estaduais e federais.
  4. Veracidade
    • Como a empresa garante a veracidade e qualidade dos dados?
      • Resposta do cliente: A empresa realiza regularmente verificações agendadas para garantir a precisão dos dados. Além disso, são implementados controles de integridade nos sistemas de origem (travas e validações de regra de negócio), e a equipe de sistema da empresa realizam verificações de consistência dos dados através de stored procedures que capturam inconsistências. Esses dados são exibidos em um dashboard para análise e correção da informação o mais rápido possível.
  5. Valor
    • Como a empresa extrai valor comercial ou insights significativos de seus dados?
      • Resposta do cliente: A empresa utiliza uma abordagem de dados orientada a resultados para extrair valor comercial de seus dados. A empresa esta montando uma equipe de cientistas de dados e analistas de negócios que em conjunto irão identificar oportunidades de melhoria e inovação.
        • Seguem alguns exemplos de como a empresa está usando os dados para gerar valor:
          • Marketing: Estamos usando dados para segmentar seus clientes de forma mais eficaz e direcionar suas campanhas de marketing para os públicos mais relevantes. Isso resulta em um aumento de 15% nas taxas de conversão.
          • Vendas: Estamos usando dados para identificar leads mais qualificados e priorizar suas oportunidades de vendas. Isso resuta em um aumento de 20% nas vendas.
          • Atendimento ao cliente: Estamos usando dados para melhorar a experiência do cliente. Por exemplo, a empresa está usando dados para identificar problemas recorrentes e implementar soluções para resolvê-los.
          • Operações: Estamos usando dados para otimizar seus processos operacionais. Por exemplo, a empresa está usando dados para identificar gargalos na produção e implementar melhorias para aumentar a eficiência.

Após analisar as respostas do cliente podemos sugerir o seguinte:

  • Implementação de um ambiente cloud (Azure, AWS ou GCP) visando aumento de volumetria de dados e evolução tecnológica. Eu Luiz, iria sugerir Azure por ser minha especialidade.
  • Para a carga de dados: Inicialmente cargas de dados em batch (futuramente podendo ser streamimg) visando consumo, tratamento e disponibilização a cada 5 horas.
  • Escolher um serviço que contenha features de catalogação de dados, segmentação de segurança (por grupo ou área), Machine Learning e que dê possibilidade dos analistas de negócio acessar os dados. Eu escolheria o Azure Databricks por conter todas as features citadas acima.
  • Para visualização dos dados poderíamos sugerir a aquisição do Power BI versão Pro ou Premium, dependendo da necessidade do cliente.
  • Também sugeriria um treinamento in-company para a equipe após a implementação do projeto, para que todos, possam manter o ambiente da melhor maneira e utilizando as melhores práticas.

Lembrem-se da seguinte frase: O BÁSICO BEM FEITO RESOLVE BOA PARTE DOS PROBLEMAS.

Considerações Finais!

Neste post, exploramos os conceitos dos ‘Vs’ do Big Data e seu impacto no entendimento de projetos. Eles não apenas nos ajudam a orientar sobre quais tecnologias iremos utilizar, mas também influenciam na criação de fluxos de dados e na formulação de propostas comerciais mais alinhadas com a realidade de nossos clientes. É um fato que quando aprendemos conceitos simples, aliada à nossa experiência seja ela acadêmica ou empresarial, obtemos uma ferramenta poderosa para impulsionar nossos projetos de Big Data.

Espero que tenham gostado, boa leitura e bons estudos.

Quem quiser mandar comentários, sugestões, críticas ou dicas complementares, fiquem a vontade, pois feedbacks positivos ou negativos engradecem meu conhecimento para poder melhorar as postagens para vocês.

Até a próxima o/

Acessem nossas Redes Sociais: