Atualmente, as grandes corporações dependem significativamente da análise de dados para estruturar e executar suas atividades diárias. Esses conjuntos de informações têm uma ampla gama de usos, desde embasar decisões operacionais até moldar estratégias de marketing.

De fato, a dinâmica do mercado que presenciamos hoje está diretamente ligada à análise e interpretação de dados. O crescimento constante no volume de informações armazenadas é uma tendência que se apresenta de forma clara e inequívoca para os próximos anos.

Nesse contexto, empresas de destaque no setor de monitoramento consideram esse fenômeno como um fator decisivo. Um exemplo disso é a pesquisa realizada pela BCG (Boston Consulting Group), em colaboração com a Red Hat. Segundo o estudo, em 2021, a quantidade de dados totalizava 84 ZB, e a projeção é que esse valor alcance 149 ZB até 2024, um incremento de 77,38%.

Além disso, a gestão dessa enorme quantidade de dados tem se mostrado um desafio considerável para as empresas, visto que equilibrar os custos com fatores como armazenamento, redes, processamento e segurança tem se revelado uma tarefa árdua e altamente onerosa.

Quando abordamos a plataforma Lakehouse da Databricks, os principais componentes de despesa consistem nas Máquinas Virtuais e nas Unidades do Databricks (DBUs).

Máquinas Virtuais para processamento massivo

As Máquinas Virtuais são usadas para provisionar clusters no Databricks e processar dados. Quanto maior a configuração da Máquina Virtual, mais poder de processamento ela oferece e, consequentemente, maiores são os custos associados à infraestrutura.

Unidades do Databricks (DBUs) para precificação

A Unidade Databricks (DBU) é a métrica empregada no Lakehouse da Databricks para avaliar a capacidade de processamento e calcular os custos associados à plataforma. A quantidade de DBUs requerida para uma carga de trabalho é determinada levando em consideração tanto a capacidade de processamento quanto o volume de dados processados. Em termos simples, um cluster de maior porte (com mais Máquinas Virtuais e de tamanho superior) implica no uso de mais DBUs, resultando em um maior poder de processamento de dados.

O custo real das DBUs varia conforme o tipo de carga de trabalho, conforme ilustrado na tabela abaixo:

Reprodução: https://www.databricks.com/product/pricing – Obs: Os preços podem variar de acordo com a região.

Todas as principais provedoras de nuvem, como Azure, AWS e GCP, oferecem ferramentas para monitoramento, auxiliando no gerenciamento dos custos. No entanto, elas não são flexíveis o suficiente ou demandam muito esforço para obtenção das informações conforme a necessidade do negócio.

Aprimorando o monitoramento de custos com o Unity Catalog

O Unity Catalog é uma solução de governança de dados centralizada que permite o controle completo do seu Lakehouse Databricks. Sua adoção eleva o monitoramento dos pipelines de dados a outro patamar, agregando observabilidade sobre os dados armazenados no Lakehouse, e também, inteligência operacional relacionadas ao acesso, custos, auditoria, linhagem e muito mais,  através das tabelas de sistema.

Por padrão, as tabelas de sistema não são disponibilizadas para consulta no Unity Catalog, como mostra a imagem abaixo:

Habilitando a visualização das Tabelas de Sistema

Apesar das tabelas estarem inacessíveis, é possível habilitá-las através das APIs Rest do Unity Catalog.

Para permitir o acesso às tabelas de sistema, siga as instruções fornecidas no link: https://docs.databricks.com/en/administration-guide/system-tables/index.html#enable-system-tables

Voilà!

Para o nosso cenário específico, destaca-se a tabela de sistema “system.billing.usage”. Essa tabela abrange os dados de consumo em DBUs de todos os workspaces da conta Databricks, independente da região em que o workspace foi criado.

Alcançando Observabilidade e Previsibilidade de Custos

Em conjunto com o uso adequado das Tags nos recursos do Databricks, é possível obter insights detalhados sobre o consumo em DBUs, como:

  • Pipelines de Dados
  • Áreas de Negócio
  • Cargas de Trabalho
  • Faixas Horárias de Maior Utilização
  • Workspaces

Essas informações de consumo são vitais para melhorar a governança do ambiente analítico, tanto em termos de custos quanto de dados (Detecção de desvios/anomalias).

Aproveitando a Plataforma Lakehouse da Databricks

A plataforma Lakehouse da Databricks oferece uma solução abrangente que simplifica o processo de inteligência operacional. Combinando Dashboards, Saved Queries e Databricks SQL Serverless, é possível criar visualizações e gráficos de maneira intuitiva. A atualização dos Dashboards pode ser agendada de acordo com as necessidades do seu negócio.

Além disso, a plataforma permite configurar alertas que notificam os responsáveis sobre cenários ou desvios que requerem ação imediata.

Exemplo de dashboard de previsibilidade de custos em reais e DBUs

Exemplo de gráfico de histórico de consumo mensal de Jobs

Exemplo de consulta de custos por pipeline de dados

Exemplo de gráfico de histórico de consumos mensal por tipo de carga

Exemplo de gráfico de histórico de consumo diário de Jobs com detecção de anomalia

Conclusão

Esses são alguns dos inúmeros insights que podem ser gerados para monitorar os custos do seu ambiente Databricks utilizando os recursos de Dashboards, Saved Queries, Databricks Sql Serverless em conjunto com os metadados gerenciados pelo Unity Catalog.

As tabelas de sistema do Unity Catalog estão em fase “Public Preview”, mas já fornecem métricas importantes para a melhoria operacional do Lakehouse Databricks. O Unity Catalog está em constante evolução e, com o tempo, esperamos que novas métricas estejam disponíveis para aprimorar ainda mais a governança do ambiente analítico. 

Limitações

As tabelas de “sistema” estão em public preview e não são atualizadas em tempo real.

Parceria entre a Digiage e a Databricks:

A Digiage é parceira oficial da Databricks e tem se destacado na modernização das estruturas de Data Lakes em uma variedade de setores empresariais, incluindo varejo, automotivo, utilities, telecomunicações e serviços financeiros. Além disso, a Digiage também tem promovido melhorias operacionais em seus clientes por meio da implementação de IAs generativas.

Quer saber mais? Entre em contato com a Digiage …

Autores

Daniel Antonelli – Arquiteto de Soluções Data & Analytics

Gregory Miguel – Head de Data & Analytics