Analisando diariamente 80 bilhões de registros
de negociações comerciais usando
AWS e Starburst Enterprise
A Financial Industry Regulatory Authority (FINRA) é uma organização sem fins lucrativos autorizada pelo Congresso dos EUA a regular uma parte crítica do setor de valores mobiliários, que fazem negócios com o público. Para a realização de sua missão, a FINRA analisa bilhões de eventos diários e de negociações das instituições financeiras para detectar a ocorrência de fraudes, utilização de informações privilegiadas e abuso.
Para enfrentar os desafios do crescimento maciço de dados e a crescente demanda por computação eficiente, a FINRA migrou seus sistemas legados de armazenamento de dados para um datalake da Amazon Web Services (AWS). Ao redesenhar sua plataforma de dados, a FINRA optou por separar computação e armazenamento , bem como consultar seu AWS mutiPB datalake usando o Starburst Enterprise, o mecanismo de consulta SQL distribuído mais rápido do mundo.
Histórico
Analytics, Governança e muito mais em meio a um rápido crescimento de volume de dados.
Todos os dias, a FINRA coleta dados de corretoras, bolsas de valores e provedores terceirizados, recebendo em média aproximadamente 80 bilhões de eventos diários (por exemplo, negociações de ações e opções, pedidos e cotações), sendo que nos dias de maior movimento, as cargas podem chegar a mais de 100 bilhões de eventos.
Como os dados coletados devem ser armazenados por anos, a adição de TBs de novos dados diariamente leva ao acúmulo de muitos PBs ao longo do tempo. Os analistas de dados utilizam programas especializados baseados em SQL para investigar possíveis casos de abuso e conduzir análises exploratórias ad hoc em busca de novos esquemas de fraude. Eles também usam SQL para criar padrões de detecção novos e aprimorados que podem ser automatizados no futuro.
Plataformas de armazenamento de dados isoladas e caras.
Até alguns anos atrás, a FINRA operava sua infraestrutura de armazenamento de dados localmente , porém as barreiras organizacionais e limitações de escalabilidade forçaram a FINRA a criar silos analíticos separados, cada um lidando com um subconjunto de todo o conjunto de dados, mas a fragmentação de dados dificultou a análise.
O crescente volume de dados e as necessidades analíticas também começaram a
exceder a capacidade de seus sistemas legados. Escalar era caro e difícil, uma vez que as soluções foram dimensionadas para lidar com a capacidade de pico, o que fez com que se tornassem muito caras. Expandí-las só foi possível por meio de longos processos de aquisição e movimentação constante de dados, o que retardou o tempo de insights e ocasionou demora nas análises.
Mudando para um datalake escalável da AWS
Para enfrentar seus crescentes desafios de armazenamento e processamento de dados, FINRA decidiu repensar completamente sua plataforma de dados e, por isso, em 2014, a organização tomou a decisão de migrar do modelo local para um modelo de datalake da AWS. Hoje, o Cloud Datalake da FINRA consiste em:
– Elastic Compute Clusters
– Catálogo Central (repositório de metadados)
– Armazenamento em AWS S3 (armazenamento de objetos)
Empresa Starburst
Um desafio remanescente era selecionar um mecanismo SQL interativo que correspondesse ao desempenho dos sistemas MPP SQL legados da FINRA. Para análises ad hoc, os SLAs de consulta são medidos em segundos. A FINRA escolheu o Trino porque era o único mecanismo SQL capaz de operar em escala de petabytes na nuvem e executar consultas simultâneas interativamente em dados armazenados no Amazon S3. Fortes referências de outros usuários conhecidos do Trino, como Facebook, Netflix e Airbnb, combinadas com o aprimoramentos do Starburst Enterprise e o suporte empresarial, foram cruciais. A integração comprovada do Starburst Enterprise com a AWS foi outro recurso essencial, pois conforme diz o diretor da FINRA, Ivan Black “O Starburst era muito compatível com datalake” e “Era como se tivesse sido construído para aquele modelo.
Isso foi um grande diferencial para nós. Investimos muito no datalake.” Hoje, a FINRA usa o Starburst Enterprise para criação de perfil de dados ad hoc, BI e geração de relatórios , sendo que as equipes de analistas de dados e cientistas executam várias consultas SQL simultâneas por meio de clientes JDBC e ODBC. O Trino então autentica as solicitações com o Active Directory usando LDAP e as autorizam por meio de verificações de permissão da tabela Hive Metastore. Por fim, durante a execução da consulta, o Trino lê os dados da tabela ORC diretamente do Amazon S3. A FINRA também criou
vários aplicativos da web interativos que utilizam o Trino como seu mecanismo de consulta SQL de backend para acessar dados no AWS Amazon S3 Datalake.
Insights mais rápidos a um custo menor
Além de vários recursos e otimizações adicionados, migrar para a AWS e fazer parceria com a Starburst Enterprise forneceu à FINRA várias vantagens sobre a sua plataforma legada, aproveitando o armazenamento em nuvem do AWS S3, o uso de Starburst eliminou a necessidade
de investir em soluções de Big Data proprietárias – que são caras – e suportar volumes cada vez maiores de dados. O Starburst Enterprise permitiu que a FINRA analisasse seus dados interativamente de maneira ad hoc sem a cópia e carregamento de dados necessários no passado.
A migração dos sistemas legados de armazenamento de dados foi perfeita para os usuários finais, e o processo de pesquisa de manipulação de mercado e investigação de possíveis fraudes agora é mais rápido do que antes.
“O Starburst era muito compatível com datalake”, acrescenta Black. “Era como se tivesse
sido construído para aquele modelo. Isso foi um grande diferencial para nós. Investimos “
muito no datalake.” – Ivan Black Diretor, Finra
Starburst inclui suporte à produção 24 horas por dia, 7 dias por semana, diretamente dos principais responsáveis pelo projeto Trino. Isso significa correções imediatas de bugs, patches, ajustes de consultas e orientações sobre como aproveitar ao máximo a implantação do Trino. Trabalhar com o Starburst também dá influência à FINRA no roadmap do Trino e na verdade, alguns dos recursos populares do Trino hoje derivam da contribuição da FINRA, incluindo:
– Suporte LDAP para autenticação
– Suporte ROLES para autorização
– Criptografia de tráfego interno
– Otimizações de desempenho
No geral, o Starburst forneceu à FINRA uma maneira escalável e econômica de
analisar volumes de dados em constante crescimento , pois conforme afirma
Black “O Starburst separa computação e armazenamento, tornando possível
escalar economicamente e analisar 25 PB de dados — 100 bilhões de linhas de
novos dados por dia em mais de 25 fontes.”