AWS re:Invent 2017 – Muitas novidades, direto de Las Vegas

Muito conteúdo sobre Data & Analytics, com foco em arquiteturas de Streaming em real-time e serviços de IoT, Machine Learning e Deep Learning. Integre tudo isso com Serverless Computing e Microservices, e múltiplos serviços gerenciados da AWS, para ter uma ideia do que a Amazon Web Services está preparando para seus próximos lançamentos.

Aqui na Rivendel, temos trabalhado com pipelines de Continuous Delivery de múltiplos perfis de aplicações para nossos clientes.  Temos também montado Data Lakes e trabalhado com Data Engineering usando ferramentas open source de Big Data integradas aos serviços gerenciados da AWS. E claro: com arquiteturas de microserviços com containers e serviços AWS gerenciados, como o Lambda e muitos outros.


Direto da AWS re:Invent, em Las Vegas, temos acompanhado várias sessões sobre esses e muitos outros assuntos, e neste post detalharemos alguns dos principais pontos debatidos na principal conferência da Amazon Web Services:


Melhores práticas para criar aplicativos Serverless de Big Data

As tecnologias Serverless permitem criar e dimensionar aplicativos e serviços rapidamente sem a necessidade de fornecer ou gerenciar servidores. Esta palestra aborda como incorporar conceitos Serverless em arquiteturas de Big Data. São explorados os conceitos e benefícios de arquiteturas sem servidor para apps de Big Data, com especial atenção a padrões de design para input, armazenamento, processamento e visualização dos dados. Ben Snively comenta quando e como usar tecnologias sem servidor para agilizar o processamento de dados, minimizar o impacto do gerenciamento da infraestrutura e, de quebra, melhorar a agilidade e a robustez para uma arquitetura que combina tecnologias de código aberto e nuvem para resolver questões de Big Data. Os tópicos da palestra de Ben incluem: casos de uso e melhores práticas para aplicativos Serverless de Big Data; como tirar o melhor proveito de tecnologias AWS nesse contexto, tais como: Amazon DynamoDB, Amazon S3, Amazon Kinesis, AWS Lambda, Amazon Athena e Amazon EMR; além de tópicos como serverless ETL, processamento de eventos, análise de dados ad hoc e análise em tempo real.

Veja a palestra dele abaixo:

 

Melhores práticas para Data Warehousing com Amazon Redshift & Redshift Spectrum

 

A maior parte das organizações é inundada com muitas fontes de dados, mas carecem de insights críticos para tomada de decisões comerciais mais precisas. Falta a oportunidade de combinar grandes quantidades de dados não estruturados que estão fora do data warehouse com dados confiáveis e estruturados dentro do data warehouse. Como avaliar essa situação? Nesta fala, Tony Gibbs, arquiteto de soluções especialista em Data Warehouse, analisa em profundidade a forma como o data warehousing moderno combina e analisa dados dentro e fora do data warehouse convencional para fornecer informações mais precisas para a execução do negócio. Em sua palestra (abaixo), Tony cobre as melhores práticas sobre como projetar schemas ótimos e carregar dados mais eficientemente, além de otimizar queries para oferecer alto rendimento e desempenho.



Primeiros passos com Amazon Aurora

Os serviços Amazon Aurora são engines de banco de dados relacionais compatíveis com MySQL e PostgreSQL que incluem velocidade, confiabilidade e disponibilidade de bancos de dados comerciais high-end por um décimo do custo. Esta fala introduz o Amazon Aurora, explora seus recursos e capacidades, explica casos de uso comum e ajuda a iniciar com o Aurora:

Analisando Streaming de dados em tempo real com o Amazon Kinesis

 

O Amazon Kinesis facilita a coleta, processo e análise de streaming de dados em tempo real para que o usuário possa obter insights na medida em que acontecem com isso reagir rapidamente a novas informações. Nesta fala, Ryan Nienhuis, da AWS, apresenta uma solução de streaming de dados de ponta a ponta usando: 1) Kinesis Streams para ingestão de dados; 2) Kinesis Analytics para o processamento em tempo real; e 3) Kinesis Firehose para persistência de dados. Ele detalha ainda como escrever queries SQL usando streaming de dados, e discute as melhores práticas para otimizar e monitorar aplicativos do Kinesis Analytics. Por fim, também mostra como estimar o custo de todo o sistema.

Implementando Business Analytics em escala empresarial com o Amazon QuickSight

 

Uma das maiores compensações que os clientes geralmente fazem ao implementar soluções de BI em escala é pensar na agilidade x governança. Implementações de BI em larga escala com a estrutura de governança correta podem levar meses para serem projetadas e executadas. Nesta palestra, Greg Khairallah, gerente sênior de desenvolvimento de negócios, conta como é possível evitar essa compensação usando o Amazon QuickSight. Ele explica como implementar facilmente o Amazon QuickSight para milhares de usuários usando o Active Directory e Federated SSO, enquanto acessa de forma segura suas fontes de dados em VPCs da Amazon ou on-premise.

Construindo Serverless ETL Pipelines com AWS Glue

 

As organizações precisam obter informações e conhecimento de um número crescente de fontes de dados de Internet das Coisas (IoT), APIs, clickstreams, além de fontes não estruturadas e log de dados. No entanto, as organizações também são muitas vezes limitadas por Data Warehouses legados e processos ETL que foram projetados para dados transacionais. Nesta palestra, são apresentados os principais recursos ETL da AWS Glue, casos de uso comum, que vão desde cargas programadas de armazenamento de dados noturnos até fluxos ETL em tempo real e eventos orientados para um data lake, por exemplo.


Um mergulho nas melhores práticas de uso do Amazon Athena

 

O Amazon Athena é um serviço de consulta interativa que permite processar dados diretamente da Amazon S3 sem necessidade de infraestrutura. Desde o seu lançamento, no re:invent do ano passado, várias organizações têm adotado o Amazon Athena como ferramenta central para processar todos os dados. Nesta palestra, Abhishek Sinha, Gerente de Produto Sênior da Amazon Web Services, Rahul Pathak, Gerente Geral Athena e EMR, e Raul Renteria, Gerente Geral de Big Data da OLX Brasil mergulham a fundo nos casos de uso mais comuns, inclusive trabalhando com outros serviços AWS integrados. São revisadas as melhores práticas para criar tabelas, partições e otimizações de desempenho, além de questões referentes a segurança, autorização e autenticação.

 

Análise e mineração de dados em tempo real com Amazon Elasticsearch Service e Kibana

 

Nesta palestra, Jon Handler, arquiteto de soluções da AWS, usa web logs Apache como exemplo para mostrar como criar uma solução de analytics de ponta-a-ponta. Primeiro, ele conta como configurar um cluster Amazon ES e ingerir dados usando o Amazon Kinesis Firehose. Em seguida, analisa as melhores práticas para escolher tipos de instâncias, opções de armazenamento, shard counts e rotações de índice com base na taxa de transferência de dados recebidos. E também demonstra como configurar um dashboard Kibana e criar widgets customizados. Por fim, analisa abordagens para gerar relatórios customizados e ad-hoc:

 

21