Data Lake na AWS: descubra por onde começar

Os dados são um ativo estratégico na atualidade e organizações que buscam perenidade e evolução precisam considerar esse tema de forma estratégica. Como parte de uma cultura, o data lake é uma solução atraente para o armazenamento e uso estratégico dos dados e ainda com a nuvem permite uma escalabilidade massiva.

Em razão das inúmeras dúvidas que surgem ao redor do tema, o Developer & A.I da BRLink, Rafael Campana, e o Big Data e Analytics Specialist Solution Architect da AWS, Hugo Rozestraten, apresentaram os passos típicos e eficientes para construir uma arquitetura de lake de sucesso na AWS. Confira:

Organize o Storage

O primeiro passo na construção de um data lake é considerar a organização dos buckets de arquivos. O Simple Storage Service (Amazon S3) é uma ferramenta bastante útil e permite que se tenha um ou mais buckets no seu lake, sendo eles globais. Com o S3, é possível ainda fazer o armazenamento já visando as demais camadas do seu lake, ou seja, deixar o dado preparado antecipadamente para a camada de Analytics, por exemplo. A vantagem de um serviço na nuvem como o S3, é ter um serviço virtualmente escalável ao infinito, extremamente flexível e econômico. O S3 é capaz de suportar uma excelente camada de segurança e de governança, não permitindo que o dado seja acessado por qualquer pessoa.

Faça a ingestão dos dados

Assim como existe uma variedade de dados e formatos, as fontes desses ativos também diferem. As mais comuns são streaming, sistemas legados, plataformas on premisses, mainframes e data warehouses. Dessa forma, o segundo passo é fazer a migração ou ingestão dessas informações para seu lake. Uma ferramenta versátil e muito recomendada para essa fase é o AWS Glue. Já para streaming, as mais utilizadas são AWS Kinesis ou AWS Kafka. Um ponto importante é que as ferramentas de streaming estão sendo cada vez mais usadas nessa etapa, porque elas dão a flexibilidade de rodar modelos de Machine Learning.

Prepare e catalogue os dados

Depois de mover os dados para seu lake, o próximo passo é fazer o catálogo dessas informações. A AWS utiliza o conceito de catálogo centralizado, de modo que o dono do dado, ou seja, a pessoa que fez a ingestão daquela informação, deixe-a disponível e muito bem descrita para as outras áreas que irão consumir esse dado no futuro. O AWS Glue, como já mencionado, é um componente completo e pode aparecer em várias etapas na arquitetura de um lake, sendo também útil na fase de preparação e catálogo. Esse serviço executa o crawling de fontes de dados e constrói um catálogo utilizando clasificadores predefinidos para variados formatos de fontes e tipos de dados conhecidos, como CSV, Parquet, JSON e outros.

Configure as políticas de segurança e compliance

Outra etapa da estratégia é fazer as configurações de segurança do lake pensando na governança desses dados. O AWS Identity and Access Management (IAM) é uma ferramenta que auxilia no controle de acesso e permissões quanto aos recursos e serviços da AWS. Essa ferramenta permite o controle granular de acesso a algum recurso específico e ainda dá recomendações de como utilizá-lo. Outro serviço da AWS nesse sentido é o Key Management Service (KMS), o qual se consegue utilizar de forma segura para gerar chaves de encriptação dos seus dados, mesmo que esses estejam em trânsito. Com toda essa suíte de serviços, a AWS mantém um destaque muito importante no mercado e consegue provar a máxima prioridade da companhia, a qual é a segurança.

Disponibilize os dados para análise

Seguido os passos anteriores, a última etapa da estratégia consiste em disponibilizar esses dados para serem consumidos para a área que irá executar os modelo de Inteligência Artificial, bem como para as demais que irão explorar esses dados. O AWS Glue também disponibiliza jobs Spark serverless, com menos preocupação com a operação dos clusters podemos focar na solução de negócio , transformar os dados com mais facilidade e em menos tempo .Uma vez catalogados por meio do Glue, os dados são disponibilizados imediatamente para consultas, pesquisas e ETL. Outro serviço para análises é o Amazon EMR, que é uma plataforma de big data em nuvem para processar grande volume de dados. Com essa plataforma, é possível realizar análises em escala de Petabytes a menos da metade do gasto das soluções tradicionais locais e três vezes mais rápido que o Apache Spark padrão.

Utilize boas práticas

Assim como o Well Architected, que consiste em um conjunto de boas práticas para uma arquitetura bem construída, a AWS lançou recentemente o Analytics Lens para o Well Architected Framework, que basicamente são melhores práticas dentro da AWS, mas com uma lente mais analítica. O Analytics Lens para o AWS Well-Architected fornece uma série de recomendações para garantir que aplicativos de análise sejam projetados segundo os padrões da AWS. As orientações abrangem também as etapas de armazenamento, gestão e catálogo, fornecendo alguns checklists essenciais para se construir uma excelente estrutura de dados.

Algumas soluções com o data lake: