Ententendo os “Data Factories”


Tempo de Leitura:

7–11 minutos

Olá, navegante dos dados!!! 📊

Quando uma organização começa a vivenciar cada vez mais o Big Data em seu dia a dia, é necessário utilizar tecnologias e ferramentas que comportem essa nova realidade, para que possam gerar um real contexto e conhecimento em cima de seus dados brutos.

Para isto, uma das necessidades é a utilização de uma ferramenta que possa orquestrar e operacionalizar esse processo. Então, vamos aprender um pouco sobre o Azure Data Factory, vulgo “ADF”. Um dos serviços mais utilizados na plataforma do Microsoft Azure para integração de dados, onde nós podemos realizar a criação de pipelines e orquestrar toda a movimentação dos dados envolvidos de forma escalável.

A ideia da postagem de hoje é trazer de forma resumida e objetiva um conhecimento inicial sobre o ADF, mas também sobre o Data Factory no Fabric, que traz algumas mudanças para os profissionais da área de dados e que veremos melhor em outras postagens.

Vamos lá, navegar nesse conhecimento?


O que é o Azure Data Factory (ADF)?

O Azure Data Factory é uma plataforma como serviço (PaaS – Platform as a Service) do Microsoft Azure. Ele nos permite realizar a integração de dados e realização de ETL/ELT, sendo muito utilizada por engenheiros de dados. Hoje, utilizamos a Versão 2, que está disponível desde 2018, sendo uma versão bem melhorada quando comparado a V1.
Em sua plataforma, nós conseguimos realizar a disponibilização dos dados, consumindo-os de diversas fontes sejam on-premisse ou cloud (SQL Server, Oracle, Sharepoint, S3, API’s, Azure Data Lake, etc…), de diversos formatos (dados estruturados, semiestruturados, não estruturados ), disponibilizando então em destinos diferentes com os formatos que necessitamos.

Azure Synapse Analytics

Posteriormente, foi anunciado pela Microsoft o Azure Synapse Analytics, uma plataforma também PAAS, de análise de dados que reuniu tecnologias SQL usados em Data Warehouses, tecnologias do Apache Spark para big data e também os recursos de integração de dados, como pipelines e Data Flows, que são baseados nos recursos do Azure Data Factory. Apesar do ASA ser baseado e ter muitos recursos do ADF, algumas não coexistem entre os 2, como por exemplo a utilização de parâmetros globais do ADF.

Data Factory do Fabric

Atualmente, além das plataformas citadas acima, também temos o Data Factory utilizado no Microsoft Fabric, que é uma solução SAAS (Software As A Service), onde foram unificados uma série de serviços da Azure, que permitem ingerir, armazenar, processar e analisar dados em um único ambiente, fornecendo um processo e análise “ponta a ponta” para os profissionais de dados e empresa, abrangendo desde movimentação até a disponibilização dos dados para BI, Data Science, streaming, relatórios, etc… Neste caso, o Data Factory no Fabric entra como um componente da solução, onde funciona da mesma forma (falando a grosso modo), porém irá ter algumas configurações diferentes do ADF tradicional. Você pode saber mais sobre o Data Factory no Fabric na página oficial da Microsoft clicando aqui. E em breve também vou trazer mais artigos voltados ao Microsoft Fabric.

O que é ETL?

É um termo utilizado para definir um conjunto de processos que envolvem a extração de dados de diversas fontes, seguida de transformações e carregamento em um destino, como um Data Warehouse ou Data Lake.

  • ETL (Extract, Transform, Load)
    • Extrair – Normalmente nesta etapa é definido a fonte de dados que terá os dados a serem copiados para outro local.
    • Transformar – Nesta etapa é realizado operações de transformações dos dados, que podem incluir adição ou remoção de campos, combinação de dados, filtros, etc… normalmente pelo ADF não é realizado muitas operações de transformações (mas podem ser feitas via Data Flow, por exemplo).
    • Carregar – Etapa referente a disponibilização dos dados em um determinado local e com os dados já formatados (ou não) a depender do escopo da arquitetura definida.
  • ELT (Extract, Load, Transform)
    • Extrair, Carregar e Transformar (mesmo conceito citado acima, porém com alteração na ordem das etapas).

O que seria uma orquestração?

Para quem já é da área de dados, muito se fala em “orquestração de dados”. Mas, trazendo para nosso contexto, o que seria então esta orquestração?

Este termo se refere ao processo de coordenar e controlar a execução de atividades dentro de pipelines de dados. Por exemplo, um pipeline no ADF pode ser composto por uma série de atividades (activities) que realizam diferentes tarefas. A orquestração vai envolver a definição de ordem de execução das atividades, saber entender e lidar com as dependências entre elas e gerenciar a execução geral do pipeline.

Por exemplo, você pode ter um pipeline que primeiro extrai dados de uma fonte, em seguida, realiza algumas transformações nesses dados e, finalmente, carrega os dados transformados em um destino. A orquestração garante que cada atividade seja executada na ordem correta e que as dependências entre elas sejam respeitadas.

Além disso, a orquestração no ADF também pode envolver o monitoramento da execução do pipeline, o tratamento de erros e a recuperação de falhas para garantir que o fluxo de dados seja executado com sucesso e de forma confiável.

Provisionando o Azure Data Factory


Para realizar o provisionamento de um Azure Data Factory, é necessário ter uma Assinatura do Azure. Caso não possua, poderá criar uma conta gratuita indo em azure.microsoft.com/free. Você recebe USD$200 em créditos que duram 30 dias para que você possa testar e aprender os serviços pagos do Azure. Alguns dos serviços do Azure são gratuitos (conforme mostra no site), enquanto outros são gratuitos durante os primeiros 12 meses.

Com a assinatura do Azure já adquirida, é necessário também ter permissionamento para criar. Neste caso, é necessário que você seja um membro com função (role) de Proprietário (owner) ou Colaborador (contributor).

Agora basta seguir os passos abaixo:

  1. Acessar o portal do Azure https://portal.azure.com/;
  2. Pesquisar por “Data Factories” na barra de pesquisa principal do portal do Azure;
  3. Ou podemos ir também pelo menu “All Services > Analytics > Data Factories”, selecionar e clicar na opção “Create”.

Aqui, iremos realizar um provisionamento apenas para testes:

  1. Selecione assinatura que irá gerenciar o recurso (sim, dependendo do ambiente você pode ter mais de uma assinatura disponível);
  2. Nome do grupo de recurso (Resource Group) que o ADF irá ficar alocado, onde você pode criar um novo ou escolher um existente.
  3. Nome que será dado a instância do seu ADF criada – que dever ser único em todo o Azure.
  4. Em que região o mesmo ficará alocado, onde o ideal é que sempre seja escolhido uma região mais próxima de você ou da organização devido a latência dos dados (o que também pode variar mediante N fatores na vida real devido a custos ou complice).

Após isso basta clicar em “Review + create” e depois novamente em “Create”.

Com o Azure Data Factory já provisionado com sucesso, irá ser emitido uma notificação no portal onde basta ir no grupo de recursos escolhido, selecionar o ADF criado e clicar em “Launch studio” para abrir a interface do estúdio. Mas caso queira acessar diretamente pelo navegador, basta digitar o endereço https://adf.azure.com/ e selecionar qual o Azure Data Factory você quer abrir.

Azure Data Factory x Data Factory do Fabric


Afinal, qual a diferença então entre estas 2 soluções? Vamos lá…
A grande diferença está entre o tipo de serviço de cloud computing oferecido. Como eu havia falado anteriormente, uma é PAAS e a outra SAAS. Mas vamos entender melhor, relembrando de forma resumida o que isto significa e trazendo então para nosso contexto da postagem.

  1. IaaS (Infraestrutura como Serviço) – Neste modelo o provedor do serviço oferece infraestrutura, como armazenamento e virtualização, onde a responsabilidade é totalmente gerenciada por quem está contratando o serviço.
  2. PaaS (Plataforma como Serviço) – Neste modelo, o provedor hospeda componentes de hardware e software em sua infraestrutura, proporcionando uma plataforma integrada que pode ser acessada via Internet, onde neste caso a responsabilidade do gerenciamento é mais dividida.
  3. SaaS (Software como Serviço) – Oferece uma aplicação completa gerenciada pelo provedor e acessada via navegador web, sendo a forma mais abrangente de serviços de cloud computing, devido principalmente a sua usabilidade.
https://stack247.files.wordpress.com/2015/05/azure-on-premises-vs-iaas-vs-paas-vs-saas.png

Logo, trazendo novamente para a nossa realidade, uma diferença na prática é que:

  • O Azure Data Factory nós temos que realizar o provisionamento do recurso;
  • No Data Factory do Microsoft Fabric, nós apenas “utilizamos” o recurso, pois ele se tornou um componente, onde ao realizar a configuração para utilizar o Fabric, seu ambiente já está apto a selecionar o Data Factory, realizar a criação de um pipeline e prosseguir com as ingestões.

Lembrando que o Data Factory do Microsoft Fabric ainda é uma solução nova, está tendo constantes atualizações e falta, por exemplo, a implementação de algumas features e conectores utilizados que já tínhamos disponíveis no Azure Data Factory padrão. Assim como a sua forma de precificação também irá se diferenciar mediante a utilização do “capacity” do Fabric.
Não trouxe inicialmente a configuração do Fabric, pois a ideia é trazer em um próximo post mais detalhado para vocês.


🎯 Considerações Finais

Neste post de hoje aprendemos um pouco sobre o ADF e como provisionar o recurso PAAS.
Também trouxe um pouco sobre o Data Factory no Fabric, pois futuramente irei trazer mais postagens de ambas plataformas para que possamos não apenas aprender sobre, mas também compará-las.

Se você quer continuar conhecendo mais sobre a área de dados ou fortalecer seus conhecimentos, continue seguindo o blog, nossa página do Instagram e acompanhe os melhores conteúdos! 🎯

E claro, caso tenha alguma dúvida, sugestão, dica, qualquer feedback… deixa um comentário abaixo para que melhore ainda mais os conteúdos e/ou também traga algo que você deseja aprender!

Se você chegou até aqui, parabéns! Acabei de gerar mais dados na internet e, se você gostou, gere mais dados também curtindo e compartilhando este conteúdo. 😄

Sigam nossas redes sociais:

Avalie o nosso conteúdo:


Um comentário

Deixe um comentário