Gabriel Quintella

6 de set. de 20215 min de leitura

Data Factory e Seus Componentes

Fala meu jovem! Vamos dar inicio ao segundo post da nossa série Desvendando o Azure Data Factory. Na postagem anterior, abordamos assuntos relacionados a sua configuração, caso você não tenha lido, basta clicar aqui. Na postagem de hoje, farei uma abordagem um pouco mais detalhada, nada hands on.

Vamos iniciar, pronto para mais uma aventura guerreiro? Borá lá então...

Antes de tudo, preciso que você realize o acesso a sua conta no Azure Data Factory clicando aqui.

Login realizado, você será redirecionado para a tela abaixo. No canto esquerdo (1) você consegue visualizar todas as visões que o Azure Data Factory disponibiliza para o andamento do nosso trabalho.

Vamos abordar cada um deles no decorrer desse post.

Nosso primeiro assunto será na aba Author (imagem abaixo).

Nessa visão você consegue visualizar tudo que já foi criado até o momento (imagem abaixo) e onde você irá iniciar os seus desenvolvimentos. Ao clicar, a tela abaixo será apresentada.

Para auxiliar seu entendimento, observe a legenda dessa imagem:

(1) - Telas;

(2) - Pipelines;

(3) - Datasets ou fontes de dados;

(4) - Data Flows ou fluxo de dados;

(5) - Power Query;

(6) - Templates.

Esse itens vou explicar a seguir um a um.

Nessa imagem, você consegue observar que alguns objetos já estão criados. Por exemplo um pipeline e dois Datasets.

Após a primeira apresentação, vamos passar por cada um desses componentes do Azure Data Factory na aba Author aproveitando para explicar timtim por timtim, segue comigo jovem!!!

Pipelines

Buscando uma breve explicação Pipelines podemos falar que são tarefas executadas pelo Azure Data Factory com o intuito de levar informações de uma origem para um destino. Caso você já tenha trabalhado com o Microsoft SQL Server Integration Services (SSIS) vai nota uma grande semelhança, costumo dizer que é o SSIS na nuvem.

Quando você clica em Pipeline, três pontinhos, semelhante a reticências serão apresentadas.

Ao clicar sobre eles, uma tela com três opções será apresenta:

(1) New Pipeline
(2) Pipeline from template
(3) New folder

Vamos comentar cada um deles.

(1) New Pipeline - Permite a criação de uma Pipeline do Zero;
(2) Pipeline from template - Permite a criação de uma Pipeline a partir de um template pré definido;
(3) New folder - Permite você criar uma pasta para poder organizar seus desenvolvimentos.

Observando a imagem abaixo, vamos expandir até nosso pipeline criada de exemplo PIP_CARGA_ONPREMISE_TO_BLOB.

Primeiros passos:

(1) Clique sobre PIPELINE (você pode clicar sobre o nome ou na setinha que tem antes do nome);

(2) Depois clique em 01_ONPREMISE_TO_BLOB (pasta criada para para organizar os desenvolvimentos);

(3) E por último no nome da Pipeline PIP_CARGA_ONPREMISE_TO_BLOB.

Quando clicamos sobre a Pipeline PIP_CARGA_ONPREMISE_TO_BLOB, o seu fluxo será apresentado ao centro da tela. Após abri-la, podemos executar, realizar alterações, criar um agendamento e outras possibilidades.

Caso queira realizar a alteração no nome da Pipeline, existem duas possibilidades. Observe agora a imagem ao lado. No canto superior direito ao lado das chaves {} existe um ícone que parece muito com livro (1), ao clicar nesse ícone uma aba com as propriedade do nosso Pipeline será apresentada.

Ao clicar sobre o ícone, a imagem da esquerda é apresentada. Nesse ponto conseguimos renomear nossa Pipeline (3), colocar uma breve descrição (4) e até mesmo verificar se ele é chamado em algum outro Pipeline (2), uma vez que isso é possível.

Além disso, podemos inserir parâmetros (Parameters) (1), variáveis (Variables) (2) , configurações (Settings) (3) e analisar o output (4) de sua execução.

Activities

Vamos falar agora sobre as Activities. Dentro de uma pipeline, elas são etapas individuais e executam uma única tarefa, podendo encadeá-las ou realizando execuções em paralelo.

A sua principal função é controlar o fluxo dentro de um pipeline, mover ou transformar dados ou executar tarefas externas usando serviços do Azure Data Factory.

Data Flows

Quando necessitamos realizar algum tratamento em nossos dados, não podemos usar somente as atividades de copy data. Para tal atividade, devemos chamar o nosso amigo Data Flow, pois ele é uma atividade exclusivamente voltada para criação de transformações de dados.

Podemos dizer até que é uma mão na roda, pois podemos transformar dados em várias etapas usando o editor, sem ter que escrever qualquer outro código.

Dataset ou Conjunto de Dados

Esse em minha experiência com Azure Data Factory é o ponto que precisamos dedicar maior atenção possível. Vou explicar porque isso.

Quando comecei a trabalhar com o Azure Data Factory em relação aos DataSets posso falar o seguinte:

Foi onde fiquei com maior dúvida;
Foi onde fiz a maior quantidade de M e;
Foi onde me deu o maior trabalho para ajustar.

Conforme mencionei acima, o Azure Data Factory é bem parecido com o Microsoft SQL Server Integration Services e foi nesse ponto que encontrei a maior diferença, mais no final identifiquei que toda essa confusão ocorreu porque eu não sabia trabalhar como a ferramenta, e digo, ainda não sei muito, mais estou estudando para aprender cada dia mais.

O pulo do gato é o seguinte, toda vez que você estiver copiando ou transformando algum dados, é necessário especificar o formato e a localização dos dados de entrada e saída.

Os DataSets ou conjuntos de dados são como visualizações nomeadas que representam o seu dado, seja ele de origem de um banco de dados, uma pasta ou um único arquivo.

Muito importante aqui!!!! Ao criar um conjunto de dados, você precisa especificar como se conectar a ele.

Vou ensinar para você mais a frente as duas formas de trabalhar, a primeira que segui e que no final vi que era completamente errada, por isso foi onde perdi o maior tempo da minha vida pra corrigir, vou tentar exemplificar tudo que enfrentei e no final vou apresentar como que sua vida será mais feliz quando estiver usando um Dataset genérico ou parametrizado.

Vamos agora falar um pouco sobre a guia de Monitor do Azure Data Factory. Observe a imagem abaixo.

Na imagem ao lado, vamos clicar no ícone da bússola e seremos direcionado para as opções de gerenciamento.

Observamos que ela é dividida em 4 categorias: Connections, Source control, Author e Security.

Nesse momento, vamos nos concentrar em apenas duas categorias: Connections e Author.

Quando iniciei a série do Desbravando o Azure Data Factory, fiz uma introdução do Integration runtimes e em um outro momento estarei dedicando um post exclusivo a categoria Source control.

Onde abordaremos a cultura DevOps e falaremos como que podemos trabalhar com o DevOps dentro do Azure Data Factory seja com o GitHub ou com o Azure DevOps.

Nesse momento, vamos falar apenas sobre Linked Services e Triggers.

Bora lá então.

Linked Service

O Linked Service funciona como conexões para as nossas fontes de dados que serão usadas ao criar nossos DataSets.

Podemos também usa-lo vinculando junto com o Azure Key Vault, isso é fantástico! Vou criar um post exclusivo para o Azure Key Vault.

Falaremos em breve como mais detalhes sobre os Linked Services.

Triggers

Podemos fazer uma definição bem simplista de Triggers: Elas determinam quando um pipeline deverá ser executado. A sua aplicação é bem parecida quando comparadas a dois outros processos, o Agendador de Tarefas Windows ou o SQL Server Agent, ou seja, funcionam como agendadores de tarefas onde definimos quando e como serão executados.

Falaremos em breve como mais detalhes sobre as Triggers.

Conclusão!

Jovem gafanhoto, terminamos por aqui mais um post. Hoje busquei trazer para você uma breve explicação sobre os diferentes componentes do Azure Data Factory, acredito que o grande objetivo desse post foi alcançado.

Deixo uma imagem que resume bem como que é a funcionalidade dentro do Azure Data Factory, mais precisamente em uma pipeline.

Pensa aqui comigo, vamos interpretar essa imagem. Quando criamos uma Pipeline, já sabemos a Origem e o Destino, assim espero! Muito bem, sua resposta foi SIM! Porém como fazer isso funcionar dentro do Azure Data Factory?

Em nossa imagem acima, sabemos que precisamos pegar um arquivo que está em um Blob Storage e carregar no SQL Server.

Primeiro passo realizar a conexão entre elas criamos um Linked Server, concluído, definimos o formato de entrada e saída nos DataSets e por fim criamos uma Trigger para garantir a sua execução.

De forma simplista é isso, agora vamos ver como que isso tudo acontece? Bora? Não percam o próximo post.

Abraços e vamos lá...