Olá meu amigo, tudo blz? Dando continuidade em nossos estudos sobre o Microsoft Azure, falaremos hoje sobre um serviço chamado Azure Data Factory que podemos defini-lo como um serviço ETL na nuvem que possibilita a integração e transformação de dados sem a necessidade de um servidor físico. Além disso ele oferece ao usuário uma interface bem intuitiva que permite a criação de códigos, é possível realizar o gerenciamento e monitoramento em um único local.
Uma outra aplicabilidade é a possibilidade de migrar os seus pacotes do SSIS (SQL Server Integration Service) por lift-and-shift, o que consiste na migração de um aplicativo ou vários aplicativos do seu ambiente existente para um ambiente em cloud sem alterar a lógica ou o seu modus operendi, permitindo a sua execução com total compatibilidade no Azure Data Factory.
O Azure Data Factory conta com um módulo chamado Microsoft Integration Runtime que fornecer funcionalidades de integração de dados entre diferentes ambientes de rede, além disso conta também com o Azure-SSIS Integration Runtime oferece um serviço totalmente gerenciado, de modo que não é necessário se preocupar com o gerenciamento da infraestrutura. Fica tranquilo, vamos abordar esse assunto mais adiante.
Imagina que esse seja seu primeiro contato com o Azure Data Factory, apresentando de forma bem simplista, podemos dizer que o Azure Data Factory trabalha da seguinte forma. Observe a imagem comigo.
Essa fantástica ferramenta permite que você trabalhe com diversas fontes de dados. Dentre elas, podemos destacar, bancos de dados (Microsoft SQL Server, Azure SQL, Azure, Synapse, Oracle, MySQL, PostGre, SAP, Teradata e outros), arquivos (txt, csv, json, parquet, xml e outros), APIs, FTP, Bancos de Dados NoSQL, Blob Storage, são várias as possibilidades, é uma mega ferramenta!
Depois de muita história, vamos dar o pontapé inicial nesse post. Aqui agora vamos abordar o item em destaque de vermelho. Ele será o primeiro de muitos.
1 - Configuração do Serviço do Azure Data Factory e Instalação/Configuração do Integration Runtime;
2 - O que é um LinkedServer e um Dataset?
3 - Criando um Dataset Genérico de arquivo e de banco de dados;
4 - Criando seu primeiro Pipeline e carregando um/vários arquivo(s) para o Azure Blob Storage;
5 - Criando seu primeiro pipeline e carregando um/varios arquivo(s) para o Azure SQL e Microsoft SQL Server (On Premise);
6 - Carregando dados de um banco de dados para o Azure Blob Storage;
7 - Configurando agendamentos (Trigger Schedule);
Vamos lá então, porque o tempo ruge e a Sapucaí é grande!
Para o nosso primeiro bate papo sobre Azure Data Factory, vamos precisar de ter duas coisas:
1º - Conta no Microsoft Azure;
2º - Azure Resource Group configurado.
Caso você já possua uma conta no Microsoft Azure e o Resource Group configurado, sua vida ficou mais fácil, podemos avançar até o passo em que iniciamos a configuração do Azure Data Factory mais se você não possuir, fique tranquilo pois criei dois outros post onde detalho como que você cria a sua conta e outro para fazer as configurações iniciais.
Para você que respondeu SIM na pergunta anterior, avance até a casa 4, mais caso tenha sido NÃO, avance para a casa 1.
1 - Criação de Conta no Microsoft Azure
O primeiro passo será criação de uma conta grátis. Não abordarei com grande detalhes, trabalharemos com o necessário!
Bora, clique aqui para realizar a criação!
Criada concluída, avance para a casa 2.
2 - Criação do Azure Resource Group
Login realizado, vamos para o segundo passo, criação de um Resource Group.
Clique aqui para realizar a criação!
Resource Group criado, parabéns jovem! Avance para a casa 3.
3 - Criação do Azure Storage Account
Vamos para o terceiro passo, criação de um Azure Storage Account.
Cliquei aqui para realizar a criação!
Muito bem jovem!
Agora é que começa a brincadeira. Vamos configura nosso Azure Data Factory. Avance para a casa 4.
4 - Criação do Azure Data Factory
Bora parar de blá-blá-blá e mãos a obra! Não quero ver ninguém nervoso aqui, esse é tão simples quanto os outros! Bora, vamos lá...Conforme imagem abaixo, no canto superior esquerdo existe três barras empilhadas, vai clica nela!
Ao clicar, um menu na vertical irá aparecer, basta clicar em Create a resource, e na barra de digitação que irá aparecer no centro da tela, você irá digitar Data Factory.
A tela abaixo será apresentada. Clique no botão CREATE e vamos para a próxima tela.
Feito isso, uma tela com seis abas (Basics, Git configuration, Networking, Advanced, Tags e Review+create) será carregada. Pronto, primeiro porto seguro! Nesta tela iremos detalhar as informações necessárias para a criação do nosso recurso.
Na tela Basics, vamos selecionar apenas:
Subscription - Selecione a sua assinatura;
Resouce Group - Selecionar o Resource Group que ficará hospedado;
Region - Não vamos alterar, usaremos a mesma definida no Resource Group;
Name - Informar um nome para nosso serviço do Azure Data Factory;
Version - Vamos usar a mais atual V2.
Na aba Git configuration, é o local onde realizamos a configuração do repositório. Esse repositório de dados pode ser do Azure DevOps ou GitHub.
Para ganhar tempo, vou clicar em Configure Git later e retornaremos depois.
As abas Networking e Advanced não iremos abordar, passaremos direto para a aba TAG. Passo onde realizamos a configuração de um identificador do nosso recurso. Concluído, vamos avançar para Review + create.
Na próxima tela o Azure faz uma validação nas informações, estando tudo OK, o botão CREATE é habilitado para criação do nosso recurso.
Pronto meu guerreiro! Nosso recurso está pronto e disponível para uso!
Próximo passo agora é realizar o primeiro acesso.
O acesso pode ser feito de duas formas.
Vamos voltar na imagem anterior. Observe a opção "Open Azure Data Factory Studio". Clique e você será redirecionado para o Azure Data Factory.
Uma outra forma é clicando no link Azure Data Factory.
Clicando, você será direcionado para a tela abaixo. Nessa tela, você deverá selecionar o Azure Active Directory, Subscription e o Data Factory Name.
O Active Directory ou Azure AD é um serviço de gerenciamento de identidade e de acesso baseado em nuvem da Microsoft. Ele permite que seja possível se conectar e acessar os recursos do Azure.
Após clicar em Continue, a tela abaixo será apresentada.
Vamos começar nossa explicação da esquerda pra direita.
Existem 4 ícones (Uma casinha, um lápis, uma bússola e uma mala).
Casinha - Direciona para página inicial;
Lápis - Tela de criação de nossos fluxos (próxima tela);
Bússola - Tela onde realizamos o monitoramento das execuções de pipelines e triggers, configurações do Microsoft Integration Runtime, alertas e métricas;
Mala - Tela de criação de linked servers, conexões de Git (Azure DevOps ou GitHub), ARM Template.
Concluída a configuração e um breve overview do Azure Data Factory, que tal falarmos um pouco sobre o conector do Azure chamado Microsoft Integration Runtime.
Buscando uma definição no site da Microsoft, chegamos a seguinte informação:
O Integration Runtime (IR) é uma infraestrutura de computação usada pelo Azure Data Factory para fornecer funcionalidades de integração de dados entre diferentes ambientes de rede.
Um IR pode executar atividades de cópia entre um armazenamento de dados de nuvem e um armazenamento de dados em uma rede privada. Ele também pode distribuir atividades de transformação em relação aos recursos de computação em uma rede local ou em uma rede virtual do Azure.
A instalação da IR precisa ser feita em um computador local ou uma máquina virtual em uma rede privada.
De forma resumida, podemos dizer que a IR, permite a comunicação do mundo cloud com o onpremise, no meu caso, com o meu notebook.
Vamos ver agora como que funciona a configuração. Vou bem devagar, bem no detalhe para que você possa entender.
Primeiro passo, vamos realizar o download, clica ai nesse link.
Concluído o download, partiu instalação! Não perde, acompanha aqui comigo, foco!
Atenção: As 5 próximas telas não possuem detalhes.
1º - Escolher idioma;
2º - Aceitar os termos;
3º - Definir o diretório de instalação ;
4º - Instalar;
5º - Blá blá bla.
Muito bem! Simples né?
Observação: Instalação concluída, não é obrigatório reiniciar, mais caso queira pode reiniciar.
Vamos precisar acessar o Azure Data Factory agora. Caso você não tenha realizado o login, clica aqui no link para fazer.
Login realizado com sucesso, vamos seguir os seguintes passos.
Barra lateral à esquerda;
Clique na malinha;
Integration Runtime;
New.
Após clicar em New, uma aba a direita será apresentada conforme imagem abaixo.
Vamos clicar em Azure, Self-Hosted e depois em Continue e a tela abaixo será apresentada.
Próximo passo será clicar em Linked Self-Hosted e novamente em Continue.
Na tela seguinte, vamos informar um nome para a nossa IR e se possível uma breve descrição explicando o por que da sua criação.
Estamos quando chegando no final.
Na próxima tela já conseguimos visualizar as informações que precisamos para finalizar a configuração da Integration Runtime.
Clique no botão para copiar a Key1.
Cole na tela abaixo e após clique em Register.
Na próxima tela vamos nomear nosso Integration Runtime. Depois clique em Next.
Configuração concluída com sucesso.
Serviço iniciado.
Podemos voltar no Azure Data Factoy e verificar que já está disponível a Integration Runtime.
Pelo Microsoft Azure, ela também já aparece.
Com isso meu amigo, concluímos mais um post. Lembrando que esse foi apenas o primeiro assunto relacionado ao Azure Data Factory, sendo o mais importante pois é onde realizamos toda configuração, sendo base para os próximos.
Espero que tenham gostado! Espero você no próximo.
Grande abraço e fique com Deus.
Link Azure Data Factory -https://docs.microsoft.com/en-us/azure/data-factory/
Link Microsoft Integration Runtime - https://docs.microsoft.com/en-us/azure/data-factory/concepts-integration-runtime
Antes de trabalhar com Azure DataFactory todo o processo de ETL e tratamento dos dados eu realizava tudo de forma manual, a partir do momento que conheci essa tecnologia o trabalho ficou mais fácil, produtivo e controlado.