Integração de Dados Talend - Benefícios Aplicações e componentes

Índice:

Anonim

Introdução à Integração de Dados Talend

A integração de dados Talend significa combinar dados de diferentes fontes e combiná-los em uma única exibição para obter alguns dados significativos daqueles que podem ajudar a empresa ou organização a melhorar seus negócios analisando esses dados. A integração ajuda a obter dados, limpando os dados, fazendo algumas transformações necessárias, etc, e depois carregando-os em um data warehouse.

O que é a integração de dados do Talend?

  • O Talend é uma ferramenta ETL usada para integração de dados. O Talend fornece uma solução para preparação de dados, qualidade dos dados, integração de dados e big data.
  • O Talend oferece o Open Studio, um código aberto para integração de dados e big data.
  • O Talend open studio ajuda a lidar com grandes dados com componentes de grande volume de dados. Possui mais de 800 componentes para diversos fins de integração. Aqui discutiremos alguns dos componentes. Para facilitar, veja o exemplo abaixo
  • Um operador de sim possui muitos dados sobre planos, clientes, detalhes de sim, etc. Esses dados são enormes e, portanto, o big data também é usado na integração.

Cliente A comprando um sim usando um ID do governo.
Dando o nome dele: AB C
Endereço como: Chennai, Chennai
Número de telefone: 1234567890

Após a integração de dados

Primeiro nome: AB
Sobrenome: C
Endereço: Chennai, Índia
Número de telefone: +911234567890

Aqui, os dados são limpos e transformados em algo mais significativo.

Benefícios da integração de dados

Aqui discutiremos os benefícios da integração de dados.

  1. Analisando tendências de negócios usando a integração de dados
  2. Combinando dados em um único sistema
  3. Economia de tempo e mais eficiência e menos retrabalho
  4. Geração fácil de relatórios - usada pelas ferramentas de BI
  5. Manutenção e inserção de dados no data warehouse e data marts

Aplicação de Integração de Dados Talend

Aqui discutiremos a aplicação da integração de dados do Talend.

1. Trabalhando com o Talend

  • Certifique-se de ter o java instalado e as variáveis ​​de ambiente definidas.
  • Faça o download do código-fonte aberto no site da Talend e instale o software.
  • Crie um novo projeto e termine a instalação
  • O Talend será aberto com a guia Designer.
  • O Talend é uma ferramenta baseada em eclipse e os componentes podem ser arrastados da paleta ou você pode clicar e digitar o nome dos componentes.

2. Primeiro trabalho lendo um arquivo

  • Procure o componente tFileinputdimited. Este componente é usado para ler arquivos delimitados.
  • Coloque o componente tFileinputdelimited. Pesquise tLogRow e coloque-o no designer de tarefas.
  • Clique com o botão direito do mouse em tFileinputdimimited e selecione row-> main e desenhe uma linha para tLogRow.
  • No componente, a guia seleciona o caminho do arquivo que você deseja ler e fornece o separador de linhas como \ n. Se o arquivo tiver delimitador, você poderá mencionar o delimitador.
  • Clique no esquema e forneça os detalhes do tipo de coluna ou é possível ler a linha inteira, pois uma sequência com um valor de coluna e delimitador deve estar vazia.
  • Você também pode pular o cabeçalho e rodapé.
  • No componente tLogRow, selecione a maneira como deseja ver os dados. Formato de tabela ou formato de linha única.
  • tLogRow exibe a saída no console de execução.
  • Depois de conectar o tFileinputdelimited e o tLogRow, execute o trabalho na guia Executar.
  • Você pode ver o conteúdo do arquivo no console impresso.

3. Segundo trabalho usando o Tmap

  • Leia um arquivo e filtre-o em diferentes arquivos de saída.
  • Leia um arquivo no componente delimitado por tFileinput com um esquema de coluna como um registro.
  • Componente Tmap - Esse componente ajuda na transformação de dados com algumas funções embutidas, como pesquisa, junções etc.
  • No tmap, crie duas saídas out1 e out2.
  • No filtro out1, adicione record.contains ("talend") e desenhe o registro para out1.
  • Desenhe a linha de registro para outra saída2.
  • No tmap, pegue as linhas principais e conecte-se a dois tFileoutputdelimited.
  • link out1 para um tfileoutputdelimited1 como arquivo1.txt e out2 para outro tfileoutputdelimited2 como arquivo2.txt.
  • O txt terá registros que contêm talentos.
  • O txt terá registros com outros nomes.

4. Integrado e Repositório

  • Integrado significa que você deve definir o esquema ou os detalhes para se conectar a um banco de dados todas as vezes.
  • O repositório é útil para salvar os detalhes nos metadados, para que você possa reutilizar os mesmos detalhes todas as vezes sem inserir os detalhes manualmente. Nos metadados, você pode salvar o esquema do arquivo, as conexões com o banco de dados, a conexão Hadoop, a conexão hive, a conexão s3 e muito mais.

Componentes da integração de dados do Talend

Aqui discutiremos os componentes do Talend Data Integration.

1. tFileList: Este componente lista os arquivos em um diretório ou pasta com um determinado padrão de máscara de arquivo.

2. tMysqlConnection: Este componente é usado para conectar-se ao banco de dados MySQL. Os componentes do Mysql podem usar essa conexão para facilitar a configuração da conexão com o banco de dados.

3. tMysqlInput: Este componente ajuda a executar uma consulta ao banco de dados mysql e obter a tabela ou colunas. Este componente é usado para selecionar consultas e obter os detalhes.

4. tMysqlOutput: este componente é usado para inserir ou atualizar dados no banco de dados Mysql.

5. tPrejob: Este componente é o primeiro a ser executado no trabalho e pode ser conectado a outros componentes com o Subjob ok.

6. tPostjob: este componente é o último a ser executado no trabalho. Você pode conectar isso aos componentes de conexão próxima.

7. tLogcatcher: Este componente captura o aviso e os erros no trabalho. Este é o componente mais importante usado na técnica de tratamento de erros. Os logs de erro podem ser gravados usando esse componente junto com tfileoutputdelimited. Existem mais de 800 + componentes.

8. Variável de contexto: variáveis ​​de contexto são variáveis ​​que podem ser usadas no trabalho em qualquer lugar. Ele mantém valores e pode ser passado para outro trabalho também usando componentes tRun. Os usos das variáveis ​​de contexto são que podemos alterar o valor para diferentes propósitos. Por exemplo, podemos ter um conjunto de valores para o grupo de contexto de desenvolvimento e um conjunto diferente de valores de contexto para produção. Dessa forma, não precisamos alterar o trabalho, basta alterar os parâmetros de contexto.

9. Construindo um trabalho: Para criar um trabalho, clique com o botão direito do mouse no trabalho e selecione um trabalho de construção. Você pode importar o trabalho de construção no TAC. No Talend Administration Console, você agende um trabalho para acionar também a dependência do conjunto de trabalhos. Você também pode importar o trabalho do repositório Nexus usando um trabalho de artefato.

10. Crie uma tarefa no TAC: Abra o condutor de tarefas no TAC. Clique em novas tarefas e selecione tarefas normais ou de artefato. Importe o trabalho de criação ou selecione no nexus. Selecione o servidor de trabalho no qual o talento será executado. Salve a tarefa. Agora você pode implantar e executar o trabalho.

Conclusão

  • “Simplifique o ETL e o ELT com a principal ferramenta de ETL gratuita de código aberto para big data.” É o slogan do estúdio aberto.
  • O Talend Bigdata possui muitos componentes para lidar com grandes dados.
  • Trabalho padrão, trabalho Bigdata, trabalhos de streaming Bigdata são os diferentes tipos de trabalhos disponíveis no Talend.
  • Trabalhos de bigdata podem ser criados em uma faísca ou estrutura MapReduce.

Artigo recomendado

Este é um guia para a integração de dados do Talend. Aqui discutimos a introdução ao Talend Data Integration e os benefícios, juntamente com aplicativos e componentes. Você também pode consultar nossos outros artigos sugeridos para saber mais

  1. Ferramenta de Integração de Dados | As 12 melhores ferramentas
  2. Perguntas e respostas da entrevista do Talend
  3. Melhores ferramentas de visualização de dados com seus tipos
  4. Talend vs Mulesoft - Diferenças
  5. O que é o Data Mart?