Talend Open Studio - Aprenda os benefícios, aplicativos e componentes

Índice:

Anonim

Introdução ao Talend Open Studio

O Talend oferece o Open Studio, um código aberto para integração de dados. Possui mais de 800 componentes para diversos fins de integração. Faça o download do Talend Open Studio em https://www.talend.com/download/

Integração de dados significa combinar dados de diferentes fontes e combiná-los em uma única exibição para obter alguns dados significativos daqueles que podem ajudar a empresa ou organização a melhorar seus negócios analisando esses dados. A integração ajuda a obter dados, limpando os dados, fazendo algumas transformações necessárias, etc, e depois carregando-os em um data warehouse.

O que é o Talend?

O Talend é uma ferramenta ETL usada para integração de dados. O Talend fornece uma solução para preparação de dados, qualidade dos dados, integração de dados e big data. Aqui discutiremos alguns dos componentes. Para facilitar a visualização do exemplo abaixo Um operador de sim possui muitos dados sobre planos, clientes, detalhes do sim, etc. Esses dados são enormes e, portanto, o big data também é usado na integração.

Cliente A comprando um sim usando um ID do governo

Dando seu nome como AB C

endereço como Chennai, Chennai

número de telefone como 1234567890

Após a integração de dados

Primeiro nome: AB

Sobrenome: C

Endereço: Chennai, Índia

Número de telefone: +911234567890

Aqui, os dados são limpos e transformados em algo mais significativo.

Benefícios

  • Analisando tendências de negócios usando a integração de dados
  • Combinando dados em um único sistema
  • Economia de tempo e mais eficiência e menos retrabalho
  • Geração fácil de relatórios - usada pelas ferramentas de BI
  • Manutenção e inserção de dados no data warehouse e data marts

Inscrição

Aqui estão as seguintes aplicações mencionadas abaixo

1. Trabalhando com o Talend

  • Certifique-se de ter o java instalado e as variáveis ​​de ambiente definidas.
  • Faça o download do código-fonte aberto no site da Talend e instale o software.
  • Crie um novo projeto e termine a instalação
  • O Talend será aberto com a guia Designer.
  • O Talend é uma ferramenta baseada em eclipse e os componentes podem ser arrastados da paleta ou você pode clicar e digitar o nome dos componentes.

2. O primeiro trabalho Lendo um arquivo

  • Procure o componente tFileinputdimited. Este componente é usado para ler arquivos delimitados.
  • Coloque o componente delimitado por tfileinput. Procure tlogrow e coloque-o no designer de tarefas.
  • Clique com o botão direito do mouse em tfileinputdelimited e selecione linha-> principal e desenhe uma linha para crescer.
  • No componente, a guia seleciona o caminho do arquivo que você deseja ler e fornece o separador de linhas como \ n. Se o arquivo tiver delimitador, você poderá mencionar o delimitador.
  • Clique no esquema e forneça os detalhes do tipo de coluna ou é possível ler a linha inteira, pois uma sequência com um valor de coluna e delimitador deve estar vazia.
  • Você também pode pular o cabeçalho e rodapé.
  • No componente tlogrow, selecione a maneira como deseja ver os dados. Formato de tabela ou formato de linha única.
  • tlogrow exibe a saída no console de execução.
  • Depois de conectar ambos tfileinputdelimited e tlogrow, execute o trabalho na guia Executar.
  • Você pode ver o conteúdo do arquivo no console impresso.

3. Um segundo trabalho usando o Tmap

  • Leia um arquivo e filtre-o em diferentes arquivos de saída.
  • Leia um arquivo no componente tfileinputdelimited com um esquema de coluna como o registro.
  • Componente Tmap - Esse componente ajuda na transformação de dados com algumas funções embutidas, como pesquisa, junções etc.
  • No tmap, crie duas saídas out1 e out2.
  • No filtro out1, adicione row3.record.contains ("talend") e arraste o registro para out1.
  • Desenhe a linha de registro para outra saída2.

  • No tmap, pegue as linhas principais e conecte-se a dois tfileoutputdelimited.
  • link out1 para um tfileoutputdelimited1 como arquivo1.txt e out2 para outro tfileoutputdelimited2 como arquivo2.txt.
  • O txt terá registros que contêm talentos.
  • O txt terá registros com outros nomes.

4. Integrado e repositório

  • Integrado significa que você deve definir o esquema ou os detalhes para se conectar a um banco de dados todas as vezes.
  • O repositório é útil para salvar os detalhes nos metadados, para que você possa reutilizar os mesmos detalhes todas as vezes sem inserir os detalhes manualmente. Nos metadados, você pode salvar o esquema do arquivo, as conexões com o banco de dados, a conexão Hadoop, a conexão hive, a conexão s3 e muito mais.

Componentes do Talend Open Studio

Aqui estão os seguintes componentes do Talend Open Studio mencionados abaixo

1. tFileList

  • Este componente lista os arquivos em um diretório ou pasta com um determinado padrão de máscara de arquivo.

2. tMysqlConnection

  • Este componente é usado para se conectar ao banco de dados mysql.
  • Os componentes do Mysql podem usar essa conexão para facilitar a configuração da conexão com o banco de dados.

3. tMysqlinput

  • Este componente ajuda a executar uma consulta ao banco de dados mysql e obter a tabela ou colunas. Este componente é usado para selecionar consultas e obter os detalhes.

4. tMysqlOutput

  • Este componente é usado para inserir ou atualizar dados no banco de dados Mysql.

5. pré-trabalho

  • Este componente é o primeiro a ser executado no trabalho e pode ser conectado a outros componentes com o subjob ok.

6. tpostjob

  • Este componente é o último a ser executado no trabalho. Você pode conectar isso aos componentes de conexão próxima.

7. tlogcatcher

  • Este componente captura o aviso e os erros no trabalho.
  • Componente mais importante usado na técnica de tratamento de erros.
  • Os logs de erro podem ser gravados usando esse componente junto com tfileoutputdelimited.
  • Existem mais de 800 + componentes.

Variável de contexto

  • Variáveis ​​de contexto são variáveis ​​que podem ser usadas no trabalho em qualquer lugar.
  • Ele contém valores e pode ser passado para outro trabalho também usando o componente trun.
  • O uso de variáveis ​​de contexto é que podemos alterar o valor para diferentes propósitos.
  • Por exemplo, podemos ter um conjunto de valores para o grupo de contexto de desenvolvimento e um conjunto diferente de valores de contexto para produção.
  • Dessa forma, não precisamos alterar o trabalho, basta alterar os parâmetros de contexto.

Construindo um emprego

  • Para criar um trabalho, clique com o botão direito do mouse no trabalho e selecione Criar trabalho.
  • Você pode importar o trabalho de construção no TAC.
  • No Talend Administration Console, você agende um trabalho para acionar também a dependência do conjunto de trabalhos.
  • Você também pode importar o trabalho do repositório Nexus usando um trabalho de artefato.

Crie uma tarefa no TAC

  • Condutor de trabalho aberto no TAC
  • Clique em novas tarefas e selecione tarefas normais ou de artefato.
  • Importe o trabalho criado ou selecione no nexus.
  • Selecione o servidor de trabalho no qual o talento será executado.
  • Salve a tarefa.
  • Agora você pode implantar e executar o trabalho.

Conclusão - Talend Open Studio

“Simplifique o ETL e o ELT com a principal ferramenta de ETL gratuita de código aberto para big data.” É o slogan do estúdio aberto. O Talend Bigdata possui muitos componentes para lidar com grandes dados. Trabalho padrão, trabalho Bigdata, trabalhos de streaming Bigdata são os diferentes tipos de trabalhos disponíveis no Talend. Os trabalhos de bigdata podem ser criados em uma estrutura de faísca ou mapreduce.

Artigos recomendados

Este é um guia para o Talend Open Studio. Aqui discutimos os benefícios, aplicativos e componentes do Talend Open Studio. Você também pode consultar os seguintes artigos para saber mais -

  1. Guia para Integração de Dados Talend
  2. Perguntas importantes da entrevista com o Talend
  3. Talend vs Mulesoft: Diferenças
  4. Talend vs Pentaho: 8 comparações úteis para aprender