Introdução à Integração de Dados Talend
A integração de dados Talend significa combinar dados de diferentes fontes e combiná-los em uma única exibição para obter alguns dados significativos daqueles que podem ajudar a empresa ou organização a melhorar seus negócios analisando esses dados. A integração ajuda a obter dados, limpando os dados, fazendo algumas transformações necessárias, etc, e depois carregando-os em um data warehouse.
O que é a integração de dados do Talend?
- O Talend é uma ferramenta ETL usada para integração de dados. O Talend fornece uma solução para preparação de dados, qualidade dos dados, integração de dados e big data.
- O Talend oferece o Open Studio, um código aberto para integração de dados e big data.
- O Talend open studio ajuda a lidar com grandes dados com componentes de grande volume de dados. Possui mais de 800 componentes para diversos fins de integração. Aqui discutiremos alguns dos componentes. Para facilitar, veja o exemplo abaixo
- Um operador de sim possui muitos dados sobre planos, clientes, detalhes de sim, etc. Esses dados são enormes e, portanto, o big data também é usado na integração.
Cliente A comprando um sim usando um ID do governo.
Dando o nome dele: AB C
Endereço como: Chennai, Chennai
Número de telefone: 1234567890
Após a integração de dados
Primeiro nome: AB
Sobrenome: C
Endereço: Chennai, Índia
Número de telefone: +911234567890
Aqui, os dados são limpos e transformados em algo mais significativo.
Benefícios da integração de dados
Aqui discutiremos os benefícios da integração de dados.
- Analisando tendências de negócios usando a integração de dados
- Combinando dados em um único sistema
- Economia de tempo e mais eficiência e menos retrabalho
- Geração fácil de relatórios - usada pelas ferramentas de BI
- Manutenção e inserção de dados no data warehouse e data marts
Aplicação de Integração de Dados Talend
Aqui discutiremos a aplicação da integração de dados do Talend.
1. Trabalhando com o Talend
- Certifique-se de ter o java instalado e as variáveis de ambiente definidas.
- Faça o download do código-fonte aberto no site da Talend e instale o software.
- Crie um novo projeto e termine a instalação
- O Talend será aberto com a guia Designer.
- O Talend é uma ferramenta baseada em eclipse e os componentes podem ser arrastados da paleta ou você pode clicar e digitar o nome dos componentes.
2. Primeiro trabalho lendo um arquivo
- Procure o componente tFileinputdimited. Este componente é usado para ler arquivos delimitados.
- Coloque o componente tFileinputdelimited. Pesquise tLogRow e coloque-o no designer de tarefas.
- Clique com o botão direito do mouse em tFileinputdimimited e selecione row-> main e desenhe uma linha para tLogRow.
- No componente, a guia seleciona o caminho do arquivo que você deseja ler e fornece o separador de linhas como \ n. Se o arquivo tiver delimitador, você poderá mencionar o delimitador.
- Clique no esquema e forneça os detalhes do tipo de coluna ou é possível ler a linha inteira, pois uma sequência com um valor de coluna e delimitador deve estar vazia.
- Você também pode pular o cabeçalho e rodapé.
- No componente tLogRow, selecione a maneira como deseja ver os dados. Formato de tabela ou formato de linha única.
- tLogRow exibe a saída no console de execução.
- Depois de conectar o tFileinputdelimited e o tLogRow, execute o trabalho na guia Executar.
- Você pode ver o conteúdo do arquivo no console impresso.
3. Segundo trabalho usando o Tmap
- Leia um arquivo e filtre-o em diferentes arquivos de saída.
- Leia um arquivo no componente delimitado por tFileinput com um esquema de coluna como um registro.
- Componente Tmap - Esse componente ajuda na transformação de dados com algumas funções embutidas, como pesquisa, junções etc.
- No tmap, crie duas saídas out1 e out2.
- No filtro out1, adicione record.contains ("talend") e desenhe o registro para out1.
- Desenhe a linha de registro para outra saída2.
- No tmap, pegue as linhas principais e conecte-se a dois tFileoutputdelimited.
- link out1 para um tfileoutputdelimited1 como arquivo1.txt e out2 para outro tfileoutputdelimited2 como arquivo2.txt.
- O txt terá registros que contêm talentos.
- O txt terá registros com outros nomes.
4. Integrado e Repositório
- Integrado significa que você deve definir o esquema ou os detalhes para se conectar a um banco de dados todas as vezes.
- O repositório é útil para salvar os detalhes nos metadados, para que você possa reutilizar os mesmos detalhes todas as vezes sem inserir os detalhes manualmente. Nos metadados, você pode salvar o esquema do arquivo, as conexões com o banco de dados, a conexão Hadoop, a conexão hive, a conexão s3 e muito mais.
Componentes da integração de dados do Talend
Aqui discutiremos os componentes do Talend Data Integration.
1. tFileList: Este componente lista os arquivos em um diretório ou pasta com um determinado padrão de máscara de arquivo.
2. tMysqlConnection: Este componente é usado para conectar-se ao banco de dados MySQL. Os componentes do Mysql podem usar essa conexão para facilitar a configuração da conexão com o banco de dados.
3. tMysqlInput: Este componente ajuda a executar uma consulta ao banco de dados mysql e obter a tabela ou colunas. Este componente é usado para selecionar consultas e obter os detalhes.
4. tMysqlOutput: este componente é usado para inserir ou atualizar dados no banco de dados Mysql.
5. tPrejob: Este componente é o primeiro a ser executado no trabalho e pode ser conectado a outros componentes com o Subjob ok.
6. tPostjob: este componente é o último a ser executado no trabalho. Você pode conectar isso aos componentes de conexão próxima.
7. tLogcatcher: Este componente captura o aviso e os erros no trabalho. Este é o componente mais importante usado na técnica de tratamento de erros. Os logs de erro podem ser gravados usando esse componente junto com tfileoutputdelimited. Existem mais de 800 + componentes.
8. Variável de contexto: variáveis de contexto são variáveis que podem ser usadas no trabalho em qualquer lugar. Ele mantém valores e pode ser passado para outro trabalho também usando componentes tRun. Os usos das variáveis de contexto são que podemos alterar o valor para diferentes propósitos. Por exemplo, podemos ter um conjunto de valores para o grupo de contexto de desenvolvimento e um conjunto diferente de valores de contexto para produção. Dessa forma, não precisamos alterar o trabalho, basta alterar os parâmetros de contexto.
9. Construindo um trabalho: Para criar um trabalho, clique com o botão direito do mouse no trabalho e selecione um trabalho de construção. Você pode importar o trabalho de construção no TAC. No Talend Administration Console, você agende um trabalho para acionar também a dependência do conjunto de trabalhos. Você também pode importar o trabalho do repositório Nexus usando um trabalho de artefato.
10. Crie uma tarefa no TAC: Abra o condutor de tarefas no TAC. Clique em novas tarefas e selecione tarefas normais ou de artefato. Importe o trabalho de criação ou selecione no nexus. Selecione o servidor de trabalho no qual o talento será executado. Salve a tarefa. Agora você pode implantar e executar o trabalho.
Conclusão
- “Simplifique o ETL e o ELT com a principal ferramenta de ETL gratuita de código aberto para big data.” É o slogan do estúdio aberto.
- O Talend Bigdata possui muitos componentes para lidar com grandes dados.
- Trabalho padrão, trabalho Bigdata, trabalhos de streaming Bigdata são os diferentes tipos de trabalhos disponíveis no Talend.
- Trabalhos de bigdata podem ser criados em uma faísca ou estrutura MapReduce.
Artigo recomendado
Este é um guia para a integração de dados do Talend. Aqui discutimos a introdução ao Talend Data Integration e os benefícios, juntamente com aplicativos e componentes. Você também pode consultar nossos outros artigos sugeridos para saber mais
- Ferramenta de Integração de Dados | As 12 melhores ferramentas
- Perguntas e respostas da entrevista do Talend
- Melhores ferramentas de visualização de dados com seus tipos
- Talend vs Mulesoft - Diferenças
- O que é o Data Mart?