Introdução à entrevista com o engenheiro de dados Perguntas e respostas

Engenharia de dados é um termo em que todos estão cientes disso e é bastante popular no campo do Big Data. A engenharia de dados refere-se à infraestrutura de dados ou arquitetura de dados. Os dados brutos gerados a partir de diferentes fontes, como mídias sociais, telefones celulares, www (internet), precisam ser transformados, limpos, analisados ​​e agregados para as necessidades de negócios. Esses dados brutos também são denominados dados escuros. A prática de projetar, arquitetar e implementar o sistema de processo de dados ajuda a converter os dados em uma informação ou conjunto de dados apropriado, tal informação ou conjunto de dados é denominado Engenharia de Dados.

Abaixo está a lista das principais perguntas e respostas da entrevista para o engenheiro de dados de 2019:

Se você estiver procurando um emprego relacionado ao Data Engineer, precisará se preparar para as perguntas da entrevista do Data Engineer 2019. Embora todas as perguntas da entrevista do engenheiro de dados sejam diferentes e o escopo de um trabalho também seja diferente, podemos ajudá-lo com as principais perguntas da entrevista do engenheiro de dados com respostas, que ajudarão você a dar o salto e obter seu sucesso na entrevista do engenheiro de dados.

1. O que é engenharia de dados?

Responda:
Engenharia de dados é um termo bastante popular no campo de Big Data e refere-se principalmente à infraestrutura de dados ou arquitetura de dados.
Os dados gerados por muitas fontes, como mídias sociais, telefones celulares, www (internet), são dados brutos. Ele precisa ser transformado, limpo, com perfil e agregado para as necessidades de negócios. Podemos chamar esses dados brutos como Dados Escuros, nos quais iluminaremos a luz para tornar esses Dados Escuros úteis. A prática de projetar, arquitetar e implementar o sistema de processo de dados que ajudará a converter os dados em informações úteis é chamada de Engenharia de Dados.

2. Explique o trabalho diário de um engenheiro de dados?

Responda:
O trabalho diário do engenheiro de dados consiste em:
uma. manipulação de gerenciamento de dados dentro da organização
b. manipulação e manutenção de sistemas de origem de áreas de dados e preparação
c. fazendo ETL ou ELT e transformação de dados
d. simplificando a limpeza de dados e aprimorando a desduplicação e construção de dados
e fazendo construção e extração de consulta de dados ad-hoc
Veja abaixo a visualização informando as coisas nas quais um engenheiro de dados trabalha:

3. Você tem experiência com modelagem de dados?

Responda:
Pode-se dizer que ele trabalhou em um projeto para um cliente de finanças / saúde, onde eles usaram ferramentas ETL como Informatica / Talend / Pentaho etc. para transformar e processar os dados buscados em um banco de dados MySQL / RDS / SQL e envia forneça essas informações aos fornecedores que podem ajudar a aumentar suas receitas. Pode-se mostrar abaixo a arquitetura de alto nível do modelo de dados. Consiste em uma chave primária, entidade, atributos, relacionamento, restrições etc.

4. Quais são os diferentes tipos de esquemas de design no Data Modeling? Explique com um exemplo?

Responda:
Existem dois tipos de esquemas na modelagem de dados:
uma. Esquema em estrela
Esse esquema é dividido em dois, uma tabela de fatos e outra tabela de dimensões, em que todas as tabelas de dimensões são conectadas a uma tabela de fatos. A tabela de chave estrangeira de fato se refere às chaves primárias presentes nas tabelas de dimensão. Veja abaixo a arquitetura do esquema em estrela:

b. Esquema de floco de neve
Nesse esquema, o nível de normalização é aumentado; aqui a tabela de fatos permanecerá igual à do esquema em estrela; aqui as tabelas de dimensões são normalizadas. Devido a muitas camadas de tabelas de dimensões, parece um floco de neve, portanto, o nome do esquema do floco de neve. Veja abaixo a arquitetura: -

5. Qual ferramenta ETL você está usando e qual é a melhor comparação com outras?

Responda:
Pode-se dizer que ele / ela usou a Informatica como a ferramenta ETL por causa de muitos pontos, primeiro e acima de tudo, conforme o Quadrante Mágico do Gartner para Ferramentas de Integração de Dados, a Informatica está posicionada como líder pelo 10º ano consecutivo. É fácil de usar e aprender e possui recursos para conectar-se a uma variedade diferente de dados e tipos de dados de origem, componentes reutilizáveis ​​e recursos que o tornam o favorito dos desenvolvedores de ETL. Ele também possui seu próprio agendador, que é outra vantagem, onde outras ferramentas ETL precisam usar um agendador externo para agendar os trabalhos.

6. Quais tecnologias / linguagem de programação deve-se ter / Aprenda a ser um Engenheiro de Dados?

Responda:
Matemática (álgebra linear e probabilidade)
Estatísticas (estatísticas resumidas)
Técnicas de aprendizado de máquina
Idiomas R e SAS
Bancos de dados SQL, Hive QL
Python (usado principalmente)
Além disso, deve-se ter conhecimento de solução de problemas, analítico e arquitetural de banco de dados.

7. Quais são alguns dos problemas comuns enfrentados pelos engenheiros de dados?

Responda:
1. Integração em tempo real / integração contínua
2. Armazenamento Uma quantidade enorme de dados é um problema, as informações desses dados são outro problema.
3. Quais ferramentas podem ser usadas para obter o melhor desempenho, armazenamento, eficiência e resultados.
4. O armazenamento é escalável? Suponha como saber que, para processar todo o conjunto de dados, quanto tempo levará?
5. Considerando os processadores e a configuração de RAM
6. Como lidar com falhas, a tolerância a falhas existe ou não?

8. Como o arquiteto de dados é diferente do engenheiro de dados?

Responda:
O Data Architect é a pessoa que gerencia os dados, especialmente quando se lida com números diferentes de uma variedade de fontes de dados. Deve-se ter um conhecimento profundo de como um banco de dados funciona, como os dados se relacionam com problemas de negócios e como as alterações afetarão o uso de dados da organização e, em seguida, o arquiteto de dados manipulará / transformará a arquitetura de dados de acordo com eles.
A principal responsabilidade do arquiteto de dados é trabalhar no data warehousing, no desenvolvimento da arquitetura de dados ou no hub / armazém de dados corporativos.
Enquanto um engenheiro de dados ajuda na instalação de soluções de data warehouse, modelagem de dados, desenvolvimento e teste da arquitetura do banco de dados.

9. Descreva um momento em que você encontrou um novo caso de uso para o banco de dados existente que teve um impacto positivo nos negócios?

Responda:
Enquanto na era do Big Data, o SQL não possuir os recursos abaixo:
uma. Os RDBMS são DB orientado a esquema, portanto, é melhor para dados estruturados, não para dados semiestruturados ou não estruturados.
b. Não é capaz de processar dados imprevisíveis e não estruturados.
c. Não é escalável horizontalmente, ou seja, a execução e o armazenamento paralelos não são possíveis no SQL.
d. Ele sofre de problema de desempenho quando vários usuários aumentam.
e É usado principalmente para processamento transacional online.

Para superar essas desvantagens, podemos usar o NoSQL DB, ou seja, não apenas o SQL.
Assim, no projeto, é possível usar diferentes tipos de banco de dados NoSQL, como Cassandra, Mongo DB, Graph DB, HBase etc.

10. Você tem experiência trabalhando em um ambiente de computação em nuvem? Quais benefícios você vê trabalhando em um?

Responda:
Pode-se dizer que o Cloud Computing Environment está pronto para mudar o ambiente para produção, desenvolvimento e teste sem pensar em integrar muitas instâncias / Linux / servidores de janela. Existem vários serviços de computação em nuvem em um mercado como AWS (Amazon Web Services), Azure (Microsoft), GCP (Google Cloud Platform). O serviço de computação em nuvem fornece abaixo os recursos, como flexibilidade, ou seja, o ambiente aumentará conforme o requisito, recuperação de desastre ao fazer backups e instantâneos, trabalhe de qualquer lugar com VPNs, ambiente seguro e ecológico, pois trabalha em hardware comum, ou seja, computadores de uso geral que são de baixo custo.

Conclusão

No blog acima, mantivemos as perguntas mais frequentes sobre entrevista no Data Engineer e como responder a essa questão fornecendo pontos de destaque.

Artigo recomendado:

Este foi um guia abrangente para as perguntas e respostas da entrevista do engenheiro de dados, para que o candidato possa reprimir essas perguntas da entrevista do engenheiro de dados facilmente. este artigo consiste em todas as principais perguntas e respostas da entrevista do engenheiro de dados. Você também pode consultar os seguintes artigos para saber mais -

  1. Mais importantes Azure Paas vs Iaas
  2. Perguntas da entrevista sobre Big Data
  3. As 5 perguntas mais importantes da entrevista do Elasticsearch
  4. Perguntas e respostas da entrevista do PIG
  5. As 5 perguntas mais valiosas da entrevista sobre ciência de dados