O que é o Data Analytics?
O Data Analytics é um processo de descoberta de informações importantes e conclusões valiosas de uma enorme quantidade de dados coletados ou coletados de várias fontes para apoiar a tomada de decisão. Maior poder computacional, alta velocidade de processamento. O advento das interfaces interativas do usuário final e a eficiência comprovada do paradigma da computação distribuída para lidar com grandes quantidades de dados fizeram com que a análise de dados avançasse em todos os domínios, com destaque em varejo, bancos, assistência médica, logística, defesa, administração pública etc.
Tipos de análise de dados
O processo de análise de dados é subjetivamente categorizado em três tipos, com base no objetivo de analisar dados como
- Análise descritiva
- Análise preditiva
- Análise prescritiva
Os recursos dos tipos de análise listados acima estão descritos abaixo:
1. Análise Descritiva
A Análise descritiva se concentra em resumir dados passados para derivar inferências. As medidas mais comumente usadas para caracterizar quantitativamente a distribuição de dados históricos incluem
- Medidas de tendência central - média, mediana, quartis, modo.
- Medidas de variabilidade ou dispersão - Faixa, Faixa interquartil, Percentis.
Nos últimos tempos, as dificuldades e limitações envolvidas para coletar, armazenar e compreender grandes quantidades de dados são superadas com o processo de inferência estatística. Inferências generalizadas sobre estatísticas de conjuntos de dados populacionais são deduzidas usando métodos de amostragem juntamente com a aplicação da teoria de limitação central.
Uma importante emissora de notícias reúne detalhes dos votos dos eleitores escolhidos aleatoriamente na saída de uma seção de votação no dia da eleição para obter inferências estatísticas sobre as preferências de toda a população.
A amostragem repetida do conjunto de dados da população resulta em pedaços de amostras com tamanho de amostra suficientemente grande. A amostragem em cluster é geralmente preferida para gerar representantes imparciais e bem estratificados do conjunto de dados da população. A medida estatística de interesse é calculada nos blocos de dados amostrados para obter uma distribuição dos valores estatísticos da amostra denominada distribuição amostral. As características da distribuição amostral estão relacionadas às do conjunto de dados da população usando a teoria de limitação central.
2. Análise Preditiva
O Predictive Analytics explora padrões em dados históricos ou passados para estimar resultados futuros, identificar tendências, descobrir riscos e oportunidades potenciais ou prever o comportamento do processo. Como os casos de uso de previsão são de natureza plausível, essas abordagens empregam modelos probabilísticos para medir a probabilidade de todos os resultados possíveis.
O chatBot no Portal de Atendimento ao Cliente da empresa financeira proativamente aprende a intenção dos clientes ou precisa se basear em suas atividades anteriores em seu domínio da web. Com o contexto previsto, o chatBot conversa interativamente com o cliente para fornecer serviços adequados rapidamente e alcançar melhor satisfação do cliente.
Além dos cenários de extrapolação para prever o que acontece no futuro com base nos dados passados disponíveis, existem poucos aplicativos que calculam entradas de dados perdidas com a ajuda das amostras de dados disponíveis. Essa aproximação de valores perdidos dentro do intervalo de amostras de dados é tecnicamente chamada de Interpolação.
Um poderoso aplicativo de editor de imagens suporta a reconstrução de partes perdidas da textura devido ao texto super imposto, interpolando a função do recurso no bloco perdido. A função de recurso pode ser interpretada como uma notação matemática de padrões na textura de uma imagem distorcida.
Os fatores significativos que influenciam a escolha de modelos / estratégias preditivos são:
- Precisão da previsão: transmite o grau de proximidade entre um valor previsto e o valor real. Uma variação menor da diferença entre o valor previsto e o valor real implica em uma precisão mais alta do modelo preditivo.
- Velocidade das previsões: tem alta prioridade em aplicativos de rastreamento em tempo real
- Taxa de Aprendizagem do Modelo: Depende da complexidade e dos cálculos do modelo envolvidos no cálculo dos parâmetros do modelo.
3. Análise prescritiva
A Análise prescritiva usa o conhecimento descoberto como parte da análise descritiva e preditiva para recomendar um curso de ações com reconhecimento de contexto. Técnicas estatísticas avançadas e métodos de otimização intensivos em computação são implementados para entender a distribuição das previsões estimadas.
Em termos precisos, o impacto e o benefício de cada resultado, que são estimados durante a análise preditiva, são avaliados para tomar decisões heurísticas e sensíveis ao tempo para um determinado conjunto de condições.
Uma empresa de consultoria do mercado de ações realiza análises SWOT (Força, Fraqueza, Oportunidades e Ameaças) sobre os preços previstos para ações do portfólio de investidores e recomenda as melhores opções de Compra e Venda para seus clientes.
Fluxo do processo no Data Analytics
O processo de análise de dados possui vários estágios de processamento de dados, conforme explicado abaixo:
1. Extração de Dados
A ingestão de dados de várias fontes de dados de vários tipos, incluindo páginas da Web, bancos de dados, aplicativos herdados, resulta em conjuntos de dados de entrada de diferentes formatos. Os formatos de dados inseridos no fluxo de análise de dados podem ser amplamente classificados como
- Os dados estruturados têm uma definição clara de tipos de dados, juntamente com o comprimento do campo associado ou delimitadores de campo. Esse tipo de dados pode ser consultado facilmente, como o conteúdo armazenado no banco de dados relacional (RDBMS)
- Os dados semiestruturados não possuem definição precisa de layout, mas os elementos de dados podem ser identificados, separados e agrupados com base em um esquema padrão ou em outras regras de metadados. Um arquivo XML emprega a marcação para manter os dados, enquanto o arquivo JSON (Notação do objeto Javascript) mantém os dados em pares nome-valor. Os bancos de dados NoSQL (não apenas SQL) como o MongoDB, mas o couch base também são usados para armazenar dados semiestruturados.
- Os dados não estruturados incluem conversas em mídias sociais, imagens, clipes de áudio etc. Os métodos tradicionais de análise de dados não conseguem entender esses dados. Dados não estruturados são armazenados em lagos de dados.
A implementação de análise de dados para dados estruturados e semiestruturados é incorporada em várias ferramentas de ETL, como Ab Initio, Informatica, Datastage e alternativas de código aberto, como o Talend.
2. Limpeza e Transformação de Dados
A limpeza dos dados analisados é feita para garantir a consistência e a disponibilidade dos dados relevantes para os estágios posteriores do fluxo do processo. As principais operações de limpeza na análise de dados são:
- Detecção e eliminação de outliers nos volumes de dados
- Removendo duplicatas no conjunto de dados
- Manipulação de entradas ausentes nos registros de dados com o entendimento de funcionalidade ou casos de uso
- As validações para valores de campo permitidos em registros de dados como "31 de fevereiro" não podem ser um valor válido em nenhum dos campos de data.
Os dados limpos são transformados em um formato adequado para analisar os dados. As transformações de dados incluem
- Um filtro de registros de dados indesejados.
- Juntar os dados buscados de diferentes fontes.
- Agregação ou agrupamento de dados
- Tipografia de dados
3. Derivação de KPI / Insight
Mineração de dados, métodos de aprendizado profundo são usados para avaliar os principais indicadores de desempenho (KPI) ou obter informações valiosas dos dados limpos e transformados. Com base no objetivo da análise, a análise de dados é realizada usando várias técnicas de reconhecimento de padrões, como cluster de k-means, classificação SVM, classificadores bayesianos etc.
Os modelos probabilísticos na fase de treinamento aprendem os parâmetros ideais do modelo e, na fase de validação, o modelo é testado usando testes de validação cruzada k-fold para evitar erros de ajuste excessivo ou insuficiente.
A linguagem de programação mais usada para análise de dados é R e Python. Ambos possuem um rico conjunto de bibliotecas (SciPy, NumPy, Pandas) que são de código aberto para realizar análises de dados complexas.
4. Visualização de Dados
A visualização de dados é o processo de apresentação clara e eficaz de padrões descobertos, conclusões derivadas dos dados usando gráficos, plotagens, painéis e gráficos.
- As ferramentas de relatório de dados, como QlikView, Tableau etc., exibem KPI e outras métricas derivadas em vários níveis de granularidade.
- As ferramentas de relatório permitem que os usuários finais criem relatórios personalizados com opções dinâmicas de drill-down usando interfaces de arrastar e soltar fáceis de usar
- Bibliotecas interativas de visualização de dados como D3.js (documentos controlados por dados), HTML5-Anycharts etc. são usadas para aumentar a capacidade de explorar dados analisados
Artigos recomendados
Este foi um guia para o que é o Data Analytics. Aqui discutimos os diferentes tipos de análise de dados com o fluxo do processo. Você também pode consultar outros artigos sugeridos para saber mais -
- Perguntas e respostas da entrevista do analista de dados
- O que é visualização de dados?
- O que é análise de Big Data?
- O que é o Minitab?