Introdução à Correlação

Entender o conceito de correlação é crucial para trabalhar com Data Science

Em uma análise complexa, é normal trabalharmos com um dataset que possua algumas dezenas de campos (colunas) e milhares de amostras(linhas).

Algumas colunas do dataset serão relacionadas com outras, afinal foram coletadas do mesmo evento. Um desses campos do registro pode afetar ou não o valor de outro campo, ou seja, quando um campo aumenta de valor, vai influenciar o valor do outro, seja para aumentar ou diminuir o seu quantitativo nominal.

Para examinar esse tipo de relacionamento entre colunas, precisamos analisar as causas e efeitos entre eles. Será que existem dependências entre essas variáveis?

A força do relacionamento entre duas colunas em um dataset é chamado de correlação, representada por um valor numérico entre -1 e 1.

É a medida de relacionamento mútuo entre duas variáveis, sejam causais ou não. Correlação pode existir entre quaisquer tipos de dados (contínuos ou categóricos). Apesar de representar um relacionamento mútuo, correlação não é sinônimo de causalidade.

Pode ser útil em alguns casos, como o exemplo clássico do Sorvete. O produto é mais vendido em dias quentes. Ou seja, quanto maior a temperatura, maior o número de vendas de sorvete. Adicionalmente, se a relação entre essas variáveis é forte o suficiente, então nós podemos realizar previsões de comportamentos futuros.

Por exemplo, altura e peso são ambos relacionados; isto é, pessoas altas tendem a ser mais pesadas que pessoas baixas. Se surgir uma nova pessoa que é mais alta que a média das pessoas observadas até agora, então é bem provável que ela pese mais que a média das pessoas já observadas.

Correlação nos diz como as variáveis mudam em conjunto, ambas para a mesma direção ou em direções opostas, e a magnitude dessa relação. Antes de mostrarmos o cálculo da correlação, precisamos entender o cálculo da covariância.

Em estatística, a covariância é a medida de associação entre uma variável X e Y. Para ser exato, mede a relação de tendência linear entre as variáveis, sendo calculada da seguinte forma:

É calculado subtraindo cada item da variável pelo sua média (centralizando os dados). Faz-se o produto entre esses dois valores centralizados. Por fim, calcula-se o valor esperado(E), essa variável é calculada em termos da média (μ).

O problema da covariância é que o resultado pode ficar em qualquer escala a depender dos valores de X e Y. Isso dificulta a comparação entre dois elementos diferentes.

Por exemplo, Cov (X, Y) = 7 e Cov (A, B) = 5 nos diria que os elementos são positivamente associados, mas não poderíamos afirmar que X e Y possuem uma covariância mais forte que A e B.

Por isso a correlação torna-se uma medida mais útil, pois padroniza a variação da covariância, permitindo uma interpretação intuitiva e em escala consistente.

Coeficiente de Pearson

O coeficiente de pearson é um dos mais usados para cálculo da correlação. É a medida linear entre X e Y e varia entre -1 e 1.

É calculado dividindo-se a covariância pelo produto do desvio padrão de X(σX) e Y(σY).

Notando que a parte de cima da equação é exatamente a equação de covariância, podemos simplificar a fórmula com a equação abaixo:

A divisão pelo desvio padrão faz com que os dados fiquem entre o intervalo -1 e 1. Isso permite a comparação entre diversas variáveis, pois toda correlação ficará no mesmo intervalo.

Quando o coeficiente é próximo de 1, significa que há uma correlação positiva entre as variáveis X e Y. Uma correlação positiva indica que quando uma variável aumenta, a outra também aumenta. Por outro lado, quando mais perto de -1, a correlação é negativa. Ou seja, se uma variável aumenta, a outra diminui, e vice versa. Dizemos que X e Y são independentes quando o coeficiente de correlação é próximo de 0.

Utilizando scatter plots, podemos demonstrar alguns casos de como uma variavel é afetada por outra.

Com a experiência, ao plotar graficamente duas variáveis, já conseguimos estimar mais ou menos se há algum tipo de correlação ou não.

Exemplo de Correlação

Imagine que você emprestou dinheiro para uma empresa chamada ABC, com a promessa de pagar 5% ao ano de juros durante 10 anos(esse produto no Brasil é chamado de debenture). Depois de 5 anos, a empresa começa a ter prejuízos. Preocupado com o seu dinheiro, você faz um seguro na companhia XYZ, buscando se proteger da falência da empresa ABC.

Agora assuma que todos que emprestaram dinheiro para a empresa ABC também fizeram o seguro na XYZ.

O que acontecerá se a empresa ABC for a falência?

Se a empresa ABC falir, todos os segurados procurarão a empresa XYZ atrás do seguro. Por conseguência, a empresa XYZ acabrá indo a falência também.

Nesse caso, há uma correlação positiva entre a probabilidade de falência entre as empresas ABC e XYZ, pois os negócios são fortemente relacionados.

Esse tipo de situação é bem comum em negócios com fornecedores e consumidores. Por exemplo, vamos imaginar que as locadoras de automóveis são um dos maiores clientes das montadoras. Imaginem que uma nova regulamentação ou uma grande pandemia afeta o negócio de locação de automóveis e turismo. O que ocorrerá com o negócio das montadoras (FIAT, FORD, Honda e etc)

Entendido o conceito de correlação e a sua importância na hora de trabalhar com dados. Devemos ficar atentos com a indução ao erro. Será que toda variável com alta correlação está diretamente ligada uma na outra? Existe o que chamamos de causa e efeito?

Cenas de próximos artigos.

Nos siga em @aprendadatascience para mais informações.