Covariância
Em teoria da probabilidade e na estatística, a covariância, ou variância conjunta, é uma medida do grau de interdependência (ou inter-relação) numérica entre duas variáveis aleatórias[1]. Assim, variáveis independentes têm covariância zero.
A covariância é por vezes chamada de medida de dependência linear entre as duas variáveis aleatórias.
Índice
1 Definição formal
2 Prova matemática
3 Propriedades da Covariância
4 Relação entre variância e covariância
5 Outras nomenclaturas
6 Exemplo de cálculo de covariância populacional
7 Referências
Definição formal |
A covariância ou variância conjunta é um momento conjunto de primeira ordem das variáveis aleatórias X e Y, centrados nas respectivas médias. É a média do grau de interdependência ou inter-relação numérica linear entre elas[1].
Se a variável for discreta, a covariância pode ser calculada de duas formas:
cov(X,Y)=∑i=1n[(xi−μix)(yi−μiy)p(xi,yi)]{displaystyle operatorname {cov} (X,Y)=sum _{i=1}^{n}left[left(x_{i}-mu _{i}^{x}right)left(y_{i}-mu _{i}^{y}right)p(x_{i},y_{i})right]}, onde p(xi,yi){displaystyle p(x_{i},y_{i})} é a frequência relativa (ou probabilidade de ocorrer o par (xi,yi){displaystyle (x_{i},y_{i})} e μivar{displaystyle mu _{i}^{var}} é a média para os valores da variável indicada.- cov(X,Y)=1n[∑i=1nxiyi−1n(∑i=1nxi)(∑i=1nyi)]{displaystyle operatorname {cov} (X,Y)={frac {1}{n}}left[sum _{i=1}^{n}x_{i}y_{i}-{frac {1}{n}}left(sum _{i=1}^{n}x_{i}right)left(sum _{i=1}^{n}y_{i}right)right]}
Prova matemática |
Em teoria da probabilidade e na estatística, a covariância entre duas variáveis aleatórias reais X e Y, com valores esperados E(X)=μX{displaystyle operatorname {E} (X)=mu _{X}} e E(Y)=μY{displaystyle operatorname {E} (Y)=mu _{Y}} é definida como uma medida de como duas variáveis variam conjuntamente:
- cov(X,Y)=E[(X−μX)(Y−μY)],{displaystyle operatorname {cov} (X,Y)=operatorname {E} [(X-mu _{X})(Y-mu _{Y})],,}
onde E(){displaystyle E()} é o operador do valor esperado[2]. Desenvolvendo a expressão para a Covariância, temos:
- cov(X,Y)=E[(X−μX)(Y−μY)]{displaystyle operatorname {cov} (X,Y)=operatorname {E} [(X-mu _{X})(Y-mu _{Y})]}
cov(X,Y)=E[(X−E(X))(Y−E(Y))]{displaystyle operatorname {cov} (X,Y)=operatorname {E} [(X-operatorname {E} (X))(Y-operatorname {E} (Y))]}
cov(X,Y)=E[XY−XE(Y)−YE(X)+E(X)E(Y)]{displaystyle operatorname {cov} (X,Y)=operatorname {E} [XY-Xoperatorname {E} (Y)-Yoperatorname {E} (X)+operatorname {E} (X)operatorname {E} (Y)]}
Usando a propriedade de que a Esperança (Valor esperado) de uma variável aleátória X qualquer é um operador linear, determinamos que a Esperança de uma soma é a soma das Esperanças:
- cov(X,Y)=E(XY)−E[XE(Y)]−E[YE(X)]+E[E(X)E(Y)] {displaystyle operatorname {cov} (X,Y)=operatorname {E} (XY)-operatorname {E} [Xoperatorname {E} (Y)]-operatorname {E} [Yoperatorname {E} (X)]+operatorname {E} [operatorname {E} (X)operatorname {E} (Y)] }
Novamente utilizando da linearidade da Esperança, temos que a Esperança de uma constante K qualquer multiplicada pela variável X é equivalente à constante K multiplicada pela Esperança da variável X. Sendo a Esperança de X um número qualquer definido no conjunto dos Números Reais, podemos fatorá-la em dois fatores:
cov(X,Y)=E(XY)−E(Y)E(X)−E(X)E(Y)+E(X)E(Y){displaystyle operatorname {cov} (X,Y)=operatorname {E} (XY)-operatorname {E} (Y)operatorname {E} (X)-operatorname {E} (X)operatorname {E} (Y)+operatorname {E} (X)operatorname {E} (Y)}
Isto equivale à seguinte fórmula, a qual é geralmente usada para fazer os cálculos[2]:
- cov(X,Y)=E(XY)−E(X)E(Y){displaystyle operatorname {cov} (X,Y)=operatorname {E} (XY)-operatorname {E} (X)operatorname {E} (Y),}
Se X e Y são independentes, então a sua covariância é zero. Isto acontece porque sob independência[2]:
E(XY)=E(X)E(Y)=μXμY{displaystyle E(XY)=operatorname {E} (X)operatorname {E} (Y)=mu _{X}mu _{Y}}.
Assim:
- cov(X,Y)=E(XY)−E(X)E(Y){displaystyle operatorname {cov} (X,Y)=operatorname {E} (XY)-operatorname {E} (X)operatorname {E} (Y),}
- cov(X,Y)=E(X)E(Y)−E(X)E(Y){displaystyle operatorname {cov} (X,Y)=operatorname {E} (X)operatorname {E} (Y)-operatorname {E} (X)operatorname {E} (Y)}
- cov(X,Y)=0{displaystyle operatorname {cov} (X,Y)=0}
O inverso, no entanto, não é verdadeiro: é possível que X e Y não sejam independentes e terem no entanto covariância zero[2]. Variáveis aleatórias cuja covariância é zero são chamadas descorrelacionadas.
Propriedades da Covariância |
Se X e Y são variáveis aleatórias de valor real e a, b, c e d constantes ("constante", neste contexto significa não aleatória), então os seguintes factos são uma consequência da definição da covariância[2]:
- cov(X,X)=var(X){displaystyle operatorname {cov} (X,X)=operatorname {var} (X),}
- cov(X,Y)=cov(Y,X){displaystyle operatorname {cov} (X,Y)=operatorname {cov} (Y,X),}
- cov(aX+b,cY+d)=a c cov(X,Y){displaystyle operatorname {cov} (aX+b,cY+d)=a c operatorname {cov} (X,Y),}
- cov(∑iXi,∑jYj)=∑i∑jcov(Xi,Yj){displaystyle operatorname {cov} left(sum _{i}{X_{i}},sum _{j}{Y_{j}}right)=sum _{i}{sum _{j}{operatorname {cov} left(X_{i},Y_{j}right)}},}
Para variáveis aleatórias em vetores coluna X e Y com respectivos valores esperados μX e μY, e n e m de componentes escalares respectivamente, a covariância é definida como matriz n×m
- cov(X,Y)=E((X−μX)(Y−μY)⊤).{displaystyle operatorname {cov} (X,Y)=operatorname {E} ((X-mu _{X})(Y-mu _{Y})^{top }).,}
Para variáveis aleatórias em vetor, cov(X, Y) e cov(Y, X) são a transposta de cada um.
Relação entre variância e covariância |
A covariância entre duas variáveis pode ser obtida de dados de variância[1]. Para variáveis aleatórias X e Y, sejam:
var(X){displaystyle operatorname {var} (X),} é a variância populacional de X
var(Y){displaystyle operatorname {var} (Y),} é a variância populacional de Y
var(X+Y){displaystyle operatorname {var} (X+Y),} é a variância populacional de uma variável obtida a partir da soma simples das variáveis X e Y.- "a" e "b" são constantes
Então, teremos:
- cov(X,Y)=var(aX+bY)−a2var(X)−b2var(Y)2ab{displaystyle operatorname {cov} (X,Y)={frac {operatorname {var} (aX+bY)-a^{2}operatorname {var} (X),-b^{2}operatorname {var} (Y),}{2ab}}}
Outras nomenclaturas |
A covariância é por vezes chamada de medida de dependência linear entre as duas variáveis aleatórias.
O Coeficiente de Correlação Linear é um conceito relacionado usado para medir o grau de dependência linear entre duas variáveis, variando entre -1 e 1, indicando o sentido da dependência.
Exemplo de cálculo de covariância populacional |
Seja X a variável "altura dos jogadores de basquete" e seja Y a variável "peso dos mesmos atletas". A partir desses dados, é possível montar uma tabela com os desvios em relação a média. Essa tabela auxilia no cálculo da covariância[1]:
Atleta | Variável X (altura em metros) | Variável Y (peso em kg) | Desvio de X (valor menos média da variável) | Desvio de Y (valor menos média da variável) | Multiplicação dos desvios |
---|---|---|---|---|---|
1) Pedro | 1,95 | 93,1 | -0,038 | -1,34 | -0,038*-1,34=-+0,05092 |
2) João | 1,96 | 93,9 | -0,028 | -0,54 | -0,028*-0,54=+0,01512 |
3) José | 1,95 | 89,9 | -0,038 | -4,54 | -0,038*-4,54=+0,17252 |
4) Renato | 1,98 | 95,1 | -0,008 | +0,66 | -0,008*0,66=-0,00528 |
5) André | 2,10 | 100,2 | +0,112 | +5,76 | 0,112*5,76=0,64512 |
Soma | ∑x=1Nx{displaystyle {color {Red}sum _{x=1}^{N}x}}= 1,95+1,96+...+2,10=9,94 | ∑y=1Ny{displaystyle {color {Sepia}sum _{y=1}^{N}y}}=472,2{displaystyle =472{,}2} | A soma de desvios é sempre igual a zero | A soma de desvios é sempre igual a zero | +0,05092+0,01512+0,17252-0,00528+0,64512=0,8784. |
Número de elementos | N = 5 alturas medidas | N = 5 pesos medidos | 5 desvios calculados | 5 desvios calculados | 5 multiplicações feitas |
Média | ∑x=1NxN{displaystyle {frac {color {Red}sum _{x=1}^{N}x}{N}}}=9,945=1,988{displaystyle ={frac {9{,}94}{5}}=1{,}988} | ∑y=1NyN{displaystyle {dfrac {color {Sepia}sum _{y=1}^{N}y}{N}}}=472,25=94,44{displaystyle ={frac {472,2}{5}}=94{,}44} | A média de desvios é sempre igual a zero | A média de desvios é sempre igual a zero | 0,8784/(5-1)=0,2196=covariância de X e Y |
Referências
↑ abcd MILONE, Giuseppe. Estatística geral e aplicada. São Paulo: Centage Learning, 2009. Capítulo 4
↑ abcde Covariance, site do Department of Mathematical Sciences da University of Alabama in Huntsville