Covariância









Question book-4.svg

Esta página ou secção cita fontes confiáveis e independentes, mas que não cobrem todo o conteúdo, o que compromete a verificabilidade (desde Dezembro de 2010). Por favor, insira mais referências no texto. Material sem fontes poderá ser removido.
Encontre fontes: Google (notícias, livros e acadêmico)


Em teoria da probabilidade e na estatística, a covariância, ou variância conjunta, é uma medida do grau de interdependência (ou inter-relação) numérica entre duas variáveis aleatórias[1]. Assim, variáveis independentes têm covariância zero.


A covariância é por vezes chamada de medida de dependência linear entre as duas variáveis aleatórias.




Índice






  • 1 Definição formal


  • 2 Prova matemática


  • 3 Propriedades da Covariância


  • 4 Relação entre variância e covariância


  • 5 Outras nomenclaturas


  • 6 Exemplo de cálculo de covariância populacional


  • 7 Referências





Definição formal |


A covariância ou variância conjunta é um momento conjunto de primeira ordem das variáveis aleatórias X e Y, centrados nas respectivas médias. É a média do grau de interdependência ou inter-relação numérica linear entre elas[1].


Se a variável for discreta, a covariância pode ser calculada de duas formas:




  • cov⁡(X,Y)=∑i=1n[(xi−μix)(yi−μiy)p(xi,yi)]{displaystyle operatorname {cov} (X,Y)=sum _{i=1}^{n}left[left(x_{i}-mu _{i}^{x}right)left(y_{i}-mu _{i}^{y}right)p(x_{i},y_{i})right]}{displaystyle operatorname {cov} (X,Y)=sum _{i=1}^{n}left[left(x_{i}-mu _{i}^{x}right)left(y_{i}-mu _{i}^{y}right)p(x_{i},y_{i})right]}, onde p(xi,yi){displaystyle p(x_{i},y_{i})}{displaystyle p(x_{i},y_{i})} é a frequência relativa (ou probabilidade de ocorrer o par (xi,yi){displaystyle (x_{i},y_{i})}(x_{i},y_{i}) e μivar{displaystyle mu _{i}^{var}}{displaystyle mu _{i}^{var}} é a média para os valores da variável indicada.

  • cov⁡(X,Y)=1n[∑i=1nxiyi−1n(∑i=1nxi)(∑i=1nyi)]{displaystyle operatorname {cov} (X,Y)={frac {1}{n}}left[sum _{i=1}^{n}x_{i}y_{i}-{frac {1}{n}}left(sum _{i=1}^{n}x_{i}right)left(sum _{i=1}^{n}y_{i}right)right]}{displaystyle operatorname {cov} (X,Y)={frac {1}{n}}left[sum _{i=1}^{n}x_{i}y_{i}-{frac {1}{n}}left(sum _{i=1}^{n}x_{i}right)left(sum _{i=1}^{n}y_{i}right)right]}



Prova matemática |


Em teoria da probabilidade e na estatística, a covariância entre duas variáveis aleatórias reais X e Y, com valores esperados E⁡(X)=μX{displaystyle operatorname {E} (X)=mu _{X}}{displaystyle operatorname {E} (X)=mu _{X}} e E⁡(Y)=μY{displaystyle operatorname {E} (Y)=mu _{Y}}{displaystyle operatorname {E} (Y)=mu _{Y}} é definida como uma medida de como duas variáveis variam conjuntamente:


cov⁡(X,Y)=E⁡[(X−μX)(Y−μY)],{displaystyle operatorname {cov} (X,Y)=operatorname {E} [(X-mu _{X})(Y-mu _{Y})],,}{displaystyle operatorname {cov} (X,Y)=operatorname {E} [(X-mu _{X})(Y-mu _{Y})],,}

onde E(){displaystyle E()}{displaystyle E()} é o operador do valor esperado[2]. Desenvolvendo a expressão para a Covariância, temos:


cov⁡(X,Y)=E⁡[(X−μX)(Y−μY)]{displaystyle operatorname {cov} (X,Y)=operatorname {E} [(X-mu _{X})(Y-mu _{Y})]}{displaystyle operatorname {cov} (X,Y)=operatorname {E} [(X-mu _{X})(Y-mu _{Y})]}


cov⁡(X,Y)=E⁡[(X−E⁡(X))(Y−E⁡(Y))]{displaystyle operatorname {cov} (X,Y)=operatorname {E} [(X-operatorname {E} (X))(Y-operatorname {E} (Y))]}{displaystyle operatorname {cov} (X,Y)=operatorname {E} [(X-operatorname {E} (X))(Y-operatorname {E} (Y))]}



cov⁡(X,Y)=E⁡[XY−XE⁡(Y)−YE⁡(X)+E⁡(X)E⁡(Y)]{displaystyle operatorname {cov} (X,Y)=operatorname {E} [XY-Xoperatorname {E} (Y)-Yoperatorname {E} (X)+operatorname {E} (X)operatorname {E} (Y)]}{displaystyle operatorname {cov} (X,Y)=operatorname {E} [XY-Xoperatorname {E} (Y)-Yoperatorname {E} (X)+operatorname {E} (X)operatorname {E} (Y)]}




Usando a propriedade de que a Esperança (Valor esperado) de uma variável aleátória X qualquer é um operador linear, determinamos que a Esperança de uma soma é a soma das Esperanças:




cov⁡(X,Y)=E⁡(XY)−E⁡[XE⁡(Y)]−E⁡[YE⁡(X)]+E⁡[E⁡(X)E⁡(Y)] {displaystyle operatorname {cov} (X,Y)=operatorname {E} (XY)-operatorname {E} [Xoperatorname {E} (Y)]-operatorname {E} [Yoperatorname {E} (X)]+operatorname {E} [operatorname {E} (X)operatorname {E} (Y)] }{displaystyle operatorname {cov} (X,Y)=operatorname {E} (XY)-operatorname {E} [Xoperatorname {E} (Y)]-operatorname {E} [Yoperatorname {E} (X)]+operatorname {E} [operatorname {E} (X)operatorname {E} (Y)] }



Novamente utilizando da linearidade da Esperança, temos que a Esperança de uma constante K qualquer multiplicada pela variável X é equivalente à constante K multiplicada pela Esperança da variável X. Sendo a Esperança de X um número qualquer definido no conjunto dos Números Reais, podemos fatorá-la em dois fatores:



cov⁡(X,Y)=E⁡(XY)−E⁡(Y)E⁡(X)−E⁡(X)E⁡(Y)+E⁡(X)E⁡(Y){displaystyle operatorname {cov} (X,Y)=operatorname {E} (XY)-operatorname {E} (Y)operatorname {E} (X)-operatorname {E} (X)operatorname {E} (Y)+operatorname {E} (X)operatorname {E} (Y)}{displaystyle operatorname {cov} (X,Y)=operatorname {E} (XY)-operatorname {E} (Y)operatorname {E} (X)-operatorname {E} (X)operatorname {E} (Y)+operatorname {E} (X)operatorname {E} (Y)}




Isto equivale à seguinte fórmula, a qual é geralmente usada para fazer os cálculos[2]:


cov⁡(X,Y)=E⁡(XY)−E⁡(X)E⁡(Y){displaystyle operatorname {cov} (X,Y)=operatorname {E} (XY)-operatorname {E} (X)operatorname {E} (Y),}{displaystyle operatorname {cov} (X,Y)=operatorname {E} (XY)-operatorname {E} (X)operatorname {E} (Y),}

Se X e Y são independentes, então a sua covariância é zero. Isto acontece porque sob independência[2]:



E(XY)=E⁡(X)E⁡(Y)=μY{displaystyle E(XY)=operatorname {E} (X)operatorname {E} (Y)=mu _{X}mu _{Y}}{displaystyle E(XY)=operatorname {E} (X)operatorname {E} (Y)=mu _{X}mu _{Y}}.

Assim:


cov⁡(X,Y)=E⁡(XY)−E⁡(X)E⁡(Y){displaystyle operatorname {cov} (X,Y)=operatorname {E} (XY)-operatorname {E} (X)operatorname {E} (Y),}{displaystyle operatorname {cov} (X,Y)=operatorname {E} (XY)-operatorname {E} (X)operatorname {E} (Y),}

cov⁡(X,Y)=E⁡(X)E⁡(Y)−E⁡(X)E⁡(Y){displaystyle operatorname {cov} (X,Y)=operatorname {E} (X)operatorname {E} (Y)-operatorname {E} (X)operatorname {E} (Y)}{displaystyle operatorname {cov} (X,Y)=operatorname {E} (X)operatorname {E} (Y)-operatorname {E} (X)operatorname {E} (Y)}

cov⁡(X,Y)=0{displaystyle operatorname {cov} (X,Y)=0}{displaystyle operatorname {cov} (X,Y)=0}

O inverso, no entanto, não é verdadeiro: é possível que X e Y não sejam independentes e terem no entanto covariância zero[2]. Variáveis aleatórias cuja covariância é zero são chamadas descorrelacionadas.



Propriedades da Covariância |


Se X e Y são variáveis aleatórias de valor real e a, b, c e d constantes ("constante", neste contexto significa não aleatória), então os seguintes factos são uma consequência da definição da covariância[2]:



cov⁡(X,X)=var⁡(X){displaystyle operatorname {cov} (X,X)=operatorname {var} (X),}{displaystyle operatorname {cov} (X,X)=operatorname {var} (X),}

cov⁡(X,Y)=cov⁡(Y,X){displaystyle operatorname {cov} (X,Y)=operatorname {cov} (Y,X),}{displaystyle operatorname {cov} (X,Y)=operatorname {cov} (Y,X),}

cov⁡(aX+b,cY+d)=a c cov⁡(X,Y){displaystyle operatorname {cov} (aX+b,cY+d)=a c operatorname {cov} (X,Y),}{displaystyle operatorname {cov} (aX+b,cY+d)=a c operatorname {cov} (X,Y),}

cov⁡(∑iXi,∑jYj)=∑i∑jcov⁡(Xi,Yj){displaystyle operatorname {cov} left(sum _{i}{X_{i}},sum _{j}{Y_{j}}right)=sum _{i}{sum _{j}{operatorname {cov} left(X_{i},Y_{j}right)}},}{displaystyle operatorname {cov} left(sum _{i}{X_{i}},sum _{j}{Y_{j}}right)=sum _{i}{sum _{j}{operatorname {cov} left(X_{i},Y_{j}right)}},}


Para variáveis aleatórias em vetores coluna X e Y com respectivos valores esperados μX e μY, e n e m de componentes escalares respectivamente, a covariância é definida como matriz n×m


cov⁡(X,Y)=E⁡((X−μX)(Y−μY)⊤).{displaystyle operatorname {cov} (X,Y)=operatorname {E} ((X-mu _{X})(Y-mu _{Y})^{top }).,}{displaystyle operatorname {cov} (X,Y)=operatorname {E} ((X-mu _{X})(Y-mu _{Y})^{top }).,}

Para variáveis aleatórias em vetor, cov(X, Y) e cov(Y, X) são a transposta de cada um.



Relação entre variância e covariância |


A covariância entre duas variáveis pode ser obtida de dados de variância[1]. Para variáveis aleatórias X e Y, sejam:




  • var⁡(X){displaystyle operatorname {var} (X),}{displaystyle operatorname {var} (X),} é a variância populacional de X


  • var⁡(Y){displaystyle operatorname {var} (Y),}{displaystyle operatorname {var} (Y),} é a variância populacional de Y


  • var⁡(X+Y){displaystyle operatorname {var} (X+Y),}{displaystyle operatorname {var} (X+Y),} é a variância populacional de uma variável obtida a partir da soma simples das variáveis X e Y.

  • "a" e "b" são constantes


Então, teremos:


cov⁡(X,Y)=var⁡(aX+bY)−a2var⁡(X)−b2var⁡(Y)2ab{displaystyle operatorname {cov} (X,Y)={frac {operatorname {var} (aX+bY)-a^{2}operatorname {var} (X),-b^{2}operatorname {var} (Y),}{2ab}}}{displaystyle operatorname {cov} (X,Y)={frac {operatorname {var} (aX+bY)-a^{2}operatorname {var} (X),-b^{2}operatorname {var} (Y),}{2ab}}}


Outras nomenclaturas |


A covariância é por vezes chamada de medida de dependência linear entre as duas variáveis aleatórias.


O Coeficiente de Correlação Linear é um conceito relacionado usado para medir o grau de dependência linear entre duas variáveis, variando entre -1 e 1, indicando o sentido da dependência.



Exemplo de cálculo de covariância populacional |


Seja X a variável "altura dos jogadores de basquete" e seja Y a variável "peso dos mesmos atletas". A partir desses dados, é possível montar uma tabela com os desvios em relação a média. Essa tabela auxilia no cálculo da covariância[1]:











































































Atleta Variável X (altura em metros) Variável Y (peso em kg) Desvio de X (valor menos média da variável) Desvio de Y (valor menos média da variável) Multiplicação dos desvios
1) Pedro 1,95 93,1 -0,038 -1,34 -0,038*-1,34=-+0,05092
2) João 1,96 93,9 -0,028 -0,54 -0,028*-0,54=+0,01512
3) José 1,95 89,9 -0,038 -4,54 -0,038*-4,54=+0,17252
4) Renato 1,98 95,1 -0,008 +0,66 -0,008*0,66=-0,00528
5) André 2,10 100,2 +0,112 +5,76 0,112*5,76=0,64512
Soma
x=1Nx{displaystyle {color {Red}sum _{x=1}^{N}x}}{displaystyle {color {Red}sum _{x=1}^{N}x}}= 1,95+1,96+...+2,10=9,94

y=1Ny{displaystyle {color {Sepia}sum _{y=1}^{N}y}}{displaystyle {color {Sepia}sum _{y=1}^{N}y}}=472,2{displaystyle =472{,}2}{displaystyle =472{,}2}
A soma de desvios é sempre igual a zero A soma de desvios é sempre igual a zero +0,05092+0,01512+0,17252-0,00528+0,64512=0,8784.
Número de elementos N = 5 alturas medidas N = 5 pesos medidos 5 desvios calculados 5 desvios calculados 5 multiplicações feitas
Média
x=1NxN{displaystyle {frac {color {Red}sum _{x=1}^{N}x}{N}}}{displaystyle {frac {color {Red}sum _{x=1}^{N}x}{N}}}=9,945=1,988{displaystyle ={frac {9{,}94}{5}}=1{,}988}{displaystyle ={frac {9{,}94}{5}}=1{,}988}

y=1NyN{displaystyle {dfrac {color {Sepia}sum _{y=1}^{N}y}{N}}}{displaystyle {dfrac {color {Sepia}sum _{y=1}^{N}y}{N}}}=472,25=94,44{displaystyle ={frac {472,2}{5}}=94{,}44}{displaystyle ={frac {472,2}{5}}=94{,}44}
A média de desvios é sempre igual a zero A média de desvios é sempre igual a zero
0,8784/(5-1)=0,2196=covariância de X e Y


Referências




  1. abcd MILONE, Giuseppe. Estatística geral e aplicada. São Paulo: Centage Learning, 2009. Capítulo 4


  2. abcde Covariance, site do Department of Mathematical Sciences da University of Alabama in Huntsville



















































Ícone de esboço
Este artigo sobre matemática é um esboço. Você pode ajudar a Wikipédia expandindo-o.



Popular posts from this blog

404 Error Contact Form 7 ajax form submitting

How to know if a Active Directory user can login interactively

TypeError: fit_transform() missing 1 required positional argument: 'X'