quarta-feira, 27 de maio de 2015

Análise Bivariada 2 - CATEGÓRICA x CATEGÓRICA

Análise 2: CATEGÓRICA x CATEGÓRICA – QUI-QUADRADO

Considerações:
O Stata só considera como códigos válidos 0 e o 1. 
Para desfecho (variável dependente) 0=não desfecho; 1=desfecho, p.e., 0=não hipertenso e 1=hipertenso.
Para fatores de risco, exposição (variáveis independentes) 0=não-risoc/não exposto (referência) e 1=risco/exposto (categoria teste), p.e., 0= IMC normal, 1= IMC alterado


# Para estudos de COORTE
ORDEM DE COMANDOS DIGITADOS:
1. tab varindep vardep, r exp chi
- “varindep” = variável independente
- “vardep” = variável dependente
- r = row, mostra a frequência relativa das linhas
- exp = expected, calcula o valor esperado de cada célula
- chi = qui-quadrado, mostra o valor do teste e o valor de p
2. tab varindep vardep, exact
- Se a variável apresentar algum valor esperado <5, deve-se calcular o teste exato de Fisher
3. cs vardep varindep
- cs = cohort study
- Para o cálculo do RR e seu IC95%, inverte, primeiro vardep e depois varindep.
4. csi caso1 casoref con1 conref
    csi caso2 casoref con2 conref
- Para o cálculo do RR e seu IC95%, variável categórica com mais de 2 categorias, comparando as categorias de exposição com a de referência, usa-se o comando csi para valores imediatos, na seguinte ordem: caso que foi exposto 1, caso não exposto, controle exposto1, controle não exposto;
caso que foi exposto 2, caso não exposto, controle exposto2, controle não exposto.


0=controle
1=caso
0=não exposto
Ou categ referência
conref
casoref
1=categ exposição 1
con1
caso1
2=categ exposição 2
con2
caso2


# Para estudos TRANSVERSAIS
ORDEM DE COMANDOS DIGITADOS:
1. tab varindep vardep, r exp chi
2. tab varindep vardep, exact (teste exato de Fisher, caso alguma célula tenha valor esperado <5)
3. cs vardep varindep
- cs = cohort study, mesmo comando para estudo transversal, cálculo de RP é semelhante ao de RR.
- Para comparação com variável categórica com 2 classes
4. csi caso1 casoref con1 conref
    csi caso2 casoref con2 conref
- Para comparação com variável categórica com mais de 2 classes

# Para estudos de CASO-CONTROLE
ORDEM DE COMANDOS DIGITADOS:
1. tab varindep vardep, r exp chi
2. tab varindep vardep, exact (teste exato de Fisher, caso alguma célula tenha valor esperado <5)
3. cc vardep varindep
- cc = case control, para o cálculo da OR
- Para comparação com variável categórica com 2 classes
4. cci caso1 casoref con1 conref
    cci caso2 casoref con2 conref
- Para comparação com variável categórica com mais de 2 classes

EXERCÍCIO ____________________________________________________________________
Criar variável categórica “desfecho” a partir das variáveis categóricas “hipertenso” e “diabetico”, para as quais 0=não e 1=sim. Comparar se há associação entre as variáveis categóricas e a “desfecho”, considerando que o estudo foi um caso-controle.
COMANDOS DIGITADOS:
gen desfecho=1 if hipertenso==1 & diabetico==1
replace desfecho=0 if hipertenso==0 | diabetico==0
tab IMC, nolabel
Mostra as classes com seus códigos
tab IMC desfecho, r exp chi
tab IMC desfecho, exact
cci 13 174 16 140
cci 99 174 72 140
cci 53 174 19 140


n
Hipertensos e diabéticos
%
OR
IC95%
p
IMC






Desnutrido
29
13
44,8
0,81
0,53-1,23
*0,018
Normal
314
174
55,4
1
-

Sobrepeso
171
99
57,9
1,04
0,88-1,22

Obeso
72
53
73,6
1,32
1,12-1,57

*p-valor do teste exato de Fisher geral.

________________________________________________________________________________
Até o próximo exercício! Bom proveito!

Análise Bivariada – NUMÉRICA X CATEGÓRICA (Stata)

Para começar, deve-se analisar a normalidade das variáveis numéricas (rever post anterior)!

Análise 1: Numéricas por categóricas

Passo 1: Se a variável categórica (varcateg) tiver 2 classes (dicotômica), a comparação é entre 2 médias.

# 2 médias de distribuição normal - Teste t de Student
COMANDO DIGITADO: ttest varnum, by( varcateg)
OUTROS COMANDOS:
ttest variavel == v
Onde v é valor para saber se uma variável tem uma média de valor específico.
ttest variavel1 == variavel2 , unpaired
Para identificar se duas variáveis têm a mesma média, para dados não-pareados (amostras independentes).
ttest variavel1 == variavel2
Para dados pareados.
ttesti #obs1 #mean1 #sd1 #obs2 #mean2 #sd2
Forma imediata de comparação de médias de duas amostras.

EXERCÍCIO 1 ____________________________________________________________________
Analisar se há diferença entre as médias das variáveis numéricas normais com o desfecho “obesidade_criança”, variável categórica dicotômica. Preencher a tabela.
COMANDO DIGITADO:
ttest idade, by ( obesidade_criança) 

Tabela 1 – Variáveis normais com desfecho dicotômico:
Criança
n
Média
DP
IC95%
*p-valor
Idade  





Não obeso
57
7,02
1,37
6,65-7,38
0,443
Obeso
56
6,82
1,34
6,46-7,18

 *O p-valor é o bicaudal.

# 2 médias de distribuição NÃO-normal - Mann-Whitney
COMANDO DIGITADO:
ranksum varnum, by( varcateg) - Para amostras independentes.
signrank - Para dados pareadas, usando teste de Wilcoxon, a hipótese nula é que as distribuições são iguais.
signtest - Também testa a igualdade de observações pareadas através do cálculo das diferenças entre variável e a expressão (ou outra variável). A hipótese nula é que a média das diferenças é igual a zero.

EXERCÍCIO 2:____________________________________________________________________
Analisar se há diferença entre as medianas das variáveis numéricas não-normais com o desfecho “obesidade_criança”, variável categórica dicotômica. Preencher a tabela.
COMANDO DIGITADO:
ranksum perimetro_braquial, by(obesidade_crianca)
bysort obesidade_crianca: sum perimetro_braquial, d
O comando bysort mostra os valores de mediana, P25, P75, pelas categorias da variável “obesidade_criança”.

Tabela 2 – Variáveis não-normais com desfecho dicotômico
Criança
n
Mediana
P25
P75
p-valor
Perímetro braquial





Não obeso
57
19
17
22
0,753
Obeso
56
19
17
22


Passo 2: Se a variável categórica (varcateg) tiver mais de 2 classes, a comparação é entre mais de 2 médias.

# mais de 2 médias de distribuição normal - Análise de variância (ANOVA)
COMANDO DIGITADO: oneway varnum varcateg, tab bonferroni
Primeiro, observa-se o teste de Bartlett, que analisa a desigualdade das variâncias, pois, só se pode fazer ANOVA se as variâncias forem iguais, ou seja, se p > 0,05 (não-significante).

EXERCÍCIO 3 ____________________________________________________________________
Analisar se há diferença entre as médias das variáveis numéricas normais com o desfecho “obesidade_classe”, variável categórica com mais de 2 classes. Preencher a tabela.
COMANDO DIGITADO:
oneway idade obesidade_classe, tab bonferroni
ttest idade if obesidade_classe==0 | obesidade_classe==1, by( obesidade_classe)
ttest idade if obesidade_classe==1 | obesidade_classe==2, by( obesidade_classe)
O tab não mostra IC95% das médias, para isso faz-se o ttest para pares de categorias, um por vez, e mostra o valor de p para o par.

Tabela 3 – Variáveis normais com desfecho de três categorias:
Criança
n
Média
DP
IC95%
p-valor
Idade





Não obeso    
57
7,02
1,37
6,65-7,38

Obeso 1
32
6,44
1,32
5,96-6,91
0,148
Obeso 2
24
7,33
1,20
6,82-7,84
0,985


# mais de 2 médias de distribuição NÃO-normal - Kruskal-Wallis
COMANDO DIGITADO: kwallis varnum, by( varcateg)
Compara as medianas de amostras independentes.

EXERCÍCIO 4 ____________________________________________________________________
Analisar se há diferença entre as médias as medianas das variáveis numéricas não-normais com o desfecho “obesidade_classe”, variável categórica com mais de 2 classes. Preencher a tabela.
COMANDO DIGITADO:
kwallis perimetro_braquial, by( obesidade_classe)
bysort obesidade_classe: sum perimetro_braquial, d
Para mostrar os valores de mediana, P25, P75, pelas categorias da variável “obesidade_classe”.

Tabela 4 – Variáveis não-normais com desfecho de três categorias:
Criança
n
Mediana
P25
P75
p-valor
Perímetro braquial





Não obeso    
57
19
17
22
0,000
Obeso 1
32
18
16,5
19

Obeso 2
24
21
19,5
24,5


______________________________________________________
Para a análise com variável categórica, sugiro rever como categorizar uma variável numérica, pois pode ser necessário, ok!