quarta-feira, 27 de maio de 2015

ANÁLISE DESCRITIVA (univariada) e ANÁLISE DE NORMALIDADE (Stata)

Passo 1: Frequências simples

# Frequências de variáveis categóricas
COMANDO DIGITADO:
tab variavel
tab1 variavel1 variavel2 variavel3...
O comando tab1 faz cada variável por vez.
tab1 variavel1- variavel10
Esse comando mostra as frequências da “variavel1” até a “variavel10”.
tab1 *
Mostra a frequência de todas as variáveis, item por item.

# Medidas de tendência central e de dispersão – variáveis numéricas:
Frequências, médias, valores mínimo e máximo de uma variável numérica contínua
COMANDO DIGITADO: sum variavel
COMANDO DIGITADO: sum variavel1 variavel2 variavel3... 
Para ver os valores da mediana e dos quartis
COMANDO DIGITADO: sum variavel, d

Passo 2: Construir gráficos de frequências simples

# Gráfico de setores para as variáveis categóricas:
COMANDO DIGITADO: graph pie, over( variavel)
COMANDOS DO BROWSE (navegador):
Graph > Pie charts > seleciona Graph by categories > seleciona variável > OK



# Histograma, para variáveis numéricas:
COMANDO DIGITADO: histogram variável OU histogram variavel, frequency
histogram variavel, percent
Constrói gráfico de barras para as variáveis categóricas ordinais
histogram variavel, normal
Mostra a curva normal por cima, apenas a título de comparação.
COMANDOS DO BROWSE (navegador):
Graph > histogram > seleciona variável > se for contínua seleciona Data are continuous e Density, se for categórica seleciona Data are discrete e Percent > OK


# Boxplot (caixa), para as variáveis numéricas:
COMANDO DIGITADO: graph box variavel
graph box pas1 pad1
Neste exemplo, mostra as variáveis pas1 (pressão sistólica) e pad1 (pressão diastólica) no mesmo quadro, lado a lado, para efeito comparativo.


COMANDO DIGITADO: graph hbox variavel
Mostra o gráfico na horizontal.




# Diagrama de dispersão (scatterplot), para duas variáveis numéricas:
COMANDO DIGITADO: twoway (scatter variavel1 variavel2)
twoway (scatter peso altura) (lfit peso altura)
O comanado lift mostra a linha de tendência. Será visto com mais detalhes na análise bivariada entre 2 variáveis numéricas.



Passo 3: AVALIANDO A SIMETRIA DE UMA DISTRIBUIÇÃO NUMÉRICA

Considerações:
Antes de iniciar a análise bivariada de variáveis numéricas, deve-se analisar se a mesma tem distribuição normal, ou gaussiana (em forma de sino). Resumidamente, variáveis numéricas com distribuição normal são analisadas com testes paramétricos, e variáveis numéricas com distribuição não-normal são analisadas com testes não-paramétricos. Simetria não é sinônimo de normalidade.

1. Através da comparação entre média e mediana, e observando o Coeficiente de assimetria (skewness)
COMANDO DIGITADO: summarize var, detail (OU sum variável, d)
- A distribuição é simétrica se média e mediana são coincidentes ou muito próximas. Porém, não é garantia de normalidade.
- Se a assimetria ou skewness for negativa, a distribuição está desviada para a esquerda, se for positivo, está desviada para a direita. Será aproximadamente simétrica se coeficiente de assimetria estiver entre –1 e +1.

2. Visualmente, través do histograma com a curva normal, ou do boxplot
COMANDO DIGITADO: histogram variavel, normal / graph box variavel

3. Pelo teste de Shapiro-Wilk
COMANDO DIGITADO: swilk variavel
- O teste de Shapiro-Wilk testa a não-normalidade de uma variável.
Logo, se p < 0,05 (estatisticamente significante) a distribuição não é normal.
Se p > 0,05 (não-significante) a distribuição é normal.
- Alguns autores o consideram um teste muito sensível, mas pode ser adotado para a análise de normalidade por ser um parâmetro numérico e não visual.

4. Através dos gráficos de normalidade (normal quantile plot)
COMANDO DIGITADO:
qnorm var
Avalia pelas extremidades (caudas).
pnorm var
Avalia pelo meio
Se a distribuição for normal, os pontos ficam sobre a reta ou bem próximos dela.


Passo 4: AVALIANDO a transformação de uma variável não-normal para normal


COMANDO DIGITADO: ladder variavel
Ladder of powers mostra várias formas de conversão.
A melhor conversão é a que tiver menor valor do qui-quadrado e maior valor de p no teste.

COMANDO DIGITADO: gladder variavel
Ladder of powers histograms, para ver os histogramas com as variáveis transformadas.


COMANDO DIGITADO: qladder var
Ladder of powers normal quantile plots, para ver os gráficos de normalidade com as variáveis transformadas.


________________________________________________________________________________
Espera que vem a bivariada!

Nenhum comentário:

Postar um comentário