"ENSINE O ALUNO A OBSERVAR" (Sir William Osler)

9 de novembro de 2009

Significância estatística versus poder estatístico

Por Gilson Mauro Fernandes Filho
Estudante de Graduação em Medicina da UFPB / Monitor do Módulo Pesquisa Aplicada à Medicina (MCO2) / UFPB
Para expressar os resultados de uma investigação onde se pretende avaliar diferenças entre a estimativa de uma amostra e o valor possível do parâmetro na população, ou a diferença entre duas amostras, usam-se distintas expressões. Na estatística inferencial, em que o pesquisador toma decisões sobre uma população a partir do estudo de amostras desta, criaram-se parâmetros estatísticos para avaliar a sua validade. É nesse contexto que se inserem os conceitos de significância estatística e poder estatístico. Para realizar uma inferência estatística, é necessário que o pesquisador especifique o nível de erro estatístico aceitável. O mais comum é se especificar o erro Tipo I (alfa). Este representa a probabilidade de se rejeitar a hipótese nula quando esta é verdadeira; é a significância estatística do teste. Trata-se do caso do falso-positivo. Desta forma, o pesquisador especifica previamente a probabilidade de se relatar significância na análise, sendo que ela não existe em verdade (figura 1). Existe ainda outro tipo de erro, que está associado ao primeiro. É o erro Tipo II (ou beta). Este demonstra a probabilidade de não se rejeitar a hipótese nula quando, na realidade, esta é falsa (HAIR et al, 1998).
Figura 1: Decisão estatística e erro (quadro copiado de HAIR et al., 1998).
Há ainda outra probabilidade relacionada: o poder estatístico do teste de inferência, representado por 1 – beta. Trata-se da probabilidade de se rejeitar corretamente a hipótese nula quando esta deve ser rejeitada, ou seja, está relacionada com a capacidade do teste estatístico em detectar diferenças. Por exemplo, um determinado estudo pode ser suficientemente poderoso para encontrar uma diferença de 30%, mas não ser capaz de detectar uma diferença de 20% (DÓRIA-FILHO, 1999). O poder do teste é usado para planejar o tamanho da amostra e também é útil para interpretar resultados de análises estatísticas inferenciais em que a diferença encontrada não foi estatisticamente significativa. Nesse caso, é interessante calcular que poder tem o estudo realizado. Quanto maior a dispersão dos dados e menor o tamanho da amostra, menor será o poder do estudo (1-beta). Percebe-se que, em ambos os conceitos, significância e poder estatístico, leva-se em conta a significância no teste. Porém, a significância estatística mede quando essa significância é falsa; o poder estatístico mede quando essa significância é verdadeira. Dessa forma, é o poder estatístico que demonstra a chance de encontrar a significância quando ela realmente existe. Em outras palavras, o poder é a probabilidade de que se rejeite a hipótese nula quando esta deve ser rejeitada mesmo (evitando-se, assim, um erro tipo II). É geralmente aceito que o poder do teste deve ser de 80% ou mais, ou seja, uma probabilidade de 80% ou mais de se encontrar uma diferença estatisticamente significativa quando esta existe mesmo. Ainda assim, não se utiliza o poder estatístico como referência de controle do teste, pois o controle deve ser exercido pelo valor de alfa, o nível de significância. Isso porque, cometer um erro Tipo I numa análise é muito mais grave do que cometer um erro Tipo II. Quando se comete um erro Tipo I, se aceita uma hipótese falsa e a pesquisa é finalizada erroneamente. Quando se comete um erro Tipo II, se rejeita uma hipótese verdadeira, mas a pesquisa continua para buscar uma efetiva hipótese verdadeira.
Se a diferença é estatisticamente significante no nível preestabelecido de alfa (exemplo: 5%), não há necessidade de o pesquisados se preocupar com o erro Tipo II ou erro falso-negativo (JEKEL et al., 1999). Por isso a significância estatística é o parâmetro de controle do teste a ser definido em primeiro lugar. Nesse contexto, deve-se buscar uma equivalência entre as medidas, pois a significância é diretamente proporcional ao poder estatístico do teste. Ou seja, ao se diminuir a significância do teste, para se reduzir a probabilidade o erro Tipo I, diminui-se também o poder do teste, e este se torna cada vez menos acurado. Por isso a necessidade de se atingir um equilíbrio entre as medidas (RODARTE, 1993). Para interpretar os resultados de uma análise estatística com segurança é preciso garantir que o teste estatístico seja suficientemente poderoso para detectar reais diferenças. Em uma revisão de 71 artigos com resultados sem significância estatística, Freiman et al.(1978, apud PAES, 2008) concluíram que mais do que ausência de significância, havia incapacidade em detectar diferenças. Esta incapacidade é o baixo poder que está diretamente relacionado com o tamanho da amostra. Assim, é natural concluir que estudos com muitos pacientes tenham maior poder e estudos com poucos pacientes provavelmente tenham baixo poder estatístico. Na prática, é importante que se tenham testes com nível de significância próximos do nível de significância nominal (fixado previamente pelo pesquisador) e que o poder estatístico seja alto, mesmo em situações de amostras pequenas (BARROS; MAZUCHELLI, 2005).
Para se dizer formalmente que se aceita H0, deve-se, então, avaliar o poder do teste ou a probabilidade de ocorrência do erro Tipo II. Para avaliar o poder do teste é preciso verificar a probabilidade de ocorrer todos os erros em que a hipótese alternativa abrange. Como a hipótese nula sempre abrange os resultados mais simples, as vezes fica muito complicado analisar o poder e chegar a conclusões inferenciais, mas esta é uma tarefa que deveria ser mais realizada do que geralmente o é em pesquisa aplicada à Medicina. Referências BARROS, E. A. C.; MAZUCHELLI, J. Um estudo sobre o tamanho e poder dos testes t-Student e Wilcoxon. Acta Sci. Technol. 27 (1): 23-32, 2005 DÓRIA-FILHO, U. Introdução à Bioestatística: Para simples mortais. São Paulo: Elsevier, 1999 HAIR, J. F. et al. Análise Multivariada de Dados. Porto Alegre: Bookman Ed., 1998.
PAES, A. Por dentro da Estatística. Einstein: Educ Contin Saúde. 6(4 Pt 2): 153-4, 2008. JEKEL, J. F.; ELMORE, J. G.; KATZ, D. L. Epidemiologia, Bioestatística e Medicina Preventiva. Porto Alegre: Artes Médicas, 1999 RODARTE, N. W Utilidad del valor de p y del intervalo de confiança. Rev Med IMSS, 31: 143-144, 1993.