ESTADÍSTICA

 

1.     Estadística descriptiva

2.     Pruebas de t

a.     de dos muestras

b.     de una sola muestra o muestras pareadas

3.     Análisis de Varianza

a.     de una sola vía

b.     para muestras repetidas

c.      Pruebas de comparación múltiple

 

 

ESTADÍSTICA DESCRIPTIVA

 

INTRODUCCIÓN

Propósito General y Descripción. Este procedimiento resume las variables tanto estadísticamente como gráficamente. Proporciona información sobre la localización (centro), dispersión (variabilidad) y distribución. El procedimiento da una gran variedad de información estadística sobre una variable en particular.

 

Tipos de Preguntas de Investigación. El uso de este módulo para una variable particular es generalmente apropiado para uno de los cuatro propósitos siguientes: resumen numérico, exploración de datos, identificación de valores fuera de comportamiento (algunas veces incorporado en la exploración de datos), y forma de la distribución. A continuación se discute cada uno de ellos.

 

DESCRIPTORES NUMÉRICOS

A los descriptores numéricos de una muestra se les llama estadísticos. Estos estadísticos pueden categorizarse como localización, dispersión, indicadores de forma, percentiles y estimadores de intervalos.

 

Localización o Tendencia Central. Una de las primeras impresiones que queremos obtener de una variable es su localización general. Uno puede pensar en esta localización como el centro de la variable en la recta numérica. El promedio (media) es una medida común de localización. Cuando se investiga el centro de una variable, los principales descriptores son la media, la mediana, la moda, y la media recortada. Otros promedios, tales como la media geométrica y la media harmónica, tienen usos especializados. A continuación se compararán brevemente estas medidas.

 

Si los datos provienen de una distribución normal, la media, mediana, moda y media recortada son todas iguales. Si la media y la mediana son muy diferentes, lo más probable es que halla valores fuera del comportamiento de los datos o la distribución es asimétrica. En este caso, la mediana es posiblemente la mejor medida de localización. La media es muy sensible a los valores extremos o puede contaminarse seriamente con una sola observación. Un compromiso entre la media y la mediana está dada por la media recortada (donde un número predeterminado de observaciones se eliminan de cada lado de la distribución). Esta media recortada es más robusta que la media, pero más sensible que la mediana. La comparación de la media recortada y la mediana deben mostrar que la media recortada se aproxima a la mediana a medida que el grado de recortado aumenta. Su la media recortada converge a la mediana para un grado pequeño de recortado, digamos 5 o 10%, el número de valores fuera de comportamiento es relativamente pequeño.

 

Variabilidad o Dispersión. Después de establecer el centro de los valores de una variable, la siguiente pregunta es que tan cerca caen los datos alrededor de este centro. El patrón de valores alrededor del centro es llamado dispersión o variabilidad. Hay mediciones numerosas de variabilidad: rango, varianza, desviación estándar, rango intercuartil, y otros. En algún grado, los valores fuera de comportamiento afectan a todas estas mediciones de dispersión, pero algunas tienen un desempeño mucho mejor que otras.

La desviación estándar es una de las medidas más populares de dispersión. Desafortunadamente, está influida en gran manera por las observaciones fuera de rango y la forma general de la distribución. Debido a esto, se han desarrollado varios sustitutos. Depende de ti decidir cuál es el mejor en una situación dada.

 

Forma. La forma de la distribución describe el patrón de valores a lo largo de la recta numérica. ¿Hay pocos valores únicos que ocurren una y otra vez o es un continuo? ¿El patrón es simétrico o asimétrico? ¿Los datos tienen forma de campana? ¿Parecen tener un único centro o son varias áreas agrupadas? Todos estos son aspectos sobre la forma de la distribución de los datos.

Dos de las mediciones de forma más populares son la asimetría (“skewness”) y la curtosis. La asimetría mide la dirección y ausencia de simetría. Mientras más grande sea la asimetría, mayor es la necesidad de utilizar estimadores robustos como la mediana y el rango intercuartil. Una asimetría positiva indica que la cola es más larga hacia la derecha, mientras que una negativa indica una cola izquierda más larga. La curtosis mide el peso de las colas. Un valor de curtosis menor que tres indica que las colas son menos pesadas que en una distribución normal; valores de curtosis mayores que tres indican colas más pesadas que las de la distribución normal.

Las mediciones de forma requieren de más datos para ser exactas. Por ejemplo, un estimador aceptable de la media podría requerir solo de diez observaciones en una variable aleatoria; la desviación estándar requerirá al menos treinta y un estimado razonable de la forma (especialmente si las colas son importantes) requerirá varios cientos de observaciones.

 

Percentiles. Los percentiles son extremadamente útiles para ciertas aplicaciones, así como cuando la distribución es extremadamente asimétrica o está contaminada con puntos fuera del comportamiento. Si la distribución de la variable es asimétrica, podría desear usar los estimados de intervalos exactos para los percentiles.

 

Límites de Confianza o Intervalo de Estimado. Un intervalo de estimado de un estadístico da un rango de sus valores posibles. Los límites de confianza son tipos especiales de intervalos de estimado que tienen, bajo ciertas condiciones, un nivel de confianza o probabilidad asociados a ellos.

Si la suposición de normalidad es valida, los intervalos de confianza para la media, varianza y desviación estándar son validos. Sin embargo, el error estándar de cada uno de esos intervalos depende de la desviación estándar y del tamaño de la muestra. Si la desviación estándar de la muestra es inexacta, también lo serán estas otras medidas. El resultado final es que los puntos fuera de comportamiento no sólo afectan la desviación estándar sino también todos los límites de confianza que usen la desviación estándar muestral. Debe ser obvio entonces que la desviación estándar es una medida crítica de dispersión en los métodos paramétricos.

 

EXPLORACIÓN DE DATOS

La exploración de datos involucra a datos faltantes, validez de los datos y valores fuera de comportamiento. Si estos aspectos no se tratan antes de usar la estadística descriptiva, es muy probable cometer errores en las interpretaciones.

 

Datos Faltantes. Siempre que falten datos, se debe preguntar lo siguiente:

  • ¿Los faltantes se deben a una recolección incompleta de datos? Si es así, trate de completar la recolección de datos.
  • ¿Los faltantes se deben a respuestas faltantes de una encuesta? Entonces, trate de recolectar los datos de los que no respondieron.
  • ¿Los datos faltantes se deben a una censura de los datos por arriba o abajo de ciertos valores? Si es así, se requerirán algunas herramientas estadísticas diferentes.
  • ¿Los patrones de faltantes son aleatorios? Si sólo algunos pocos datos faltan de un conjunto grande de datos y el patrón de faltantes es aleatorio, no hay mucho por que preocuparse.

Sin embargo, si el conjunto de datos es pequeño o de tamaño moderado, cualquier grado de faltantes podría causar sesgo en las interpretaciones.

Siempre que falten valores sin respuesta a las preguntas anteriores, hay poco que se pueda hacer. Si la forma de la distribución de la variable es conocida y hay datos faltantes para ciertos percentiles, se pueden estimar los datos faltantes. Si hay otras variables en el conjunto de datos a la vez y el patón de faltantes es aleatorio, se puede utilizar regresión múltiple o métodos multivariados para estimar los valores faltantes.

 

Validez de los Datos. La validez de los datos necesita confirmarse antes de cualquier análisis estadístico, pero esto generalmente comienza después de un análisis descriptivo univariado. Los extremos y puntos fuera de comportamiento para una variable podrían deberse a un error al introducir los datos, a una especificación incorrecta o inapropiada del código de datos faltantes, a realizar un muestreo de una población diferente a la que se pretendía, o a anormalidades naturales que existen en esta variable de vez en cuando. Los primeros dos casos de datos inválidos son fáciles de corregir. Los últimos dos requieren información acerca de la forma de la distribución y requieren del uso de métodos multivariados o de regresión para re-estimar los valores.

 

Puntos Fuera de Comportamiento. Los puntos fuera del comportamiento en un conjunto de datos se definen como observaciones que parecen ser inconsistentes con el resto de los datos. Un punto fuera de comportamiento es una observación que se sale para cualquier extremo del conjunto de datos.

La visualización de los puntos fuera de comportamiento univariados puede realizarse de tres formas: con la gráfica rama-hoja, con la gráfica de caja y con la gráfica de probabilidad normal. En cada uno de estos métodos informales, el punto fuera de comportamiento se aleja del resto de los datos. Se debe considerar que las gráficas de caja y de probabilidad normal evalúan la potencialidad de un punto fuera de comportamiento asumiendo que los datos tienen una distribución normal. Si la variable no está distribuida en forma normal, estas gráficas podrían indicar numerosos puntos fuera de comportamiento. Se debe entonces tener cuidado en probar que suposiciones distribucionales están detrás de los puntos fuera de comportamiento para buscarlos.

Los puntos fuera de comportamiento pueden distorsionar completamente la estadística descriptiva. Si sospecha que hay puntos fuera de comportamiento, se debe realizar una comparación de la media, moda, mediana y media recortada. Si los puntos fuera de comportamiento sólo suceden hacia un lado de la media, la mediana es una mejor medida de localización. Por otro lado, si los puntos fuera de comportamiento divergen igualmente hacia ambos lados del centro, la media y la mediana serán parecidas pero la desviación estándar estará aumentada. Es rango intercuartil es la única medida de variación que no se afecta en forma importante con los puntos fuera de comportamiento. También contaminan las mediciones de simetría, curtosis y los límites de confianza.

Esta discusión se ha enfocado a los puntos fuera de comportamiento univariados en forma simplista. Si el conjunto de datos tiene varias variables, la regresión múltiple y los métodos multivariados deben usarse para identificar a estos puntos fuera de comportamiento.

 

Normalidad. Una aplicación importante de la estadística descriptiva es determinar si los datos tienen una distribución normal. Si la variable tiene una distribución normal, puede usar la estadística paramétrica basada en esta suposición. Si la variable no es normal, puede intentar una transformación de la variable (como el logaritmo natural o la raíz cuadrada) para volver los datos normales. Si una transformación no es una alternativa viable, se deben usar métodos no-paramétricos que no requieran de normalidad.

El programa proporciona siete pruebas formales de normalidad. Si una variable falla una prueba de normalidad, es crítico observar la gráfica de caja y la gráfica de distribución normal para ver si un punto fuera de comportamiento o un pequeño subconjunto de puntos fuera de comportamiento son los causantes de la no-normalidad. Una práctica es omitir los puntos fuera de comportamiento y regresar a las pruebas para ver si la variable ahora pasa las pruebas de normalidad.

Siempre recuerde que se requiere de un tamaño de muestra relativamente grande para detectar normalidad. Sólo los tipos extremos de no-normalidad pueden detectarse con muestras menores a cincuenta observaciones.

Hay una confusión común de que un histograma siempre es una herramienta gráfica válida para evaluar normalidad. Dado que se deben realizar muchas selecciones subjetivas para construir un histograma, y como los histogramas generalmente necesitan tamaños de muestras grandes para mostrar una imagen adecuada de normalidad, se deben preferir otras representaciones gráficas como las gráficas de caja, el trazo de densidad y la gráfica de probabilidad.

 

 

 

PRUEBA DE T PARA DOS MUESTRAS

 

INTRODUCCIÓN

Propósito General y Descripción. Este procedimiento calcula la prueba t para dos muestras, la prueba U de Mann-Whitney y la prueba de Kolmogorov-Smirnov de datos contenidos ya sea en dos variables (columnas) o en una variable indexada por una variable secundaria (agrupadora).

 

Tipos de Preguntas de Investigación. Una de las tareas de investigación más comunes es comparar dos poblaciones (grupos). Se puede querer comparar el nivel de ingreso de dos regiones, el contenido de nitrógeno de dos lagos o la efectividad de dos medicamentos. La primera pregunta que salta es qué aspectos (parámetros) de ls poblaciones debemos comparar. Podríamos considerar comparar los promedios, las medianas, las desviaciones estándar las formas distributivas (histograma) o los valores máximos. Dependiendo de nuestro problema particular, definimos el parámetro a comparar.

Tal vez la comparación más simple que podemos hacer es entre las medias de dos poblaciones. Si podemos mostrar que la media de la población A es diferente de la de la población b, podemos concluir que las poblaciones son diferentes. Otros aspectos de las dos poblaciones pueden (y deberían) considerarse, pero la media es normalmente el punto de inicio.

Si deseamos asumir que otras características de las dos poblaciones (tales cono que están normalmente distribuidas y que sus varianzas son iguales), podemos usar la prueba de t de dos muestras para comparar las medias de las muestras aleatorias obtenidas de esas dos poblaciones. Si esas suposiciones se violan, la prueba U de Mann-Whitney o la prueba de Kolmogorov-Smirnov pueden usarse.

 

SUPOSICIONES Y LIMITACIONES

Las siguientes suposiciones se hacen al realizar las pruebas descritas en esta sección. Una de las razones de la popularidad de las pruebas t es su robustez en caso de que las suposiciones se violen. Sin embargo, si una suposición no se cumple aún aproximadamente, los niveles de significancia y de la potencia de la prueba t son inválidos. Desafortunadamente, en la práctica es común que no sólo una, sino varias suposiciones no se cumplan. Por esto, hay que realizar los pasos adecuados para revisar las suposiciones antes de que se tomen decisiones importantes basadas en estas pruebas. Ya que las salidas del programa incluyen factores que permiten investigar sobre estas suposiciones, siempre deben considerarse.

 

Suposiciones de la prueba de t de dos muestras. Las suposiciones de la prueba de t de dos muestras son:

  1. Los datos son continuos (no discretos)
  2. Los datos tienen una distribución normal
  3. Las varianzas de las dos poblaciones son iguales (si no, se debe usar la prueba de Aspin-Welch para varianzas desiguales)
  4. Las dos muestras son independientes. No hay relación entre los individuos en una muestra cuando se comparan con la otra (como sucede en la prueba t para datos pareados).
  5. Ambas muestras son muestras aleatorias simples de sus poblaciones respectivas. Cada individuo en la población tuvo la misma probabilidad de ser seleccionado para la muestra.

 

Suposiciones de prueba U de Mann-Whitney. Las suposiciones de la prueba U de Mann-Whitney son:

  1. La variable de interés en continua (no discreta). La escala de medición es al menos ordinal.
  2. Las distribuciones de probabilidades de las dos poblaciones son idénticas, excepto por su localización.
  3. Las dos muestras son independientes.
  4. Ambas muestras son muestras aleatorias simples de sus respectivas poblaciones. Cada individuo en la población tiene una probabilidad igual de que lo seleccionen para la muestra.

 

Suposiciones de la prueba Kolmogorov-Smirnov. Las suposiciones de la prueba Kolmogorov-Smirnov son:

  1. La escala de medición es al menos ordinal.
  2. Las distribuciones de probabilidad son continuas
  3. Las dos muestras son mutuamente independientes.
  4. Ambas muestras son muestras aleatorias simples de sus poblaciones respectivas.

 

Limitaciones. Hay pocas limitaciones cuando se usan estas pruebas. Los tamaños de las muestras pueden variar de unos cuantos a varios cientos. Su los datos son discretos con al menos cinco valores únicos, se puede ignorar la suposición de variable continua. Posiblemente la restricción más grande sea que los datos provengan de una muestra aleatoria de la población. Si no se tiene una muestra aleatoria, los niveles de significancia serán definitivamente incorrectos.

 

 

PRUEBA T DE UNA MUESTRA / PRUEBA DE T PAREADA

 

INTRODUCCIÓN

Propósito general y descripción. El procedimiento es usado para comparer la media (o mediana) de un grupo único con un valor objetivo. Para lograr esto, el procedimiento calcula la prueba de t de una muestra, la prueba de t pareada, la prueba de rango de Wilcoxon y la prueba de cuarteles (signo).

 

Tipos de preguntas de investigación. Para la situación de una muestra o muestras pareada, la preocupación principal de la investigación es examinar una medida de tendencia central (localización) para la población de interés. Las medidas de localización mejor conocidas son la media y la mediana. Para la situación de una muestra, Se puede querer conocer si el tiempo de espera promedio en un consultorio medico es mayor a una hora, si el reembolso promedio de un impuesto particular es diferente de $500, si el avalúo promedio de residencias con características similares es menor que $120,000 o si el crecimiento promedio de las rosas es 4 pulgadas mayor después de dos semanas de tratamiento con cierto fertilizante.

En el caso pareado, se toman dos mediciones en el mismo individuo en tiempos diferentes o se tienen mediciones de cada individuo de un par. Ejemplos del primer caso son el avalúo de dos ajustadores de seguros para los mismos 15 casos o la evaluación de un programa de acondicionamiento aeróbico en 15 sujetos donde las mediciones se hacen al inicio del programa y al final del mismo. Un ejemplo de la segunda situación de datos pareados es la prueba de la efectividad de dos medicamentos, A y B, en 20 pares de pacientes que se han emparejado con variables fisiológicas y sicológicas; un paciente recibe el medicamento A y el otro paciente, el medicamento B.

La primera pregunta es sí tenemos una muestra aleatoria de observaciones o una muestra aleatoria de pares de observaciones. Ya que se definió, la segunda pregunta sería sí los datos están normalmente distribuidos. Si la normalidad se cumple, la prueba de t de una muestra es la elección adecuada para evaluar si una medida de tendencia central, la media, es diferente a algún valor teórico o hipotético; de otro modo, se pueden usar pruebas no paramétricas como la prueba de rangos de Wilcoxon o la prueba de cuartiles.

 

SUPOSICIONES Y LIMITACIONES

Esta sección describe las suposiciones que se hacen cuando se realiza una de estas pruebas. La suposición principal se relaciona con la normalidad o no de los datos. Una de las razones de la popularidad de las pruebas de t es su robustez ante la violación de suposiciones Sin embargo, si una suposición no se cumple aún aproximadamente, los niveles de significado y de la potencia de la prueba t son inválidos. Desafortunadamente, en la práctica es común que no sólo una, sino varias suposiciones no se cumplan. Por esto, hay que realizar los pasos adecuados para revisar las suposiciones antes de que se tomen decisiones importantes basadas en estas pruebas. Ya que las salidas del programa incluyen factores que permiten investigar sobre estas suposiciones, siempre deben considerarse.

 

Suposiciones para la Prueba de T de una Muestra. Las suposiciones de la prueba t de una muestra son:

1.      Los datos son continuos (no discretos).

2.      Los datos siguen una distribución de probabilidad normal.

3.      La muestra es una muestra aleatoria simple de su población. Cada individuo de la población tiene la misma probabilidad de ser seleccionado en la muestra.

 

Suposiciones de la Prueba de T Pareada. Las suposiciones de la prueba t pareada son:

1.      Los datos son continuos (no discretos).

2.      Los datos, las diferencias de los pares, en este caso, siguen una distribución de probabilidad normal.

3.      La muestra de pares es una muestra simple de su población. Cada individuo de la población tiene la misma probabilidad de ser seleccionado en la muestra.

 

Suposiciones de la Prueba Wilcoxon de Rangos con Signo. Las suposiciones de la prueba Wilcoxon de rangos con signos son las siguientes (note que la diferencia es entre el valor de un dato y la mediana hipotetizada o entre los valores de dos datos para un par):

1.      Las diferencias son contínuas (no discretas).

2.      La distribución de esas diferencias es simétrica.

3.      Las diferencias son mutuamente independientes.

4.      Todas las diferencias tienen la misma mediana.

5.      La escala de medición es al menos de intervalos.

 

Suposiciones de la Prueba de Cuartiles. Las suposiciones de la prueba de cuartiles (signo) son:

1.      Una muestra aleatoria se ha considerado, resultando en observaciones que son independientes e idénticamente distribuidas.

2.      La escala de medición es al menos ordinal.

 

Limitaciones. Hay pocas limitaciones cuando se usan estas pruebas. El tamaño de la muestra puede ir de unos cuantos a algunos cientos. Si los datos son discretos con al menos cinco valores únicos, comúnmente se puede ignorar la suposición de continuidad de la variable. Posiblemente, la restricción mayor es que los datos provengan de una muestra aleatoria de la población. Si no se tiene una muestra aleatoria, los niveles de significancia serán definitivamente incorrectos.

 

 

ANOVA DE UNA SOLA VÍA

 

INTRODUCCIÓN

Este procedimiento realice el análisis de varianza de una sola vía (un solo factor) y el en análisis de varianza de rangos de una vía de Krukal-Wallis sobre datos contenidos, ya sea en dos o más variables o en una sola variable indexada por una segunda variable (de grupo). El análisis de varianza de una vía compara las medias de dos o más grupos para determinar si al menos la media de uno de los grupos es diferente de las otras. La razón F se usa para determinar el grado de significado estadístico. La prueba es no direccional en el sentido de que la hipótesis nula especifica que todas las medias son iguales y la hipótesis alternativa simplemente especifica que al menos una de las medias es diferente.

 

Tipos de Preguntas de Investigación. Una de las tareas más comunes en investigación es comparar dos o más poblaciones (grupos). Se podría querer comparar el voltaje de alimentación de dos regiones con suministros independientes, el contenido de nitrógeno de tres lagos o la efectividad de cuatro tratamientos. La primera pregunta que hay que hacerse es cuales son los aspectos (parámetros) de las poblaciones que deberíamos comparar. Se podría considerar comparar las medias, medianas, desviaciones estándar, formas de la distribución (histogramas) o valores máximos. El parámetro de comparación depende del problema particular.

Una de las comparaciones más simples es entre las medias de dos o más poblaciones. Si se puede mostrar que la media de una población es diferente que la de las otras poblaciones, podemos concluir que las poblaciones son diferentes. Otros aspectos de las poblaciones también pueden (y deberían) considerarse, pero la media se considera comúnmente como el punto de partida.

Si se desea hacer suposiciones sobre las otras características de las poblaciones (tales como que tengan distribución normal y que sus varianzas son iguales), se puede usar la razón F para comparar las medias de muestras aleatorias extraidas de esas poblaciones. Si estas suposiciones no se cumplen, la prueba no paramétrica de Kruskal-Wallis puede utilizarse

 

SUPOSICIONES Y LIMITACIONES

Las pruebas estadísticas descritas en este capítulo hacen ciertas suposiciones. Una razón para la popularidad de la prueba F es su robustez ante la violación de las suposiciones. Sin embargo, si una suposición no se cumple cuando menos aproximadamente, los niveles de significado estadístico y la potencia de la prueba F son inválidos. Desafortunadamente, en la práctica sucede a menudo que no una, sino varias de las suposiciones no se cumplen; esto complica aún más la situación. Por ello se deben seguir ciertos pasos para revisar las suposiciones antes de tomar decisiones importantes sobre los resultados. Los reportes incluyen secciones para verificar estas suposiciones.

 

Suposiciones del Análisis de Varianza de Una Sola Vía:

1.      Los datos son continuos (no discretos).

2.      Los datos siguen una distribución de probabilidad normal. Cada gupo está distribuido en forma normal al rededor de su media.

3.      Las varianzas de las poblaciones son iguales.

4.      Los grupos son independientes. No hay relación entre los individuos de un grupo comparados con los del otro.

5.      Cada grupo es una muestra aleatoria simple de su población. Cada individuo de la población tiene la misma probabiloidad de ser seleccionado en la muestra.

 

Suposiciones de la Prueba de Kruskal-Wallis:

1.      La variable de interés es continua (no discreta). La escala de medición es al menos ordinal.

2.      Las distribuciones de probabilidad de las poblaciones son idénticas, salvo por la localización. Por ello, aún se requiere que las varianza de las poblaciones sean iguales.

3.      Los grupos son independientes.

4.      Todos los grupos son muestras aleatorias simples de sus respectivas poblaciones. Cada individuo en la población tienen la misma probabilidad de ser seleccionado para la muestra.

 

Limitaciones. Hay pocas limitaciones cuando se usan estas pruebas. El tamaño de la muestra puede ir de unos cuantos a varios cientos. Si los datos son discretos, con al menos cinco valores únicos, se puede asumir que la suposición de continuidad de la variable se cumple. Tal vez la mayor restricción es que los datos provengan de un muestreo aleatorio de la población. Si no se tiene un muestreo aleatorio, los niveles de significado estadístico serán incorrectos.

 

PROCEDIMIENTOS DE COMPARACIÓN MULTIPLE

Propósito General y Descripción. Dado que la prueba de análisis de varianza (ANOVA) encuentra una diferencia significativa entre las medias de los tratamientos, la siguiente tarea sería determinar cuáles de los tratamientos son los diferentes. Los procedimientos de comparación múltiple (MCPs, por sus siglas en inglés) son métodos que indican cuáles tratamientos son diferentes.

Para la discusión, considere el siguiente experimento. Suponga un experimento para estudiar la influencia de dos aditivos de gasolina sobre los kilómetros por litro obtenidos. La primera muestra recibe el aditivo W, la segunda el V y la tercera no recibe aditivo (grupo control).

Si la prueba F del ANOVA para este experimento es significativa, no sabemos cual de los tres posibles pares de grupos son diferentes. Los MCPs pueden ayudarnos a resolver este dilema.

Siempre que se usen MCPs, se deben considerar los siguientes aspectos:

 

Exploración contra Toma de Decisiones. Cuando se realiza una exploración (o fisgoneo de datos), se hacen varias comparaciones para descubrir los factores subyacentes que tienen influencia sobre la respuesta. En este caso no se tiene comparaciones planeadas. En contraste, en el modo de toma de decisiones, se desea determinar cuál de los tratamientos se prefiere. En el ejemplo anterior, debido a que no se conoce que factores tienen influencia sobre el desempeño de los aditivos de gasolina, se debería usar el modo de exploración para identificarlos. Se eligiría el modo de toma de decisiones para elegir el aditivo que proporcione el mayor kilometraje por litro.

 

Eligiendo un Procedimiento de Comparación. Aquí se deben considerar dos aspectos. Primero, ¿se sabe antes o después de la experimentación cuáles comparaciones son las de interés? Segundo, ¿existe un interés en sólo algunas o todas las posibles comparaciones? La elección de un MCP dependerá de la respuesta a estas dos preguntas.

Tasas de Error. Se necesita considerar dos tipos de tasas de error: con respecto a la comparación y con respecto al experimento.

Tasa de error con respecto a la comparación. En este caso, se considera cada comparación de la media como si fuera la única prueba que se realizó. Comúnmente se denota como 'a.' La unidad conceptual es la comparación. Otras pruebas que podrían realizarse se ignoran durante el cálculo de la tasa de error. Si se realizan varias pruebas, la probabilidad de un error tipo I en cada prueba es a.

Tasa de error con respecto al experimento o a la familia. En esta situación, la tasa de error se relaciona con un grupo de pruebas independientes. Es la probabilidad de cometer uno o más errores tipo I en un grupo de comparaciones independientes, Denotaremos esta tasa de error como af.'

La relación entre estas dos tasas de error es:

af=1-(1-a)c

donde c es el número total de comparaciones en la familia. La siguiente tabla muestra esas tasas de error (valores calculados de af ) para unos cuantos valores de c y de a.

 

Tasas de error con respecto al experimento

                                   c

a         2          3         5         10       20

.20       .360     .488     .672     .893     .988

.10       .190     .271     .410     .651     .878

.05       .098     .143     .226     .401     .642

.02       .040     .059     .096     .183     .332

.01       .020     .030     .049     .096     .182

Como puede verse, la posibilidad de que se obtenga al menos un resultado erróneo aumenta en forma importante cuando el número de pruebas se incrementa. Por ejemplo, para obtener un af de 0.05 con una c de 5, se necesitariá que a fuera de 0.01.

 

DEFINICIONES DE LOS PROCEDIMIENTOS DE COMPARACIÓN MÚLTIPLE

Todos los procedimientos de comparación múltiple (MCPs) considerados aquí asumen que hay independencia entre los tratamientos o muestras, varianzas iguales para cada tratamiento y normalidad (excepto para Kruskal-Wallis Z, que no requiere normalidad). Además, las pruebas de significado asumen dos colas.

Considere que y ni representan la media y el tamaño de la muestra del grupo de tratamiento i-ésimo. s2 representa el error cuadrático error de estas medias, basado en v grados de libertad. Sea k el número de tratamientos que se compararán para un factor o interacción.

 

Alfa. Es af, o a, según lo especifique la prueba de comparación múltiple. Es decir, puede ser con respecto a la comparación o con respecto al experimento, dependiendo de la prueba. Esta alfa puede variar de 0.01 a 0.10.

 

Bonferroni (Todos los pares). La MCP de Bonferroni utiliza la tasa de error con respecto a la comparación de modo que controla la af deseada. Con k medias y con un interés en todos los pares posibles, la tasa de error con respecto a la comparación se define como a = af /(k(k-1)). La prueba de significado para cualquier para sería como sigue, donde ta,v es una t de Student con v grados de libertad:

Generalmente, esta MCP ser realiza para encontrar cuál de los pares presenta la diferencia.

 

Bonferroni (Versus Control). Si uno de los tratamientos es un grupo control y quieres comparar todas las otras medias con la media de este grupo control, hay k - 1 comparaciones. Nuevamente, Se debe elegir la tasa de error con respecto a la comparación de modo que se logre que la tasa completa o con respecto al experimento af. La tasa de error con respecto a la comparación es a = af /(2(k-1)). La prueba de significado para cualquiera de dos medias sería la siguiente, donde ta,v es es una t de Student:

 

Comparación. Es una prueba de significado planeada (a priori) para una comparación específica que tendría asociada también una tasa de error con respecto a la comparación. Si se desean hacer varias comparaciones planeadas contenidas dentro de una de las opciones de comparación posibles (el conjunto estándar de comparaciones, el conjunto de polinomios ortogonales, el conjunto de no más de tres contrastes definidos por el usuario), se podría ajustar la tasa de error con respecto a la comparación para lograr una tasa de error completa específica. Esta prueba, con una distribución de Student ta/2,v sería como sigue, donde aj son los coeficientes de comparación:

 

Duncan. Este MCP examina todas las comparaciones entre las k medias, pero la tasa de error no se considera ni con respecto a la comparación, ni con respecto al experimento. La tasa de error se basa en el número de pasos aparte, r, que hay entre las dos medias cuando se ordenan, La probabilidad de rechazar falsamente la igualdad de dos medias de poblaciones cunado las medias de las muestras están r pasos aparte es 1-(1-a)r-1. La prueba de significado se basa en el “rango Studentizado”, qa,r,v:

 

LSD de Fisher. La mínima diferencia significativa de Fisher (FSD por sus siglas en inglés) es una versión especial de la mínima diferencia significativa (LSD). La diferencia entre LSD y FSD es que FSD sólo se usa cuando la prueba F para el término es significativa. LSD y FSD se usan para comparaciones entre pares.

La tasa de error para cada comparación es con respecto a la comparación. Esta prueba no tiene control del la tasa de error con respecto al experimento. La prueba de significado es la siguiente, donde g=a/2 para LSD y g=a/c para FSD.

 

Z de Kruskal-Wallis. Esta MCP es una cimparación multiple independiente de la distribución, por lo que la suposición de normalidad no es necesaria. Debe utilizarse para probar pares de medianas después de la prueba de Kruskal-Wallis. La prueba necesita que el tamaño de la muestra sea al menos de cinco (aunque preferiblemente debe ser mayor) para cada tratamiento. La tasa de error se ajusta en una base con respecto a la comparación para dar una tasa de error con respecto al experimento, af. En lugar de usar medias, esta MCP usa rangos promedio, como lo indica la siguiente fórmula, con a = af /(k(k-1)):

 

Newman-Keuls. La MCP de Newman-Keuls depende del número de pasos ordenados r, donde r va de 2 a k, entre dos medias de las muestras. La tasa de error no es ni con respecto al experimento, ni con respecto a la comparación. En su lugar, está definida por las medias de las muestras con la misma separación de pasos ordenados. Esta prueba se basa en la distribución de “rango Studentizada”.

 

Scheffe. Esta MCP puede utilizarse para examinar todas las posibles comparaciones entre k medias o solo para revisar todos los pares como se hace aquí. Controla la tasa de error total o con respecto al experimento y es menos sensible que la MCP de Tukey-Kramer. La prueba de significado para pares es la siguiente:

 

Tukey-Kramer. Esta prueba puede usarse para examinar todos los pares de medias de tratamientos La tasa de error es con respecto al experimento y usa la distribución de “rango Studentizada”. Esta prueba es conservadora en el sentido de que requiere que los dos promedios deben ser muy diferentes. La prueba de significado es la siguiente:

Recomendaciones, Estas recomendaciones asumen que las suposiciones de normalidad y varianzas iguales son válidas. Si la normalidad no se cumple para cada tratamiento, use la MCP Z de Kruskal-Wallis.

1.      Se planean todos los pares posibles. Si está interesado en realizar comparaciones de pares solamente y lo sabe por adelantado, utilice la prueba para pares de Bonferroni o la MCP de Tukey-Kramer.

2.      Todos los pares posibles sin planeación. Use la MCP de Scheffe.

3.      Cada uno versus un control. Use Bonferroni (versus control).

4.      Seleccionado, pero planeado. Use Comparación (“Comparison”) y ajuste el nivel de alfa para la selección que se haga.

 

 

 

ANOVA PARA MEDICIONES REPETIDAS

 

INTRODUCCIÓN

Este procedimiento realiza un análisis de varianza en diseños de mediciones repetidas (dentro-sujetos) usando la aproximación de modelos lineales generales. El diseño experimental puede incluir hasta tres términos entre-sujetos así como con tres dentro del sujeto. Se proporcionan las pruebas de comprobación de suposiciones sobre las matrices de covarianza dentro-sujetos M de Box y de Mauchley. Los niveles de probabilidad corregidos de Geisser-Greenhouse, Box y Huynh-Feldt en las pruebas F dentro-sujetos se dan junto con las pruebas de potencia asociadas.

Los diseños de mediciones repetidas son populares ya que permiten que el sujeto sea su mismo control. Esto mejora la precisión del experimento al reducir el tamaño de la varianza del error en muchas de las pruebas F, pero requiere de suposiciones adicionales relacionadas con la estructura de la varianza del error.

Este procedimiento usa el marco del modelo lineal general (GLM por sus siglas en inglés) para realizar sus cálculos. Se pueden obtener resultados idénticos usando el programa GLM ANOVA. La entrada del usuario a este procedimiento es simplemente el panel GLM modificado para permitir una especificación más directa de un modelo de mediciones repetidas. Para mayores detalles sobre los cálculos e interpretaciones del análisis de varianza, revise el capítulo de GLM ANOVA; aquí se proporcionará información específica para el análisis de mediciones repetidas.

 

Un ejemplo

Esta sección da un ejemplo de un experimento de mediciones repetidas. Se realizó un experimento para estudiar los efectos de cuatro medicamentos sobre el tiempo de reacción a un conjunto de pruebas usando cinco sujetos.

 

Sujeto  Med1  Med2  Med3  Med4

1          30        28        16        34

2          14        18        10        22

3          24        20        18        30

4          38        34        20        44

5          26        28        14        30

 

Discusión

Una forma de categorizar los diseños experimentales es entre-sujetos o dentro-sujetos. Los diseños factoriales comunes son ejemplos de diseños entre-sujetos, en los cuales las unidades experimentales (los sujetos) se asignan a condiciones de tratamiento separadas. Generalmente, la asignación se realiza en forma aleatoria. El experimentador desea saber si la variabilidad sujeto a sujeto es menor que la variabilidad tratamiento a tratamiento. La suposición básica es que los sujetos son independientes uno del otro.

Los diseños dentro-sujetos son aquellos en los que se realizan múltiples mediciones en el mismo individuo. Debido a que la respuesta al estímulo normalmente varía menos dentro de un individuo que entre individuos, la variabilidad dentro del sujeto es normalmente menor (o cuando más igual a) la variabilidad entre-sujetos. Reduciendo la variabilidad subyacente se puede reducir el tamaño de la muestra lo que reduce los costos.

 

Desventajas de los Diseños Dentro-Sujetos.

La principal ventaja de los diseños dentro-sujetos es la variabilidad reducida que se logra al controlar las diferencias de un sujeto al siguiente. Hay varias desventajas con este tipo de diseños:

1.      Efecto de práctica. En algunos experimentos, los sujetos mejoran sistemáticamente cuando practican la prueba mientras son estudiados. In otros casos, los sujetos pueden empeorar sistemáticamente ya que se fatigan o aburren con la prueba experimental. Sólo el tratamiento administrado primero es inmune a los efectos de práctica. Por ello, los experimentadores hacen esfuerzos para balancear el número de sujetos que recibe cada tratamiento primero.

2.      Efecto de transferencia. En muchos estudios, por ejemplo con medicamentos, es importante “lavar” completamente un tratamiento (medicamento) antes de que el siguiente sea administrado. De otra manera, la influencia del primero puede transferirse sobre la respuesta del segundo. Los efectos de práctica se refieren a un cambio general en la respuesta porque la prueba se repite, pero los efectos de transferencia se refieren a efectos específicos duraderos de un tratamiento particular.

3.      Análisis estadístico. El modelo estadístico que justifica el análisis es muy restrictivo ya que las respuestas individuales deben tener ciertas propiedades matemáticas. También, respuestas faltantes son mucho más difíciles de contender para este caso.

4.      Generalizable. Los experimentadores asumen que las diferencias entre tratamientos son independientes del diseño. Es decir, si se realiza un diseño completamente aleatorio, las mismas diferencias entre tratamientos deberían observarse. Esto no siempre es cierto.

Aún con todas estas desventajas, los diseños de mediciones repetidas (dentro-sujetos) son populares en muchas áreas de investigación. Es importante que se reconozcan estos problemas ahora en lugar de aprenderlos después de que el experimento se ha concluido.

 

SUPOSICIONES Y VALORES FALTANTES

Suposiciones

Las siguiente suposiciones se hacen cuando se usa la prueba F para analizar un diseño experimental factorial.

1.         La variable de respuesta es continua.

2.         Los residuos siguen una distribución de probabilidad normal con media igual a cero y varianza constante.

3.         Los sujetos son independientes. Dado que en un diseño dentro-sujetos las respuestas provenientes del mismo sujeto no son independientes, por lo que la suposición tres debe modificarse para respuestas dentro de un sujeto. La independencia entre los sujetos se sigue asumiendo.

4.         Las matrices de covarianza dentro-sujetos son iguales para todos los grupos entre-sujetos. En este tipo de experimentos, las mediciones repetidas en un sujeto pueden pensarse como un vector de respuesta multivariada con cierta estructura de covarianza. Esta suposición plantea que estas matrices de covarianza son constantes de grupo a grupo. Esta suposición se prueba con la prueba M de Box. Por supuesto, esta suposición es innecesaria en diseños de un solo grupo.

5.         Todas las matrices de covarianza dentro-sujetos son circulares. Una forma de definir circularidad es que las varianzas de las diferencias entre cualquier par de mediciones dentro de un sujeto sean constantes. Ya que las respuestas cercanas en tiempo tienen a menudo una correlación mayor que aquellas más distantes, es común que esta suposición se viole. La suposición se verifica con l prueba se Mauchley estudiando los valores de epsilon (definidos más adelante). La suposición de circularidad no es necesaria cuando se realizan solo dos mediciones repetidas.

El programa proporciona pruebas foramales para todas estas suposiciones. Sin embargo, las pruebas tienen sus propias suposiciones que pueden a su vez ser violadas. de modo que una estrategia más común es asumir que la circularidad se viola y tomar un acción apropiada en consecuencia. NCSS lo hace en forma automática.

 

Valores Faltantes

Hay dos tipos de desbalance que puede ocurrir en diseños de mediciones repetidas. Primero, en diseños multigrupo, puede haber un número diferente de sujetos en cada grupo. Este tipo de desbalance no causa problemas en las pruebas F. Segundo, algunos individuos pueden no tener todas sus mediciones. Cuando esto ocurre, el programa hace la suposición adicional de que los efectos de la muestra dentro-sujetos suman cero. Se deben realizar todos los esfuerzos para evitar valores faltantes por esta suposición adicional que debe hacerse; sin embargo, aún con la presencia de datos faltantes, se puede llegar a conclusiones significativas.

 

DETALLES TÉCNICOS

Además de la diferencia en el formato del panel de entrada, la principal diferencia entre este procedimiento y el GLM es la inclusión de la corrección Geisser-Greenhouse y las pruebas de suposiciones asociadas. Por ello, aquí presentaremos sólo esos resultados. Puede obtener más una visión general mayor en los capítulos de Análisis de Varianza de Una Sola Vía y en el de Modelos Lineales Generales.

 

Suposiciones de la Matriz de Covarianza

La matriz de covarianza para un diseño con m sujetos y k mediciones por sujeto puede representarse como

Para tener pruebas F válidas en un diseño de mediciones repetidas se requiere que la matriz de covarianza sea una matriz tipo H. Una matriz tipo H tiene la propiedad de circularidad

donde Ik es la matriz de identidad de orden k y l es una constante. Esta propiedad puede definirse también como

Un tipo de matriz que tiene esta propiedad es aquella con simetría compuesta; tiene todos los elementos de la diagonal principal iguales y todos los elementos fuera de la diagonal principal iguales. Un ejemplo de una matriz de covarianza con simetría compuesta es

Un ejemplo de una matriz tipo H que no tiene simetría compuesta es

Note que si los elementos de la diagonal principal son iguales, lo que implica que las variaciones dentro de cada sujeto son constantes, una matriz tipo H tiene simetría compuesta.

 

Épsilon

Épsilon es una medición de la extensión en la cual una matriz de covarianza se desvía de la circularidad. Fue desarrollada por Box (ver Winer 1991 o Kira 1982) y se estima como

donde la matriz de covarianza estimada está dada por

y k es el número de niveles del factor dentro-sujetos.

Esta medición puede reescribirse en términos de las raíces características de la matriz de covarianza de la muestra como

Este estimador tiene sesgo, especialmente para valores grandes de épsilon. Para corregir este sesgo, Huynh y Feldt desarrollaron otro estimado de épsilon que se calcula como

donde N es el número total de sujetos.

El rango de épsilon es

Cuando , la matriz es circular. Cuando , la matriz difiere en forma máxima de la circularidad.

El estimador de Box tiende a subestimar épsilon y el estimador de Huynh-Feldt, a sobreestimarlo. A partir de estudios por simulación se ha encontrado que el estimador de Box es el que debe utilizarse para ajustar las pruebas F.

 

Ajuste de Geisser-Greenhouse

Todas las razones F de los factores e interacciones dentro-sujetos requieren de la suposición de que la matriz de covarianza es tipo H para que las razones F sigan una distribución F con grados de libertad df1 y df2. Cuando la matriz de covarianza no es tipo H, Geisser y Greenhouse sugieren que la distribución de la razón F se aproxime con una distribución F con grados de libertad y donde  se ajuste a su mínimo, esto es,

 

Box sugiere que en lugar de usar el mínimo para ajustar los grados de libertad, se use su valor estimado, . Considerando que  tiene sesgo, Huynh y Feldt sugirieron que se use . Estudios por simulación han mostrado que el ajuste de Box consistentemente da los niveles de significado más exactos.

 

Prueba de Simetría Compuesta de Mauchley

Mauchley desarrolló una prueba para determinar si una matriz de covarianza tiene simetría compuesta. Las fórmulas para esta prueba, dadas en Winer 1991, son las siguientes. Sea

donde g es el número de grupos, N el número de sujeto, es una matriz kxk de covarianzas de grupo juntadas con pesos iguales al número de sujetos en el grupo menos uno, y

donde es la media de entradas en la diagonal principal de  y  es la media de entradas fuera de la diagonal de .

Entonces,

está distribuida aproximadamente como una variable aleatoria chi-cuadrada con df grados de libertad.