Descripción de la mejora numérica en las herramientas ANOVA de las Herramientas para análisis de Excel

Seleccione idioma Seleccione idioma
Id. de artículo: 829215 - Ver los productos a los que se aplica este artículo
Expandir todo | Contraer todo

En esta página

Resumen

El artículo describe las mejoras numéricas en cada uno de los tres componentes de la Herramientas para análisis Anova. También ejemplifica este artículo los resultados imprecisos de Microsoft Excel 2002 y de versiones anteriores de Excel en situaciones extremas.

Más información

Muchas funciones requieren el cálculo de la suma de las desviaciones cuadráticas acerca de una media. Para hacerlo con exactitud, Microsoft Office Excel 2003 y las versiones posteriores de Excel usan un procedimiento de dos pasos que encuentra la media en el primer paso y, después, calcula las desviaciones cuadráticas relativas a la media en el segundo paso.

En aritmética precisa, se produce el mismo resultados en las versiones anteriores de Excel que usan la "fórmula calculadora". Esta fórmula se llama así por su uso extendido cuando los estadísticos utilizaban calculadoras en lugar de equipos informáticos. Con la fórmula calculadora, las versiones anteriores de Excel suman los cuadrados de las observaciones y después restan de este total la cantidad siguiente:
((sum of observations)^2) / number of observations
Este cálculo se produce en un solo paso por los datos.

En la aritmética de precisión finita, la fórmula calculadora está sometida a errores de redondeo en los casos extremos. Excel 2002 y las versiones anteriores de Excel usan la fórmula calculadora para la mayoría de funciones que requieren una suma de desviaciones cuadráticas relativas a una media (como VAR, DESVEST, PENDIENTE y PEARSON). Sin embargo, las versiones de Excel también usan un procedimiento en dos pasos numéricamente más sólido para las funciones COEF.DE.CORREL, COVAR y DESVIA2.

Los expertos en informática estadística recomiendan que no se use la fórmula calculadora. La fórmula calculadora se presenta en la lista de "cómo no hacerlo" en los textos sobre informática estadística. Desafortunadamente, los tres componentes de las Herramientas para análisis (ATP) Anova hacen un uso extenso de la fórmula calculadora o un enfoque equivalente de un solo paso en Excel 2002 y en las versiones anteriores de Excel.

Excel 2003 y las versiones posteriores de Excel usan el procedimiento en dos pasos para los tres modelos de ATP Anova. Este artículo analiza las siguientes mejoras informáticas en los tres modelos Anova de ATP:
  • Un solo factor
  • Dos factores con réplica
  • Dos factores sin réplica
El presente artículo analiza esos modelos posteriormente.

Como Excel siempre ha utilizado el procedimiento en dos pasos con DESVIA2. este artículo lo usa con frecuencia para describir los procedimientos mejorados. Estos procedimiento revisados llaman efectivamente a DESVIA2 o usan código cuya funcionalidad es exactamente la misma.

Por cada herramienta Anova, el resultado de las ATP contiene una tabla Resumen con valores de Cuenta, Suma, Media y Varianza, y una tabla Anova que tiene varias sumas de cuadrados y valores de SS, df, MS, F y valor P. Los resultados de la tabla de resumen se calculan llamando a las funciones Excel CONTAR, SUMA, PROMEDIO y VAR. De estas cuatro funciones, solamente VAR está sometida a errores de redondeo.

Excel 2002 y las versiones anteriores de Excel implementan VAR utilizando la fórmula calculadora. El artículo siguiente acerca de VAR describe las mejoras que se han producido en Excel 2003 y en versiones posteriores de Excel. El presente artículo también le permite experimentar con datos numéricos para conocer la probabilidad de que se produzcan errores de redondeo en las versiones anteriores de Excel.

Para obtener más información acerca de VAR, haga clic en el número de artículo siguiente para verlo en Microsoft Knowledge Base:
826112 Funciones estadísticas de Excel: VAR


Como este artículo analiza los tres modelos de Anova, se centra en las tablas de resultados de Anova. En todos los casos, las tablas de Resumen tienen un buen comportamiento en Excel 2003 y en versiones posteriores de Excel. En Excel 2002 y en las versiones anteriores de Excel, se producen problemas en la columna Varianza cuando los datos tienen valores extremos.

Sin embargo, este artículo incluye las tablas de Resumen en las secciones de modelo porque estas tablas son útiles para la comparación cuando revisa los ejemplos modificados del Apéndice.

Modelo 1: Un solo factor

Un ejemplo simple con datos es como sigue:
Contraer esta tablaAmpliar esta tabla
MODELO BÁSICO DE ANOVA 1:
123
244
365
486
57
68
Anova: Un solo factor
RESUMEN
GruposCuentaSumaPromedioVarianza
Columna 16213,53,5
Columna 242056,666667
Columna 36335,53,5
ANOVA
Fuente de la variaciónSSdfMSFValor PF crítico
Entre grupos12,7526,3751,5068180,2578973,805567
Dentro de los grupos55134,230769
Total67,7515
Excel 2002 y las versiones anteriores de Excel usan el seudocódigo siguiente para calcular la suma de los cuadrados:
GrandSum = 0;
GrandSumOfSqs = 0; 
GrandSampleMeanSqrd = 0; 
GrandMeanSqrd = 0; 
GrandSampleSize = 0;

For s = 1 to Number_of_Samples do
   GrandSum = GrandSum + sum of observations in s-th sample;
   GrandSumOfSqs = GrandSumOfSqs + sum of squared observations in s-th sample;
   GrandSampleMeanSqrd = GrandSampleMeanSqrd  +
      (sum of observations in s-th sample^2)/size of s-th sample;
   GrandSampleSize = GrandSampleSize + size of s-th sample
Endfor;

GrandMeanSqrd = (GrandSum^2) / GrandSampleSize;

TotalSS = GrandSumOfSqs ? GrandMeanSqrd;
BetweenGroupsSS = GrandSampleMeanSqrd ? GrandMeanSqrd;
WithinGroupsSS = GrandSumOfSqs ? GrandSampleMeanSqrd;
Este enfoque es, esencialmente, la fórmula calculador. Este enfoque calcula las sumas de los cuadrados de las observaciones y, después, resta una cantidad de ellos, al igual que VAR calcula la suma de los cuadrados de las observaciones y, después resta la suma de las observaciones^2/tamaño de la muestra. Se ha omitido un seudocódigo similar para los modelos 2 y 3.

También para los modelos 2 y 3, las sumas de los cuadrados se calculan y se resta una cantidad de la suma de los cuadrados, como en la fórmula calculadora. Desafortunadamente, los textos de estadística básicos sugieren enfoques para Anova como el que se muestra anteriormente para este artículo.

Excel 2003 y las versiones posteriores de Excel usan un enfoque diferente para calcular las diversas entradas en la columna SS de la tabla Anova. Para facilitar el ejemplo, este artículo supone que los datos numéricos del ejemplo anterior aparecen en las celdas A2:C7 con datos perdidos en las celdas B6 y B7.
  • El Total SS es DESVIA2 aplicado a todos los datos, como DESVIA2(A2:C7). DESVIA2 funciona correctamente aunque haya datos perdidos.
  • Entre grupos SS es el Total SS menos la suma de DESVIA2 aplicado a cada columna, como DESVIA2(A2:A7) + DESVIA2(B2:B7) + DESVIA2(C2:C7).
  • Dentro de grupos SS es Total SS menos Entre grupos SS.
Si las entradas de la columna SS de la tabla Anova se calculan correctamente, son exactas las otras entradas de la tabla.

Modelo 2: Dos factores con réplica

Un ejemplo simple con datos es como sigue:
Contraer esta tablaAmpliar esta tabla
MODELO BÁSICO DE ANOVA 2grupo 1grupo 2grupo 3
prueba 1123
244
365
prueba 2486
5107
6128
Anova: Dos factores con réplica
RESUMENgrupo 1grupo 2grupo 3Total
prueba 1
Cuenta3339
Suma6121230
Promedio2443,333333
Varianza1412,5
prueba 2
Cuenta3339
Suma15302166
Promedio51077,333333
Varianza1416,25
Total
Cuenta666
Suma214233
Promedio3,575,5
Varianza3,5143,5
ANOVA
Fuente de la variaciónSSdfMSFValor PF crítico
Ejemplo72172366,22E-054,747221
Columnas37218,59,250,0037093,88529
Interacción924,52,250,1479733,88529
Dentro24122
Total14217
Si las entradas de la columna SS se calculan correctamente, son exactas todas las otras entradas de la parte Anova del resultado.

Este es el procedimiento informático para Excel 2003 y para versiones posteriores de Excel. Este procedimiento usa DESVIA2 para calcular las diversas entradas en la columna SS de la tabla Anova. Para facilitar la comprensión, este ejemplo supone que los datos numéricos aparecen en las celdas B2:D7.
  • El Total SS es DESVIA2 aplicado a todos los datos, como DESVIA2(A2:C7).
  • El ejemplo SS es el Total SS menos la suma de DESVIA2 aplicado a cada ejemplo, como DESVIA2(B2:D4) + DESVIA2(B5:D7).
  • Entre grupos SS es el Total SS menos la suma de DESVIA2 aplicado a cada columna, como DESVIA2(B2:B7) + DESVIA2(C2:C7) + DESVIA2(D2:D7).
  • Dentro de SS es la suma de DESVIA2 aplicada a cada pareja de prueba o de grupo, como DESVIA2(B2:B4) + DESVIA2(C2:C4) + DESVIA2(D2:D4) + DESVIA2(B5:B7) + DESVIA2(C5:C7) + DESVIA2(D5:D7).
  • La interacción de SS iguala al Total SS menos Ejemplo SS menos Columnas SS menos Dentro de SS.

Modelo 3: Dos factores sin réplica

Un ejemplo simple con datos es como sigue:
Contraer esta tablaAmpliar esta tabla
MODELO BÁSICO DE ANOVA 3:BAJ MED ALT
CLASE BAJA123
244
365
CLASE MEDIA486
5107
6128
CLASE ALTA71410
8126
9102
Anova: Dos factores sin réplica
RESUMENCuentaSumaPromedioVarianza
CLASE BAJA3621
3103,3333331,333333
3144,6666672,333333
CLASE MEDIA31864
3227,3333336,333333
3268,6666679,333333
CLASE ALTA33110,3333312,33333
3268,6666679,333333
321719
BAJ 94557,5
MED 9788,66666716
ALT9515,6666676,25
ANOVA
Fuente de la variaciónSSdfMSFValor PF crítico
Filas176,6667822,083335,760870,0014762,591094
Columnas68,66667234,333338,9565220,0024553,633716
Error61,33333163,833333
Total306,666726
Si los valores de la columna SS se calculan correctamente, son exactos los otros valores de la tabla Anova.

Excel 2003 y las versiones posteriores de Excel usan el siguiente procedimiento de cálculo. El procedimiento usa DESVIA2 para calcular los valores la columna SS de la tabla Anova. Para facilitar la comprensión, este ejemplo supone que el intervalo de las celdas que se muestran en el ejemplo anterior es el de las celdas A1:D10. Por tanto, los datos numéricos aparecen en las celdas B2:D10.
  • El Total SS es DESVIA2 aplicado a todos los datos, como DESVIA2(B2:D10).
  • LAs filas SS es Total SS menos la suma de DESVIA2 aplicado a cada fila, como DESVIA2(B2:D2) + DESVIA2(B3:D3) + DESVIA2(B4:D4) + DESVIA2(B5:D5) + DESVIA2(B6:D6) + DESVIA2(B7:D7) + DESVIA2(B8:D8) + DESVIA2(B9:D9) + DESVIA2(B10:D10).
  • Entre grupos SS es el Total SS menos la suma de DESVIA2 aplicado a cada columna, como DESVIA2(B2:B10) + DESVIA2(C2:C10) + DESVIA2(D2:D10).
  • Error SS es Total SS menos Filas SS menos Columnas SS.

Resultados en Excel 2002 y en versiones anteriores de Excel

En los casos extremos en los que hay muchos dígitos significantes en los datos, pero también una pequeña varianza, la fórmula calculadora causa resultados inexactos. El apéndice que aparece posteriormente en este artículo da ejemplos de problemas de redondeo en esas situaciones extremas.

Los resultados de Excel 2003 y de las versiones posteriores de Excel

Excel 2003 y las versiones posteriores de Excel usan un procedimiento que realiza dos pasos por los datos. En el primer paso, Excel 2003 y las versiones posteriores de Excel calculan la suma y la cuenta de los valores de datos. A partir de estos valores, Excel puede calcular la media de ejemplo (promedio).

En el segundo paso, Excel calcula la diferencia cuadrática entre cada punto de dato y la media simple, y después suma estas diferencias cuadráticas. En consecuencia, los resultados de Excel 2003 y de las versiones posteriores de Excel son numéricamente más estables.

Conclusiones

Un enfoque de dos pasos mejora el rendimiento numérico en las tres herramientas ATP Anova de Excel 2003 y de versiones posteriores de Excel 2002 en comparación con las versiones anteriores de Excel. Los resultados que obtenga usando Excel 2003 y las versiones posteriores de Excel no son nunca menos exactos que los que obtenga usando las versiones anteriores de Excel.

En los casos más prácticos, sin embargo, no hay diferencia entre los resultados. Ello se debe a que los datos no muestran típicamente el tipo de comportamiento inusual que ejemplifica el Apéndice siguiente. La inestabilidad numérica es más probable que se produzca en las versiones anteriores de Excel cuando los datos contienen un número alto de dígitos significativos y relativamente poca variación entre los valores de datos.

Si usa una versión anterior de Excel y desea ver si Excel 2003 o una versión posterior de Excel le da resultados Anova diferentes, compare los resultados que obtiene cuando usa las herramientas Anova de su versión anterior de Excel con los resultados que obtiene cuando utiliza los procedimientos que utilizan DESVIA2.

Nota: los procedimientos que usan DESVIA2 fueron descritos anteriormente en este artículo para la tabla Anova asociada con cada una de las herramientas.

Para comprobar que las Varianzas son correctas en la tabla Resumen para cada intervalo, use DESVIA2(intervalo)/(CUENTA(intervalo) ? 1).

Apéndice: Ejemplos numéricos del rendimiento de Excel 2002 y las versiones anteriores de Excel

En cada uno de los ejemplos básicos de los modelos 1, 2 y 3, este artículo presentó previamente el resultado de la herramienta ATP. Esto incluye las tablas Resumen y Anova. Los datos se modificaron en cada ejemplo para crear un ejemplo "enfatizado". Eso se hace agregando 10^8 a cada valor de datos. Agregar una constante como 10^8 a cada valor de datos no afecta a la Varianza de la tabla Resumen (pero afectará a Promedio y Suma de manera evidente). No debería afectar a ninguna entrada de la tabla Anova.

Si compara las Varianzas de las tablas Resumen con SS de las tablas Anova, observará que todas están incorrectamente calculadas en los tres siguientes modelos enfatizados, salvo por una entrada del modelo 3 que es señalado con "<---".

En los casos enfatizados, los resultados Anova que obtenga usando Excel 2003 y versiones posteriores de Excel se corresponden con los resultados anteriores de los casos básicos (tal como debieran).

Modelo enfatizado ANOVA 1 con valores de datos grandes

Contraer esta tablaAmpliar esta tabla
100000001100000002100000003
100000002100000004100000004
100000003100000006100000005
100000004100000008100000006
100000005100000007
100000006100000008
Anova: Un solo factor
RESUMEN
GruposCuentaSumaPromedioVarianza
Columna 166000000211E+084,8
Columna 244000000201E+088
Columna 366000000331E+081,6
ANOVA
Fuente de la variaciónSSdfMSFValor PF crítico
Entre grupos020013,805567
Dentro de los grupos64134,923077
Total6415

Modelo enfatizado ANOVA 2 con valores de datos grandes

Contraer esta tablaAmpliar esta tabla
grupo 1grupo 2grupo 3
prueba 1100000001100000002100000003
100000002100000004100000004
100000003100000006100000005
prueba 2100000004100000008100000006
100000005100000010100000007
100000006100000012100000008
Anova: Dos factores con réplica
RESUMENgrupo 1grupo 2grupo 3Total
prueba 1
Cuenta3339
Suma3000000063000000123000000129E+08
Promedio1000000021000000041000000041E+08
Varianza0404
prueba 2
Cuenta3339
Suma3000000153000000303000000219E+08
Promedio1000000051000000101000000071E+08
Varianza0406
Total
Cuenta666
Suma600000021600000042600000033
Promedio100000004100000007100000005,5
Varianza4,814,41,6
ANOVA
Fuente de la variaciónSSdfMSFValor PF crítico
Ejemplo64164240,0003674,747221
Columnas3221660,0156253,88529
Interacción3221660,0156253,88529
Dentro32122,666666667
Total12817

Modelo enfatizado ANOVA 3 con valores de datos grandes

Contraer esta tablaAmpliar esta tabla
BAJ MED ALT
CLASE BAJA100000001100000002100000003
100000002100000004100000004
100000003100000006100000005
CLASE MEDIA100000004100000008100000006
100000005100000010100000007
100000006100000012100000008
CLASE ALTA100000007100000014100000010
100000008100000012100000006
100000009100000010100000002
Anova: Dos factores sin réplica
RESUMENCuentaSumaPromedioVarianza
Fila 133000000061000000020
Fila 233000000101000000032
Fila 333000000141000000052
Fila 433000000181000000064
Fila 533000000221000000076
Fila 6330000002610000000910
Fila 7330000003110000001012
Fila 8330000002610000000910
Fila 9330000002110000000718
Columna 199000000451000000058
Columna 2990000007810000000914
Columna 399000000511000000064
ANOVA
Fuente de la variaciónSSdfMSFValor PF crítico
Filas12881620,1132812,591094
Columnas3221620,1677723,633716
Error128168
Total28826

Propiedades

Id. de artículo: 829215 - Última revisión: lunes, 21 de enero de 2008 - Versión: 2.0
La información de este artículo se refiere a:
  • Microsoft Office Excel 2007
  • Microsoft Office Excel 2003
Palabras clave: 
kbinfo kbprogramming kbfunctions kbfuncstat kbexpertisebeginner KB829215

Enviar comentarios

 

Contact us for more help

Contact us for more help
Connect with Answer Desk for expert help.
Get more support from smallbusiness.support.microsoft.com