現在オフラインです。再接続するためにインターネットの接続を待っています

Excel で分析ツールの t 検定を使用すると不正確な結果および誤解を招くラベルが表示されることがある

Office 2003 のサポートは終了しました

マイクロソフトでは、2014 年 4 月 8 日に Office 2003 のサポートを終了しました。この変更は、ソフトウェアの更新プログラムおよびセキュリティ オプションに影響しています。 この変更の意味および保護された状態を維持する方法について説明します。

概要
この資料では、"一対の標本による平均の検定" という名前の分析ツール (Analysis ToolPak) の t 検定用ツールについて説明します。このツールは、Microsoft Office Excel 2003 およびそれ以降のバージョンの Excel では変更されていません。しかし、データが不足していると、このツールは不正確な結果を返します。また、データに不足がない場合でも、ツールで出力されるラベルに誤解を招く表記が含まれています。

Microsoft Excel 2004 for Macintosh の情報

Excel 2004 for Mac の統計関数は、Excel 2003 およびそれ以降のバージョンの Excel の統計関数を更新するために使用されたものと同じアルゴリズムを使用して更新されました。この資料に記載されている、Excel 2003 およびそれ以降のバージョンの Excel の関数の機能および関数の変更内容に関する情報は、Excel 2004 for Mac にも適用されます。
詳細
ある対象についての同一の実験で、その前後の観測値がある場合は、一般的に、一対の標本による t 検定 (Paired Two Sample t-Test。または、Matched Pairs t-Test とも呼ばれます) を利用します。たとえば、30 日間のダイエット計画の実施前後に被験者の体重を測定した場合などです。

一般的に、実験前の観測値または実験後の観測値が不足している被験者に関するデータは、除外されます。被験者に関するデータが不完全な場合、その被験者についての情報は利用できません。しかし、この分析ツールの動作は、一般的な方法とは異なっています。この分析ツールでは、最初に、実験前の観測値がある被験者の数と実験後の観測値がある被験者の数を数えます。これらの合計が異なる場合は、エラー メッセージが表示され、この分析ツールは処理を中断します。したがって、たとえば 49 名の被験者にはいずれも実験の前後の観測値があっても、50 番目の被験者に実験前の観測値しかない場合、このツールでは分析が実行されません。

実験前のデータが不足している被験者の数と実験後のデータが不足している被験者の数が等しく、この数値が正数であると、ツールは不適切な分析を実行します。たとえば、50 名の被験者がいると仮定します。被験者 A は実験前の観測値が不足しており、被験者 B は実験後の観測値が不足しています。それ以外の 48 名の被験者にはデータの不足はないとします。このツールは、49 の実験前の観測値と 49 の実験後の観測値を数えて、データの不足がない被験者が 49 名いるのと同じ動作をします。これは、実験前の値または実験後の値が不足している被験者は除外されるという期待に反する動作です。この例では、被験者の数は 49 ではなく 48 にする必要があります。このため、ツールでは、誤った値の自由度が使用されます。また、このツールでは被験者 A の実験後の観測値も被験者 B の実験前の観測値も除外しないため、これら 2 名の観測値は、t 統計値で使用される標本の平均値の計算に含まれることになります。したがって、計算されるこれらの標本の平均値は不適切な結果になります。

つまり、データが不足している場合、このツールでは計算が実行されないか、不適切な数式を使用して計算が実行されるため、このツールを使用するのは適切ではありません。後者の現象は、実験前のデータが不足している被験者の数と実験後のデータが不足している被験者の数が等しい場合に発生します。

この資料の「使用例」にある例では、これらの問題と、ツールの出力に含まれる誤解を招くラベルについて説明します。「回避策」では、ツールの使用前にデータが不足していることを検証できない場合の回避策を紹介します。

使用例

データの不足による問題を実際に確認するには、空の Excel ワークシートを作成します。次の表をコピーし、空の Excel ワークシートのセル A1 をクリックしてから貼り付けると、表の各項目がワークシートのセル A1:I52 に入力されます。
実験 1実験 2実験 3実験 3 (データに不足がある
実験前実験後実験前実験後実験前実験後対象を除外するよう変更後)
200170200170200170200170
190180190180190180190180
180175180175180175180175
170175170175170175170175
160165160165160165160165
150140150140150140150140
140130140130130130125
130125130125130125120125
120125120125120125110100
110100110100110100
100100100100
両側 t 検定の結果
=TTEST(A3:A13, B3:B13,2,1)=TTEST(C3:C13, D3:D13, 2, 1)=TTEST(E3:E13, F3:F13, 2, 1)
=TTEST(C3:C12, D3:D12, 2, 1)=TTEST(G3:G11, H3:H11, 2, 1)
分析ツールの結果 (実験 1)
t 検定: 一対の標本による平均の検定
変数 1変数 2
平均150144.090909090909
分散1100914.090909090909
観測数1111
ピアソン相関0.952384533866487
仮説平均との差0
自由度10
t 統計値1.92092590483801
P(T<=t) 片側0.0418403929085198
t 境界値 片側1.81246110219722
P(T<=t) 両側0.0836807858170396
t 境界値 両側2.22813884242587
分析ツールの結果 (実験 2)
観測値の数が異なるため計算されず
分析ツールの結果 (実験 3)
t 検定: 一対の標本による平均の検定
変数 1変数 2
平均151148.5
分散1210778.055555555556
観測数1010
ピアソン相関0.936537537274845
仮説平均との差0
自由度9
t 統計値0.141327169509421
P(T<=t) 片側0.445362157564494
t 境界値 片側1.83311292255007
P(T<=t) 両側0.890724315128988
t 境界値 両側2.26215715817358

この表を Excel ワークシートに貼り付けたら、[貼り付けのオプション] をクリックし、[貼り付け先の書式に合わせる] をクリックします。貼り付けた範囲を選択した状態のまま、実行している Excel のバージョンに応じて、次のいずれかの方法を使用します。
  • Microsoft Office Excel 2007 では、[ホーム] タブをクリックし、[セル] の [書式] をクリックして、[列の幅の自動調整] をクリックます。
  • Excel 2003 では、[書式] メニューの [列] をポイントし、[選択範囲に合わせる] をクリックします。
このワークシートを使用すると、Excel の TTEST 関数の結果と分析ツールの結果を比較できます。実験 1 では、11 の対象について完全なデータが示されています。セル A16 の TTEST の値は、自由度 10 の t 分布を仮定した場合に t 統計値が観測値よりも大きくなる確率です。この値 0.837 は、セル B32 のツールの出力にも示されています。セル A32 のラベルは、"P(T<=t) 両側" ではなく "P(T >= |t|) 両側" と読み替える必要があります。ただし、実験 1 では不足しているデータはないため、結果の数値は正しくなっています。同様に、セル A30 のラベルは "P(T<=t) 片側" ではなく "P(T >= |t|) 片側" と読み替える必要があります。"t 境界値" の値は正しくなっています。これらは、デフォルトの有意水準 0.05 に対応する値であり、正しい値の自由度 10 が使用されています。

実験 2 では、1 つの対象で実験後の観測値が 1 つ不足していますが、それ以外に不足しているデータはありません。ツールでは計算が中断されます。C16 と C17 の TTEST の値は等しくなっています。セル C16 では、データのセル範囲 C3:D13 が使用されています。これには、唯一データが不足している最後の対象が含まれています。セル C17 では、データのセル範囲 C3:D12 が使用されています。これは、最初の 10 個の対象に関する実験に相当するもので、データの不足はありません。結果が等しくなったことは、セル C16 で TTEST が呼び出されたときに、TTEST によって、データが不足している対象が適切に除外されたことを示しています。

実験 3 では、2 つの異なる対象で実験前の観測値と実験後の観測値に 1 つずつ不足があります。実験 3 (変更後) では、データの不足がないそれ以外の 9 個の対象が示されています。セル E16 と E17 の TTEST の結果は等しくなっています。セル E16 では、セル範囲 E3:F13 の実験 3 のデータで TTEST が呼び出されています。セル E17 では、セル範囲 G3:H11 の実験 3 (変更後) のデータで TTEST が呼び出されています。結果が等しいのは、データが不足している 2 つの対象である実験 3 の 7 番目と 11 番目の対象を TTEST が適切に除外しているためです。実験 3 のツールの出力を確認すると、セル B44 と C44 にある実験の前後の観測数の値は、いずれも 10 になっています。SUM(E3:E13) が 1510 で、SUM(F3:F13) が 1485 であることは、それぞれの範囲の観測数が 10 で、それらの平均がセル B42 と C42 に示されている 151 と 148.5 であることから簡単に確認できます。したがって、このツールは、いずれの対象も除外しておらず、7 番目の対象の実験後の観測値と 11 番目の対象の実験前の観測値は分析の際に含められています。9 個の対象が使用され、自由度 df は 8 になる必要があるため、セル B47 の自由度は不適切な値です。このため、不正確な境界値の項目がセル B50 と B52 に作成されます (また、それらのエントリに対応する誤解を招くラベルもセル A50 と A52 に作成されます)。

すべてのバージョンの Excel の計算結果

このツールは、Excel 2003 およびそれ以降のバージョンの Excel で修正されていません。

すべてのバージョンの Excel に対する推奨する回避策

このツールを使用する前に、データが不足している対象を除去することは可能です。しかし、この方法で Excel ワークシートを編集できない場合に、データが不足している対象を除去する方法の 1 つを、以下の手順に示します。データが不足している対象を除去するには、以下の手順を実行します。
  1. 2 つのデータ範囲をワークシートの新しい領域にコピーします。
  2. どちらの範囲でもデータが欠けていない最下段の行から上に向かってデータをチェックしていきます。
    1. 最下行にデータの不足がある場合は、その行を消去します。これにより、データの範囲が小さくなります。手順 3. に進みます。
    2. 最下行から上に向かって、データが欠落した行を探し、最初に見つかった行を行 r とします。
      1. 行 r より下のデータをすべてコピーします。
      2. 行 r をクリックし、コピーしたデータをそこに貼り付けます。
      3. データの最下行を消去します (これは、下から 2 番目のデータと重複しているからです)。これにより、データの範囲が小さくなります。
  3. データが欠けている箇所がなくなるまで、手順 2. を繰り返します。
: 観測値の不足がないことが確実な場合は、分析ツールを使用できます。

さらに多くのデータも複製できますが、データを変換しないと、ツールのすべての出力は複製できません。平均、分散、および観測数の適切な値を算出するには、多くの作業が必要です。このツールでは、実験の前後のデータを別々にチェックしているため、不適切な値が算出されています。ツールの df は、観測数から 1 を引いた値で、共通です。したがって、データが不足している場合はこの値も不適切になります。t 統計値を算出するのにも、多くの作業が必要です。これを行うには、実験の前後のデータを同時にチェックする必要があります。

しかし、PEARSON または CORREL を 2 つのデータ範囲に適用することにより、ピアソン相関 (Pearson Correlation) は算出できます。どちらの Excel 関数でも、不足しているデータが適切に処理されます。また、Excel の TTEST 関数を呼び出すことで、データに関連付けられた片側検定と両側検定の確率も算出できます。この関数では、不足しているデータが適切に処理されます。実験 3 の片側検定および両側検定の確率は、それぞれ TTEST(E3:E13, F3:F13, 1, 1) と TTEST(E3:E13, F3:F13, 2, 1) の呼び出しにより算出できます。これらの関数の結果が、実験 1 のツールの結果と同じになることも確認できます。これは、実験 1 ではデータに不足がないのでツールが適切に動作するからです。実験 1 と同等の呼び出しは、それぞれ TTEST(A3:A13, B3:B13, 1, 1) と TTEST(A3:A13, B3:B13, 2, 1) です。

境界値を求めるには、自由度の値を決定する必要があります。実験 1、2、および 3 では、正しい自由度の値は、それぞれ 10、9、8 です。この数値は常に、実験の前後の観測値が不足していない、有効な対象の数よりも 1 小さい値です。たとえば、実験 3 では、セル J3 に =IF(OR(ISBLANK(E3), ISBLANK(F3)), 0, 1) と入力し、この数式をセル J4:J13 に下方向にコピーして、セル J14 に =SUM(J3:J13)-1 と入力することにより df を算出できます。

df を算出すると、Excel の TINV 関数を使用できます。有意水準 0.05 では、実験 1、2、および 3 に対応する呼び出しは、それぞれ TINV(0.05, 10)、TINV(0.05, 9)、TINV(0.05, 8) です。これらによって、"t 境界値 両側" の値が返されます。"t 境界値 片側" の値を取得するには、TINV(0.10, 10)、TINV(0.10, 9)、TINV(0.10, 8) のように、有意水準の値をそれぞれ 2 倍にして、同様の呼び出しを使用します。

まとめ

観測値が不足していないことを確認できない限り、分析ツールの "t 検定: 一対の標本による平均の検定" は使用しないでください。この資料では、分析ツールの代わりに Excel 関数を使用することによって、このツールのほとんどの機能を実現する方法を説明しています。

このツールでは、誤解を招くラベル "P(T<=t)" も出力されます。この資料では、ラベルの適切な読み方についても説明しています。
プロパティ

文書番号:829252 - 最終更新日: 03/27/2007 02:17:59 - リビジョン: 3.0

Microsoft Office Excel 2007, Microsoft Office Excel 2003, Microsoft Excel 2004 for Mac

  • kbformula kbexpertisebeginner kbprb kbfunctions kbfuncstat KB829252
フィードバック
var varClickTracking = 1; var varCustomerTracking = 1; var Route = "76500"; var Ctrl = ""; document.write("