Excel で分析ツールの t 検定を使用すると不正確な結果および誤解を招くラベルが表示されることがある

文書翻訳 文書翻訳
文書番号: 829252 - 対象製品
すべて展開する | すべて折りたたむ

目次

概要

この資料では、"一対の標本による平均の検定" という名前の分析ツール (Analysis ToolPak) の t 検定用ツールについて説明します。このツールは、Microsoft Office Excel 2003 およびそれ以降のバージョンの Excel では変更されていません。しかし、データが不足していると、このツールは不正確な結果を返します。また、データに不足がない場合でも、ツールで出力されるラベルに誤解を招く表記が含まれています。

Microsoft Excel 2004 for Macintosh の情報

Excel 2004 for Mac の統計関数は、Excel 2003 およびそれ以降のバージョンの Excel の統計関数を更新するために使用されたものと同じアルゴリズムを使用して更新されました。この資料に記載されている、Excel 2003 およびそれ以降のバージョンの Excel の関数の機能および関数の変更内容に関する情報は、Excel 2004 for Mac にも適用されます。

詳細

ある対象についての同一の実験で、その前後の観測値がある場合は、一般的に、一対の標本による t 検定 (Paired Two Sample t-Test。または、Matched Pairs t-Test とも呼ばれます) を利用します。たとえば、30 日間のダイエット計画の実施前後に被験者の体重を測定した場合などです。

一般的に、実験前の観測値または実験後の観測値が不足している被験者に関するデータは、除外されます。被験者に関するデータが不完全な場合、その被験者についての情報は利用できません。しかし、この分析ツールの動作は、一般的な方法とは異なっています。この分析ツールでは、最初に、実験前の観測値がある被験者の数と実験後の観測値がある被験者の数を数えます。これらの合計が異なる場合は、エラー メッセージが表示され、この分析ツールは処理を中断します。したがって、たとえば 49 名の被験者にはいずれも実験の前後の観測値があっても、50 番目の被験者に実験前の観測値しかない場合、このツールでは分析が実行されません。

実験前のデータが不足している被験者の数と実験後のデータが不足している被験者の数が等しく、この数値が正数であると、ツールは不適切な分析を実行します。たとえば、50 名の被験者がいると仮定します。被験者 A は実験前の観測値が不足しており、被験者 B は実験後の観測値が不足しています。それ以外の 48 名の被験者にはデータの不足はないとします。このツールは、49 の実験前の観測値と 49 の実験後の観測値を数えて、データの不足がない被験者が 49 名いるのと同じ動作をします。これは、実験前の値または実験後の値が不足している被験者は除外されるという期待に反する動作です。この例では、被験者の数は 49 ではなく 48 にする必要があります。このため、ツールでは、誤った値の自由度が使用されます。また、このツールでは被験者 A の実験後の観測値も被験者 B の実験前の観測値も除外しないため、これら 2 名の観測値は、t 統計値で使用される標本の平均値の計算に含まれることになります。したがって、計算されるこれらの標本の平均値は不適切な結果になります。

つまり、データが不足している場合、このツールでは計算が実行されないか、不適切な数式を使用して計算が実行されるため、このツールを使用するのは適切ではありません。後者の現象は、実験前のデータが不足している被験者の数と実験後のデータが不足している被験者の数が等しい場合に発生します。

この資料の「使用例」にある例では、これらの問題と、ツールの出力に含まれる誤解を招くラベルについて説明します。「回避策」では、ツールの使用前にデータが不足していることを検証できない場合の回避策を紹介します。

使用例

データの不足による問題を実際に確認するには、空の Excel ワークシートを作成します。次の表をコピーし、空の Excel ワークシートのセル A1 をクリックしてから貼り付けると、表の各項目がワークシートのセル A1:I52 に入力されます。
元に戻す全体を表示する
実験 1 実験 2 実験 3 実験 3 (データに不足がある
実験前 実験後 実験前 実験後 実験前 実験後 対象を除外するよう変更後)
200 170 200 170 200 170 200 170
190 180 190 180 190 180 190 180
180 175 180 175 180 175 180 175
170 175 170 175 170 175 170 175
160 165 160 165 160 165 160 165
150 140 150 140 150 140 150 140
140 130 140 130 130 130 125
130 125 130 125 130 125 120 125
120 125 120 125 120 125 110 100
110 100 110 100 110 100
100 100 100 100
両側 t 検定の結果
=TTEST(A3:A13, B3:B13,2,1) =TTEST(C3:C13, D3:D13, 2, 1) =TTEST(E3:E13, F3:F13, 2, 1)
=TTEST(C3:C12, D3:D12, 2, 1) =TTEST(G3:G11, H3:H11, 2, 1)
分析ツールの結果 (実験 1)
t 検定: 一対の標本による平均の検定
変数 1 変数 2
平均 150 144.090909090909
分散 1100 914.090909090909
観測数 11 11
ピアソン相関 0.952384533866487
仮説平均との差 0
自由度 10
t 統計値 1.92092590483801
P(T<=t) 片側 0.0418403929085198
t 境界値 片側 1.81246110219722
P(T<=t) 両側 0.0836807858170396
t 境界値 両側 2.22813884242587
分析ツールの結果 (実験 2)
観測値の数が異なるため計算されず
分析ツールの結果 (実験 3)
t 検定: 一対の標本による平均の検定
変数 1 変数 2
平均 151 148.5
分散 1210 778.055555555556
観測数 10 10
ピアソン相関 0.936537537274845
仮説平均との差 0
自由度 9
t 統計値 0.141327169509421
P(T<=t) 片側 0.445362157564494
t 境界値 片側 1.83311292255007
P(T<=t) 両側 0.890724315128988
t 境界値 両側 2.26215715817358

この表を Excel ワークシートに貼り付けたら、[貼り付けのオプション] をクリックし、[貼り付け先の書式に合わせる] をクリックします。貼り付けた範囲を選択した状態のまま、実行している Excel のバージョンに応じて、次のいずれかの方法を使用します。
  • Microsoft Office Excel 2007 では、[ホーム] タブをクリックし、[セル] の [書式] をクリックして、[列の幅の自動調整] をクリックます。
  • Excel 2003 では、[書式] メニューの [列] をポイントし、[選択範囲に合わせる] をクリックします。
このワークシートを使用すると、Excel の TTEST 関数の結果と分析ツールの結果を比較できます。実験 1 では、11 の対象について完全なデータが示されています。セル A16 の TTEST の値は、自由度 10 の t 分布を仮定した場合に t 統計値が観測値よりも大きくなる確率です。この値 0.837 は、セル B32 のツールの出力にも示されています。セル A32 のラベルは、"P(T<=t) 両側" ではなく "P(T >= |t|) 両側" と読み替える必要があります。ただし、実験 1 では不足しているデータはないため、結果の数値は正しくなっています。同様に、セル A30 のラベルは "P(T<=t) 片側" ではなく "P(T >= |t|) 片側" と読み替える必要があります。"t 境界値" の値は正しくなっています。これらは、デフォルトの有意水準 0.05 に対応する値であり、正しい値の自由度 10 が使用されています。

実験 2 では、1 つの対象で実験後の観測値が 1 つ不足していますが、それ以外に不足しているデータはありません。ツールでは計算が中断されます。C16 と C17 の TTEST の値は等しくなっています。セル C16 では、データのセル範囲 C3:D13 が使用されています。これには、唯一データが不足している最後の対象が含まれています。セル C17 では、データのセル範囲 C3:D12 が使用されています。これは、最初の 10 個の対象に関する実験に相当するもので、データの不足はありません。結果が等しくなったことは、セル C16 で TTEST が呼び出されたときに、TTEST によって、データが不足している対象が適切に除外されたことを示しています。

実験 3 では、2 つの異なる対象で実験前の観測値と実験後の観測値に 1 つずつ不足があります。実験 3 (変更後) では、データの不足がないそれ以外の 9 個の対象が示されています。セル E16 と E17 の TTEST の結果は等しくなっています。セル E16 では、セル範囲 E3:F13 の実験 3 のデータで TTEST が呼び出されています。セル E17 では、セル範囲 G3:H11 の実験 3 (変更後) のデータで TTEST が呼び出されています。結果が等しいのは、データが不足している 2 つの対象である実験 3 の 7 番目と 11 番目の対象を TTEST が適切に除外しているためです。実験 3 のツールの出力を確認すると、セル B44 と C44 にある実験の前後の観測数の値は、いずれも 10 になっています。SUM(E3:E13) が 1510 で、SUM(F3:F13) が 1485 であることは、それぞれの範囲の観測数が 10 で、それらの平均がセル B42 と C42 に示されている 151 と 148.5 であることから簡単に確認できます。したがって、このツールは、いずれの対象も除外しておらず、7 番目の対象の実験後の観測値と 11 番目の対象の実験前の観測値は分析の際に含められています。9 個の対象が使用され、自由度 df は 8 になる必要があるため、セル B47 の自由度は不適切な値です。このため、不正確な境界値の項目がセル B50 と B52 に作成されます (また、それらのエントリに対応する誤解を招くラベルもセル A50 と A52 に作成されます)。

すべてのバージョンの Excel の計算結果

このツールは、Excel 2003 およびそれ以降のバージョンの Excel で修正されていません。

すべてのバージョンの Excel に対する推奨する回避策

このツールを使用する前に、データが不足している対象を除去することは可能です。しかし、この方法で Excel ワークシートを編集できない場合に、データが不足している対象を除去する方法の 1 つを、以下の手順に示します。データが不足している対象を除去するには、以下の手順を実行します。
  1. 2 つのデータ範囲をワークシートの新しい領域にコピーします。
  2. どちらの範囲でもデータが欠けていない最下段の行から上に向かってデータをチェックしていきます。
    1. 最下行にデータの不足がある場合は、その行を消去します。これにより、データの範囲が小さくなります。手順 3. に進みます。
    2. 最下行から上に向かって、データが欠落した行を探し、最初に見つかった行を行 r とします。
      1. 行 r より下のデータをすべてコピーします。
      2. 行 r をクリックし、コピーしたデータをそこに貼り付けます。
      3. データの最下行を消去します (これは、下から 2 番目のデータと重複しているからです)。これにより、データの範囲が小さくなります。
  3. データが欠けている箇所がなくなるまで、手順 2. を繰り返します。
: 観測値の不足がないことが確実な場合は、分析ツールを使用できます。

さらに多くのデータも複製できますが、データを変換しないと、ツールのすべての出力は複製できません。平均、分散、および観測数の適切な値を算出するには、多くの作業が必要です。このツールでは、実験の前後のデータを別々にチェックしているため、不適切な値が算出されています。ツールの df は、観測数から 1 を引いた値で、共通です。したがって、データが不足している場合はこの値も不適切になります。t 統計値を算出するのにも、多くの作業が必要です。これを行うには、実験の前後のデータを同時にチェックする必要があります。

しかし、PEARSON または CORREL を 2 つのデータ範囲に適用することにより、ピアソン相関 (Pearson Correlation) は算出できます。どちらの Excel 関数でも、不足しているデータが適切に処理されます。また、Excel の TTEST 関数を呼び出すことで、データに関連付けられた片側検定と両側検定の確率も算出できます。この関数では、不足しているデータが適切に処理されます。実験 3 の片側検定および両側検定の確率は、それぞれ TTEST(E3:E13, F3:F13, 1, 1) と TTEST(E3:E13, F3:F13, 2, 1) の呼び出しにより算出できます。これらの関数の結果が、実験 1 のツールの結果と同じになることも確認できます。これは、実験 1 ではデータに不足がないのでツールが適切に動作するからです。実験 1 と同等の呼び出しは、それぞれ TTEST(A3:A13, B3:B13, 1, 1) と TTEST(A3:A13, B3:B13, 2, 1) です。

境界値を求めるには、自由度の値を決定する必要があります。実験 1、2、および 3 では、正しい自由度の値は、それぞれ 10、9、8 です。この数値は常に、実験の前後の観測値が不足していない、有効な対象の数よりも 1 小さい値です。たとえば、実験 3 では、セル J3 に =IF(OR(ISBLANK(E3), ISBLANK(F3)), 0, 1) と入力し、この数式をセル J4:J13 に下方向にコピーして、セル J14 に =SUM(J3:J13)-1 と入力することにより df を算出できます。

df を算出すると、Excel の TINV 関数を使用できます。有意水準 0.05 では、実験 1、2、および 3 に対応する呼び出しは、それぞれ TINV(0.05, 10)、TINV(0.05, 9)、TINV(0.05, 8) です。これらによって、"t 境界値 両側" の値が返されます。"t 境界値 片側" の値を取得するには、TINV(0.10, 10)、TINV(0.10, 9)、TINV(0.10, 8) のように、有意水準の値をそれぞれ 2 倍にして、同様の呼び出しを使用します。

まとめ

観測値が不足していないことを確認できない限り、分析ツールの "t 検定: 一対の標本による平均の検定" は使用しないでください。この資料では、分析ツールの代わりに Excel 関数を使用することによって、このツールのほとんどの機能を実現する方法を説明しています。

このツールでは、誤解を招くラベル "P(T<=t)" も出力されます。この資料では、ラベルの適切な読み方についても説明しています。

プロパティ

文書番号: 829252 - 最終更新日: 2007年3月27日 - リビジョン: 3.0
この資料は以下の製品について記述したものです。
  • Microsoft Office Excel 2007
  • Microsoft Office Excel 2003
  • Microsoft Excel 2004 for Mac
キーワード:?
kbformula kbexpertisebeginner kbprb kbfunctions kbfuncstat KB829252
"Microsoft Knowledge Baseに含まれている情報は、いかなる保証もない現状ベースで提供されるものです。Microsoft Corporation及びその関連会社は、市場性および特定の目的への適合性を含めて、明示的にも黙示的にも、一切の保証をいたしません。さらに、Microsoft Corporation及びその関連会社は、本文書に含まれている情報の使用及び使用結果につき、正確性、真実性等、いかなる表明・保証も行ないません。Microsoft Corporation、その関連会社及びこれらの権限ある代理人による口頭または書面による一切の情報提供またはアドバイスは、保証を意味するものではなく、かつ上記免責条項の範囲を狭めるものではありません。Microsoft Corporation、その関連会社 及びこれらの者の供給者は、直接的、間接的、偶発的、結果的損害、逸失利益、懲罰的損害、または特別損害を含む全ての損害に対して、状況のいかんを問わず一切責任を負いません。(Microsoft Corporation、その関連会社 またはこれらの者の供給者がかかる損害の発生可能性を了知している場合を含みます。) 結果的損害または偶発的損害に対する責任の免除または制限を認めていない地域においては、上記制限が適用されない場合があります。なお、本文書においては、文書の体裁上の都合により製品名の表記において商標登録表示、その他の商標表示を省略している場合がありますので、予めご了解ください。"

フィードバック

 

Contact us for more help

Contact us for more help
Connect with Answer Desk for expert help.
Get more support from smallbusiness.support.microsoft.com