분석 도구를 사용하여 복잡한 데이터 분석 수행

적용 대상

Microsoft 365용 Excel Mac용 Microsoft 365용 Excel Excel 2024 Mac용 Excel 2024 Excel 2021 Excel 2019 Excel 2016

복잡한 통계 또는 엔지니어링 분석을 개발해야 하는 경우 Analysis ToolPak을 사용하여 단계와 시간을 절약할 수 있습니다. 각 분석에 데이터와 매개 변수를 제공하기만 하면 이 도구에서 통계 또는 공학용 매크로 함수를 사용하여 결과를 계산하고 출력 테이블에 표시합니다. 일부 도구에서는 출력 테이블에 차트를 만들기도 합니다.

데이터 분석 함수는 한 번에 한 워크시트에서만 사용할 수 있습니다. 그룹화된 워크시트에서 데이터 분석을 수행하면 첫 번째 워크시트에 결과가 표시되고 나머지 워크시트에는 서식이 지정된 빈 표가 나타납니다. 나머지 워크시트에서 데이터 분석을 수행하려면 워크시트마다 분석 도구를 다시 계산해야 합니다.

분석 도구에는 다음 섹션에서 설명하는 도구들이 포함되어 있습니다. 이러한 도구에 액세스하려면 데이터 탭에서 데이터 분석을 선택합니다. 데이터 분석 명령을 사용할 수 없는 경우 Analysis ToolPak 추가 기능 프로그램을 로드하고 활성화해야 합니다.

분석 도구 로드 및 활성화

Analysis ToolPak을 로드하고 활성화하려면 다음을 수행합니다.

Mac용 Excel 파일 메뉴에서 도구>Excel 추가 기능으로 이동합니다.

Windows용 Excel에서 다음을 수행합니다.
1. 파일, 옵션을 선택한 다음 추가 기능을 선택합니다.
2. 관리 상자에서 Excel 추가 기능을 선택한 다음 이동을 선택합니다.
추가 기능 상자에서분석 도구 검사 상자를 선택한 다음 확인을 선택합니다.
- 이때 사용 가능한 추가 기능 상자의 목록에 분석 도구가 없으면 찾아보기를 클릭하여 찾습니다.
- 현재 컴퓨터에 Analysis ToolPak이 설치되어 있지 않다는 메시지가 표시되면 예를 선택하여 설치합니다.

참고

분석 도구용 VBA(Visual Basic for Application) 함수를 포함하려면 분석 도구를 로드할 때와 같은 방법으로 분석 도구 - VBA 추가 기능을 로드할 수 있습니다. 사용 가능한 추가 기능 상자에서 분석 도구 - VBA 확인란을 선택합니다.

분산 분석

분산 분석 도구는 다양한 유형의 분산 분석을 제공합니다. 검사할 모집단의 표본 수와 인자 수에 따라 다른 도구를 사용해야 합니다.

분산 분석: 일원 배치법

이 도구는 두 개 이상의 샘플에 대한 데이터에 대한 분산의 간단한 분석을 수행합니다. 분석은 기본 확률 분포가 모든 샘플에 대해 동일하지 않다는 대체 가설에 대해 각 샘플이 동일한 기본 확률 분포에서 가져온다는 가설을 테스트합니다. 샘플이 두 개뿐인 경우 워크시트 함수 T.TEST를 사용할 수 있습니다. 두 개 이상의 샘플을 사용하면 T.TEST의 편리한 일반화가 없으며 대신 Single Factor Anova 모델을 호출할 수 있습니다.

분산 분석: 반복 있는 이원 배치법

이 분석 도구는 데이터를 두 가지 다른 차원에 따라 분류할 수 있는 경우에 유용합니다. 예를 들어 식물의 높이를 측정하는 실험에서 각 식물에는 A, B, C와 같은 서로 다른 상표의 비료를 사용할 수 있고 저온 및 고온과 같이 서로 다른 배양 온도를 유지할 수 있습니다. 가능한 여섯 가지 {비료, 온도} 쌍에 대해 각각 동일한 횟수로 식물의 높이를 측정합니다. 여기에서 이 분산 분석 도구를 사용하면 다음을 검정할 수 있습니다.

서로 다른 상표의 비료를 사용한 식물의 높이가 동일한 기본 모집단에서 추출되었는지 여부. 이 분석에서는 온도가 무시됩니다.
서로 다른 온도에서 배양된 식물의 높이가 동일한 기본 모집단에서 추출되었는지 여부. 이 분석에서는 비료 상표가 무시됩니다.

1번 항목에서 확인된 비료 상표 차이에 의한 영향과 2번 항목에서 확인된 온도 차에 의한 영향을 고려했을 때 모든 {비료, 온도} 값 쌍을 나타내는 여섯 개의 표본이 동일한 모집단에서 추출되었는지 여부. 특정 {비료, 온도} 쌍으로 인한 효과가 비료나 온도의 차이만으로 인한 효과를 뛰어 넘는다는 대체 가설을 세울 수도 있습니다.

분산 분석 도구의 입력 범위 설정

분산 분석: 반복 없는 이원 배치법

이 분석 도구도 반복 있는 이원 배치법과 같이 데이터를 두 가지 다른 차원에 따라 분류할 수 있는 경우에 유용합니다. 그러나 이 도구에서는 이전 예제의 {비료, 온도} 쌍과 같은 각 쌍을 한 번만 관측한다고 가정합니다.

상관 관계

CORREL 및 PEARSON 워크시트 함수는 N개의 대상 각각에 대해 측정이 수행된 경우 두 측정 변수 사이의 상관 계수를 계산합니다. (모든 주제에 대한 관찰 누락으로 인해 분석에서 해당 대상이 무시됩니다.) 상관 관계 분석 도구는 각 N개 주체에 대해 두 개 이상의 측정 변수가 있는 경우에 특히 유용합니다. 분석 결과 테이블에는 가능한 각 측정 변수 쌍에 적용된 CORREL 또는 PEARSON 값을 보여 주는 상관 행렬이 출력됩니다.

공변성과 같은 상관 계수는 두 측정 변수가 "함께 달라지는" 정도의 측정값입니다. 공변성과 달리 상관 관계 계수는 크기가 조정되므로 해당 값이 두 측정 변수가 표현되는 단위와 독립적입니다. 예를 들어 두 측정 변수가 가중치와 높이인 경우 가중치가 파운드에서 킬로그램으로 변환되는 경우 상관 관계 계수의 값은 변경되지 않습니다. 상관 관계 계수의 값은 -1에서 +1 사이여야 합니다.

상관 관계 분석 도구를 사용하면 각 측정 변수 쌍을 조사하여 두 측정 변수가 상관적으로 변화하는지 판단할 수 있습니다. 즉, 한 변수의 값이 증가하면 다른 변수의 값도 증가하는 양의 상관 관계가 있는지, 한 변수의 값이 감소하면 다른 변수의 값이 증가하는 음의 상관 관계가 있는지 또는 두 변수의 값이 서로 관련되지 않는 0에 가까운 상관 관계가 있는지 여부를 판단할 수 있습니다.

공 분산

개별 집합에서 N개의 다른 측정 변수가 관찰된 경우 상관 관계 및 공변성 도구는 모두 동일한 설정에서 사용할 수 있습니다. 상관 관계 및 공변성 도구는 각각 각 측정 변수 쌍 간의 상관 계수 또는 공변성을 보여 주는 출력 테이블인 행렬을 제공합니다. 차이점은 상관 계수가 -1과 +1 사이로 조정된다는 것입니다. 해당 공변은 크기가 조정되지 않습니다. 상관 관계 계수와 공변성은 둘 다 두 변수가 "함께 달라지는" 범위의 측정값입니다.

공변성 도구는 워크시트 함수 COVARIANCE의 값을 계산합니다. 각 측정 변수 쌍에 대한 P입니다. (COVARIANCE를 직접 사용합니다. 공변성 도구가 아닌 P는 두 개의 측정 변수(즉, N=2)가 있는 경우 적절한 대안입니다. 행 i의 Covariance 도구 출력 테이블 대각선에 있는 항목, 열 i는 ith 측정 변수 자체의 공변성입니다. 워크시트 함수 VAR.P에서 계산한 대로 해당 변수의 모집단 차이일 뿐입니다.

공 분산 도구를 사용하면 각 측정 변수 쌍을 조사하여 두 측정 변수가 상관적으로 변화하는지 판단할 수 있습니다. 즉, 한 변수의 값이 증가하면 다른 변수의 값도 증가하는 양의 공 분산인지, 한 변수의 값이 감소하면 다른 변수의 값이 증가하는 음의 공 분산인지 또는 두 변수의 값이 서로 관련되지 않는 0에 가까운 공 분산인지 여부를 판단할 수 있습니다.

기술 통계법

기술 통계법 분석 도구는 입력 범위의 데이터에 대한 일변량 통계 보고서를 만들어 데이터의 중심 추세와 변동성에 대한 정보를 제공합니다.

지수 평활법

지수 평활법 분석 도구는 이전 예측값을 기준으로 이전 예측의 오차를 수정한 새 예측값을 구합니다. 이 도구에서는 이전 예측의 오차가 예측값에 반영되는 정도를 나타내는 평활 상수 a를 사용합니다.

참고

0.2~0.3 값은 적절한 평활 상수입니다. 이러한 값은 이전 예측의 오류에 대해 현재 예측을 20%에서 30%로 조정해야 함을 나타냅니다. 상수가 클수록 응답 속도가 빨라지지만 불규칙한 프로젝션을 생성할 수 있습니다. 상수가 작을 경우 예측 값에 대한 지연 시간이 길어질 수 있습니다.

분산에 대한 두 표본 F-검정

분산에 대한 두 표본 F-검정 분석 도구는 두 표본 F-검정을 수행하여 두 모집단 분산을 비교합니다.

예를 들어 두 수영 팀의 각 수영 기록에서 시간 표본에 대해 F-검정 도구를 사용할 수 있습니다. 이 도구는 두 분산의 기본 분포가 일치하지 않는다는 반대 가설에 대해 두 표본이 동일한 분산을 갖는 분포에서 추출되었다는 영가설 검정 결과를 제공합니다.

이 도구는 F-통계(F-비율)의 f 값을 계산합니다. f 값이 1에 가까우면 기본 모집단 분산이 동일하다는 증거입니다. 출력 테이블에서 f < 1 "P(F <= f) 원테일"이 모집단 분산이 같을 때 F-통계의 값을 f보다 작게 관찰할 확률을 제공하고 ,"F 중요 원테일"은 선택한 중요도 수준 알파에 대해 1보다 작은 중요 값을 제공합니다. f > 1인 경우 "P(F <= f) 원테일"은 모집단 분산이 같을 때 f보다 큰 F 통계 값을 관찰할 확률을 제공하고 "F Critical One-tail"는 알파에 대해 1보다 큰 중요 값을 제공합니다.

푸리에 분석

푸리에 분석 도구는 FFT(고속 푸리에 변환) 기법을 통해 데이터를 변환하는 방법으로 선형 시스템의 문제를 해결하고 주기적인 데이터를 분석합니다. 또한 변환된 데이터의 역이 원래 데이터가 되는 역변환 기능도 지원합니다.

푸리에 분석의 입력과 출력 범위

히스토그램

히스토그램 분석 도구는 데이터 및 데이터 계급 구간 셀 범위에서 개별 및 누적 빈도를 계산합니다. 이 도구는 데이터 집합에서 값이 나오는 횟수에 대한 데이터를 생성합니다.

예를 들어 학생이 20명인 반에서 학점별 점수 분포를 확인할 수 있습니다. 히스토그램 테이블에서는 학점별 경계 및 최소 경계와 현재 경계 사이에 있는 점수의 개수를 보여 줍니다. 가장 많이 발생하는 단일 점수는 데이터의 최빈값입니다.

팁

Excel 2016에서 이제 히스토그램 또는 파레토 차트를 만들 수 있습니다.

이동 평균

이동 평균 분석 도구는 지정된 지난 기간 동안 변수의 평균값을 기준으로 특정 기간의 값을 예측합니다. 이동 평균은 모든 누적 데이터의 단순 평균에서는 알 수 없는 추세 정보를 제공합니다. 이 도구를 사용하여 판매량, 재고량, 기타 추세를 예측할 수 있습니다. 각 예상 값은 다음 수식으로 계산됩니다.

이동 평균을 계산하는 수식

여기서,

N은 이동 평균에 포함할 이전 기간의 수입니다.
Aj는 time j의 실제 값입니다.
Fj 는 시간 j의 예측 값입니다 .

난수 생성

난수 생성 분석 도구는 여러 분포 중 하나에서 추출한 독립 난수로 범위를 채웁니다. 이 과정을 통해 모집단 구성원의 특징을 확률 분포로 나타낼 수 있습니다. 예를 들어 개인의 신장에 대한 모집단의 특징을 정규 분포로 나타내거나, 동전 던지기 결과에 대한 모집단의 특징을 두 가지 가능성에 대한 베르누이 분포로 나타낼 수 있습니다.

순위와 백분위수

순위 및 백분위수 분석 도구는 데이터 집합에 있는 각 값의 서수 및 백분율 순위가 포함된 테이블을 생성합니다. 데이터 집합에서 값의 상대 순위를 분석할 수 있습니다. 이 도구는 워크시트 함수 RANK를 사용합니다. EQ 및 PERCENTRANK. INC. 연결된 값을 고려하려면 RANK를 사용합니다 . 연결된 값을 동일한 순위로 처리하거나 RANK를 사용하는 EQ 함수입니다 . 연결된 값의 평균 순위를 반환하는 AVG 함수입니다.

회귀 분석

회귀 분석 도구는 "최소 자승법"을 사용하여 관측값 집합을 통과하는 선을 근접시키는 방법으로 선형 회귀 분석을 수행합니다. 이 도구를 통해 하나 이상의 독립 변수 값이 단일 종속 변수에 주는 영향을 분석할 수 있습니다. 예를 들어 나이, 신장 및 체중 등의 인자가 육상 선수의 기록에 주는 영향을 분석할 수 있습니다. 기록 데이터 집합을 바탕으로 기록 측정에서 세 인자에 각각 기여도를 배분한 다음 결과를 사용하여 아직 테스트하지 않은 선수의 기록을 예측할 수 있습니다.

회귀 도구는 워크시트 함수 LINEST를 사용합니다.

표본 추출

표본 추출 분석 도구는 입력 범위를 모집단으로 하여 모집단에서 표본을 추출합니다. 모집단이 너무 커서 데이터를 처리할 수 없거나 차트를 만들 수 없는 경우 모집단을 대표하는 표본을 사용할 수 있습니다. 또한 입력 데이터에서 주기성이 발견되는 경우 하나의 주기에서 특정 부분의 값만 포함된 표본을 만들 수 있습니다. 예를 들어 입력 범위에 분기별 매출액이 들어 있는 경우 주기율을 4로 지정하여 표본을 추출하면 같은 분기의 값이 출력 범위에 나타납니다.

t-검정

모집단의 같음을 테스트하는 Two-Sample t-Test 분석 도구는 각 샘플의 기반이 되는 것을 의미합니다. 세 가지 도구는 모집단 분산이 동일하고, 모집단 분산이 동일하지 않으며, 두 샘플이 동일한 주제에 대한 치료 전 및 치료 후 관찰을 나타낸다는 다른 가정을 사용합니다.

아래의 세 가지 도구 모두에 대해 t-Statistic 값 t가 계산되고 출력 테이블에 "t Stat"로 표시됩니다. 데이터에 따라 이 값 t는 음수이거나 음수일 수 있습니다. 동일한 기본 모집단을 가정할 때 t < 0이면 "P(T <= t) 원테일"은 t-Statistic의 값이 t보다 더 음수인 것으로 관찰될 확률을 제공합니다. t >=0이면 "P(T <= t) 원테일"은 t보다 더 양수인 t-Statistic 값이 관찰될 확률을 제공합니다. "t Critical One-tail"는 컷오프 값을 제공하므로 t-Statistic 값이 "t Critical One-tail"보다 크거나 같은 값을 관찰할 확률이 알파입니다.

"P(T <= t) 2-tail"는 t-Statistic의 값이 t보다 절대값에서 더 큰 것으로 관찰될 확률을 제공합니다. "P Critical two-tail"은 컷오프 값을 구하므로 "P Critical two-tail"보다 절대값이 큰 t 통계값이 관측될 확률은 Alpha가 됩니다.

t-검정: 두 표본 쌍의 평균

표본 그룹이 실험 전과 실험 후 두 번 검사될 때와 같이 표본 관측이 자연스럽게 쌍을 이루는 경우 쌍체 검정을 사용할 수 있습니다. 이 분석 도구와 수식에서는 쌍을 이루는 두 표본 스튜던트 t-검정을 수행하여 처리 전과 처리 후의 관측 결과가 모집단 평균이 동일한 분포에서 나온 것인지 확인할 수 있습니다. 이 형태의 t-검정에서는 두 모집단의 분산이 동일하다는 가정을 하지 않습니다.

참고

이 도구에서는 데이터가 평균 주위로 흩어진 정도를 누적하여 측정하는 공동 분산을 산출합니다. 공동 분산은 다음 수식에 따라 도출됩니다.

공동 분산을 계산하는 수식

t-Test: 등분산 가정 두 표본

이 분석 도구는 두 샘플 학생의 t-테스트를 수행합니다. 이 t-Test 양식에서는 두 데이터 집합이 동일한 분산 분포에서 온 것으로 가정합니다. 이를 동질성 t-테스트라고 합니다. 이 t-Test를 사용하여 두 샘플이 동일한 모집단 수단을 가진 분포에서 나왔을 가능성이 있는지 여부를 확인할 수 있습니다.

t-Test: 등분산 가정 두 표본

이 분석 도구는 두 샘플 학생의 t-테스트를 수행합니다. 이 t-Test 양식에서는 두 데이터 집합이 다른 분산이 있는 배포에서 온 것으로 가정합니다. 이질성 t-테스트라고 합니다. 이전의 Equal Variances 사례와 마찬가지로 이 t-Test를 사용하여 두 샘플이 동일한 모집단 수단을 가진 분포에서 나온 것일 가능성이 있는지 여부를 확인할 수 있습니다. 두 샘플에 고유한 주체가 있는 경우 이 테스트를 사용합니다. 다음 예제에 설명된 쌍을 이루는 테스트를 사용합니다. 한 세트의 주체가 있고 두 개의 샘플이 치료 전후에 각 주제에 대한 측정값을 나타내는 경우.

다음은 통계값 t를 구하는 수식입니다.

t 값을 계산하는 수식

다음 수식은 자유도 df를 계산하는 데 사용됩니다. 계산 결과는 일반적으로 정수가 아니므로 df 값은 t 테이블에서 중요한 값을 얻기 위해 가장 가까운 정수로 반올림됩니다. Excel 워크시트 함수 T.TEST 는 T.TEST 의 값을 비진행 df로 계산할 수 있으므로 반올림 없이 계산된 df 값을 사용합니다. 자유도를 결정하는 이러한 다양한 접근 방식 때문에 T.TEST 및 이 t-Test 도구의 결과는 불평등한 분산 사례에서 다릅니다.

자유도의 근사값을 계산하는 수식

z-검정

z-Test: 평균용 두 샘플 분석 도구는 알려진 분산이 있는 수단에 대해 두 가지 샘플 z-Test를 수행합니다. 이 도구는 양면 또는 양면 대체 가설에 대해 두 모집단 간의 차이가 없다는 null 가설을 테스트하는 데 사용됩니다. 분산을 알 수 없는 경우 워크시트 함수 Z.TEST 를 대신 사용해야 합니다.

z-검정 도구를 사용하면서 출력 결과를 주의하여 해석해야 합니다. "P(Z <= z) 원테일"은 실제로 P(Z >= ABS(z))이며, 모집단 수단 간에 차이가 없을 때 관찰된 z 값과 동일한 방향으로 0에서 z 값의 확률입니다. "P(Z <= z) 2-tail"는 실제로 P(Z >= ABS(z) 또는 Z <= -ABS(z))이며, 모집단 수단 간에 차이가 없을 때 관찰된 z 값보다 어느 방향으로든 z 값의 확률은 0보다 더 큽니다. 양측 검정 결과는 단측 검정 결과에 2를 곱한 값입니다. 두 모집단 평균 사이에 0이 아닌 특정 값 만큼의 차이가 있다는 영가설을 검정할 때도 z-검정 도구를 사용할 수 있습니다. 예를 들어 이 검정을 사용하여 두 자동차 모델의 성능상 차이를 확인할 수 있습니다.