У цій статті наведено синтаксис формули та описано, як у програмі excel використовувати функцію LINEST Microsoft Excel. Посилання на докладні відомості про створення діаграм і регресійний аналіз див. в розділі Додаткові відомості.

Опис

Функція LINEST обчислює статистику для лінії за допомогою методу "найменших квадратів", щоб обчислити пряму лінію, яка найбільше відповідає вашим даним, а потім повертає масив, що описує цю лінію. Можна також поєднати функцію LINEST з іншими функціями, щоб обчислити статистику для інших типів моделей, які є лінійними в невідомих параметрах, у тому числі поліноміальні, логарифмічні, експоненційні та ступеневі ряди. Оскільки ця функція повертає масив значень, її потрібно вводити як формулу масиву. Необхідні вказівки наведено у прикладах цієї статті.

Формула для лінії має такий вигляд:

y = mx + b

-або-

y = m1x1 + m2x2 + ... + b

якщо існує кілька діапазонів х-значень, де залежні y-значення — це функція незалежних x-значень. m-значення — це коефіцієнти, які відповідають кожному x-значенню, а b — константа. Зауважте, що y, x і m можуть бути векторами. Масив, який повертає функція LINEST, — {mn;mn-1;...,m1;b}. Функція LINEST також може повертати додаткову статистику регресії.

Синтаксис

LINEST(відомі_значення_y;[відомі_значення_x];[конст];[статистика])

Синтаксис функції LINEST має такі аргументи:

Синтаксис

  • Відомі_значення_y.    Обов’язковий аргумент. Набір значень y, вже відомих із рівняння y = mx + b.

    • Якщо масив відомі_значення_y є окремим стовпцем, то кожний стовпець відомі_значення_x інтерпретується як окрема змінна.

    • Якщо масив відомі_значення_y міститься в одному рядку, то кожний рядок відомі_значення_x інтерпретується як окрема змінна.

  • Відомі_значення_x.    Необов’язковий аргумент. Сукупність значень x, які можуть бути вже відомі з рівняння y = mx + b.

    • Масив відомі_значення_x може містити один або кілька наборів змінних. Якщо використовується лише одна змінна, відомі_значення_y і відомі_значення_x можуть бути діапазонами будь-якої форми, за умови, що вони мають однакову розмірність. Якщо використовується кілька змінних, відомі_значення_y мають бути вектором (тобто діапазоном із висотою в один рядок і шириною в один стовпець).

    • Якщо відомі_значення_x не задано, вважається, що це буде масив {1;2;3;...}, який має той самий розмір, що й відомі_значення_y.

  • Конст.    Необов’язковий аргумент. Логічне значення, яке вказує, чи потрібно, щоб константа b дорівнювала 0.

    • Якщо аргумент конст приймає значення TRUE (істина) або його не вказано, b обчислюється у звичайний спосіб.

    • Якщо аргумент конст приймає значення FALSE (хибність), то b вважається рівним 0, а значення m добираються так, щоб y = mx.

  • Статистика.    Необов’язковий аргумент. Логічне значення, яке визначає, чи потрібно повертати додаткову статистику регресії.

    • Якщо статистика має значення TRUE (істина), функція LINEST повертає додаткову статистику регресії; як результат, повернутий масив до має значення {mn,mn-1,...,m1,b:sen,sen-1,...,se1,seb;r 2,sey; F,df;ssreg,ssresid}.

    • Якщо аргумент статистика приймає значення FALSE (хибність) або цей аргумент не вказано, функція LINEST повертає лише m-коефіцієнти й константу b.

      Додаткова статистика регресії має такий вигляд.

Статистичні значення

Опис

se1;se2;...;sen

Стандартні значення помилок для коефіцієнтів m1;m2;...;mn.

seb

Стандартне значення помилок для константи b (seb=#N/A, коли аргумент конст має значення FALSE).

r2

Коефіцієнт детермінації. Порівнює орієнтовні та фактичні значення у, а діапазони – від 0 до 1. Якщо значення 1, у вибірці є ідеальне кореляція – очікуване значення у не відрізняється від фактичного значення у. А інша крайня, якщо коефіцієнт детермінованості дорівнює 0, формула регресії не корисна для прогнозування значення Y. Відомості про обчислення2 див. в розділі "Зауваження" далі в цій статті.

sey

Стандартна помилка для очікуваного y

F

F-статистика, або спостережувані F-значення. Використовуйте для визначення, чи спостережуване відношення між залежною і незалежною змінними виникло випадково.

df

Ступені свободи. Використовуйте ступені свободи, щоб знайти критичні F-значення в статистичній таблиці. Порівняйте знайдені в таблиці значення зі статистикою F, що повертає функція LINEST, щоб визначити довірчий рівень моделі. Відомості про обчислення df див. в розділі "Зауваження" далі в цій статті. У прикладі 4 показано використання клавіш F і df.

ssreg

Регресійна сума квадратів.

ssresid

Невиконане сума квадратів. Відомості про те, як обчислюються ssreg і ssresid, див. в розділі "Зауваження" далі в цій статті.

На наведеному нижче рисунку показано порядок повернення статистики додаткової регресії.

Аркуш

Примітки

  • Можна описати будь-яку пряму лінію за допомогою нахилу та перетину з віссю y:

    Нахил (m):
    Щоб знайти нахил лінії, який часто записується як m, візьміть дві точки на лінії (x1,y1) і (x2,y2); нахил дорівнює (y2 - y1)/(x2 - x1).

    Перетин із y (b):
    Перетин з орнаментом (зазвичай написаний як b) – це значення y в точці, де лінія перетинає вісь Y.

    Рівняння прямої – y = mx + b. Знаючи значення m і b, ви можете обчислити будь-яку точку в рядку, підключивши до формули значення Y або x. Також можна скористатися функцією TREND.

  • Якщо є лише одна незалежна x-змінна, можна отримати значення нахилу та перетину з віссю y безпосередньо за допомогою таких формул:

    Нахил:
    =INDEX(LINEST(known_y;known_x);1)

    Перетин із y:
    =INDEX(LINEST(known_y;known_x's);2)

  • Точність апроксимації за допомогою прямої, обчисленої функцією LINEST, залежить від степеня розкиду даних. Чим ближчі дані до прямої, тим точніша модель, яка використовується функцією LINEST. Функція LINEST використовує метод найменших квадратів для визначення найкращої апроксимації даних. Якщо є лише одна незалежна x-змінна, m і b обчислюються за такими формулами:

    Формула

    Формула

    де x і y – вибіркові середні значення, тобто x = AVERAGE(відомі_значення_x), а y = AVERAGE(відомі_значення_y).

  • Функції line- і curve-fitting для функції LINEST і LOGEST можуть обчислити найкращу пряму або експоненційну криву, яка відповідає вашим даними. Однак вам потрібно вирішити, який із двох результатів найкраще відповідає вашим даних. Для прямої лінії можна обчислити значення TREND known_y(known_y,known_x),або GROWTH('s,known_x's) для експоненційної кривої. Ці функції, без аргументу new_x, повертають масив значень y, прогнозований уздовж цієї лінії або кривої в фактичних точках даних. Потім можна порівняти прогнозовані значення з фактичними значеннями. Їх можна створити на діаграмах для візуального порівняння.

  • Здійснюючи регресійний аналіз, Excel обчислює для кожної точки квадрат різниці між прогнозованим значенням у та фактичним значенням у. Сума цих квадратів різниць називається залишковою сумою квадратів (ssresid). Потім Excel обчислює загальну суму квадратів (sstotal). Якщо аргумент конст приймає значення TRUE (істина) або цей аргумент не вказано, загальна сума квадратів дорівнюватиме сумі квадратів різниць між фактичними значеннями y та середніми значеннями у. Якщо аргумент конст приймає значення FALSE (хибність), загальна сума квадратів дорівнюватиме сумі квадратів фактичних значень у (без віднімання середнього значення у від кожного окремого значення у). Після цього регресійну суму квадратів (ssreg) можна обчислити таким чином: ssreg=sstotal-ssresid. Що менше значення коефіцієнта детермінації r 2, то більша величина коефіцієнта детермінації r2,що слугує індикатором того, наскільки добре рівняння, отримане в результаті регресійного аналізу, пояснює зв'язок між змінними. Значення r2 дорівнює ssreg/sstotal.

  • У деяких випадках один або кілька стовпців X (припускається, що значення Y і X у стовпцях) можуть не мати додаткового прогнозованого значення в присутності інших стовпців X. Іншими словами, видалення одного або кількох стовпців X може призвести до прогнозування Y-значень, які рівномірно точні. У такому разі ці зайві стовпці X слід пропустити в моделі регресії. Це явище називається "колінеарність", тому що будь-який зайвий стовпець X можна виразити як суму мультидіазонів несуміжних стовпців X. Функція LINEST перевіряє колінеарність і видаляє зайві стовпці X із моделі регресії, коли ідентифікує їх. Видалені стовпці X можна розпізнати в результатах lineST як такі, що мають 0 коефіцієнтів на додачу до 0 se значень. Якщо видалити один або кілька стовпців як зайве, це впливає на df, тому що df залежить від кількості стовпців X, які фактично використовуються для прогнозування. Докладні відомості про обчислення df див. у прикладі 4. Якщо df змінюється через видалення зайвих стовпців X, це також вплине на значення sey та F. Колінеарність має бути відносно рідко на практиці. Проте в одному випадку, коли найімовірніше, деякі стовпці X містять лише 0 і 1 як індикатори того, чи суб'єктом експерименту є чи не входить до певної групи. Якщо конст = TRUE або його не задано, функція LINEST ефективно вставляє додатковий стовпець X з усіх 1 значень для моделювання перетину. Якщо у вас є стовпець із 1 для кожного предмета, якщо чоловік або 0 , якщо ні, а також стовпець із 1 для кожного предмета, якщо жінка або 0, цей останній стовпець зайвий, оскільки записи в ньому можна отримати, віднімаючи запис у стовпці "чоловічий індикатор" від запису в додатковому стовпці всіх 1 значень, доданих функцією LINEST.

  • Для випадків, коли стовпці Х не видаляються з моделі внаслідок колінеарності, значення df обчислюється таким чином: якщо існує k стовпців аргументу відомі_значення_x і аргумент конст має значення TRUE (істина), або цей аргумент не вказано, то df=n-k-1. Якщо аргумент конст має значення FALSE (хибність), то df=n-k. В обох випадках видалення стовпців Х унаслідок колінеарності збільшує значення df на 1.

  • Вводячи константу масиву як, наприклад, аргумент відомі_значення_x, слід використовувати крапку з комою для розділення значень, які містяться в одному рядку, та двокрапку — для розділення рядків. Символи-роздільники можуть відрізнятися залежно від регіональних параметрів.

  • Зауважте, що y-значення, прогнозовані рівнянням регресії, можуть не бути припустимими, якщо вони перебувають поза межами діапазону y-значень, використаного для визначення рівняння.

  • Основний алгоритм, використовуваний у функції LINEST, відрізняється від основного алгоритму, використовуваного у функціях SLOPE і INTERCEPT. Відмінність між цими алгоритмами може призвести до отримання різних результатів, якщо дані є невизначеними і колінеарними. Наприклад, якщо точки даних аргументу відомі_значення_y дорівнюють 0, а точки даних аргументу відомі_значення_x дорівнюють 1:

    • Функція LINEST повертає значення 0. Алгоритм функції LINEST створено, щоб повертати придатні результати для колінеарних даних, і в такому випадку можна знайти принаймні одну відповідь.

    • Функція SLOPE і INTERCEPT повертають #DIV/0! помилку #REF!. Алгоритм функцій SLOPE і INTERCEPT розроблено для пошуку лише однієї відповіді, і в цьому випадку може бути кілька відповідей.

  • Крім того, що функцію LOGEST можна використати для обчислення статистики для інших типів регресії, функцію LINEST можна використати для обчислення діапазону інших типів регресії за допомогою введення функцій змінних x та y як рядів x та y для функції LINEST. Наприклад, така формула:

    =LINEST(y-значення; x-значення^COLUMN($A:$C))

    працює, якщо є окремий стовпець y-значень і окремий стовпець x-значень для обчислення кубічного (поліноміального 3-го порядку) наближення форми:

    y = m1*x + m2*x^2 + m3*x^3 + b

    Цю формулу можна змінити для обчислення інших типів регресії, але в деяких випадках буде потрібно змінити результати та іншу статистику.

  • Значення F-test, яке повертає функція LINEST, відрізняється від значення F-test, яке повертає функція FTEST1. LINEST повертає статистику F, у той час як FTEST1 повертає ймовірність.

Приклади

Приклад 1. Нахил і Y-перетин

Скопіюйте дані прикладу з наведеної нижче таблиці та вставте їх у клітинку A1 нового аркуша Excel. Щоб відобразити результат обчислення формул, виберіть їх, натисніть клавішу F2, а потім – клавішу Enter. За потреби можна змінити ширину стовпців, щоб відобразити всі дані.

Відоме значення Y

Відоме значення X

1

0

9

4

5

2

7

3

Результат (нахил)

Результат (перетин з віссю Y)

2

1

Формула (формула масиву у клітинках A7:B7)

=LINEST(A2:A5,B2:B5,,FALSE)

Приклад 2. Проста лінійна регресія

Скопіюйте дані прикладу з наведеної нижче таблиці та вставте їх у клітинку A1 нового аркуша Excel. Щоб відобразити результат обчислення формул, виберіть їх, натисніть клавішу F2, а потім – клавішу Enter. За потреби можна змінити ширину стовпців, щоб відобразити всі дані.

Місяць

Продажі

1

3 100 грн.

2

4 500 грн.

3

4 400 грн.

4

5 400 грн.

5

7 500 грн.

6

8 100 грн.

Формула

Результат

=SUM(LINEST(B1:B6, A1:A6)*{9,1})

11 000 грн.

Обчислює орієнтовну суму виручки в дев’ятому місяці з урахуванням продажів із першого по шостий місяці.

Приклад 3. Множинна лінійна регресія

Скопіюйте дані прикладу з наведеної нижче таблиці та вставте їх у клітинку A1 нового аркуша Excel. Щоб відобразити результат обчислення формул, виберіть їх, натисніть клавішу F2, а потім – клавішу Enter. За потреби можна змінити ширину стовпців, щоб відобразити всі дані.

Площа (x1)

Кількість офісів (x2)

Кількість входів (x3)

Час експлуатації (x4)

Оціночна вартість (y)

2310

2

2

20

142 000 грн.

2333

2

2

12

144 000 грн.

2356

3

1,5

33

151 000 грн.

2379

3

2

43

150 000 грн.

2402

2

3

53

139 000 грн.

2425

4

2

23

169 000 грн.

2448

2

1,5

99

126 000 грн.

2471

2

2

34

142 900 грн.

2494

3

3

23

163 000 грн.

2517

4

4

55

169 000 грн.

2540

2

3

22

149 000 грн.

-234,2371645

13,26801148

0,996747993

459,7536742

1732393319

Формула (формула динамічного масиву, введена у клітинці A19)

=LINEST(E2:E12,A2:D12,TRUE,TRUE)

Приклад 4. Використання статистик F і r2

У наведеному вище прикладі коефіцієнт детермінації або r2– 0,99675 (див. клітинку A17 у результатах для lineST),що вказує на надійний зв'язок між незалежними змінними та ціною продажу. F-статистику можна використовувати, щоб визначити, чи з'являться ці результати з таким високим значенням r2.

Вважаємо, що насправді немає залежності між змінними, але відображено винятковий випадок створення вибірки з 11 адміністративних будівель, для якого статистичний аналіз свідчить про високу залежність. Елемент "Альфа" використовується на позначення ймовірності помилкового висновку про те, що така залежність є.

Значення F і df у результатах функції LINEST можна використовувати, щоб оцінити ймовірність більшого значення F, яке відбувається випадково. F можна порівняти з критичними значеннями в опублікованих таблицях F-розподілу або функції FDIST у Excel використовується для обчислення ймовірності більшого значення F, яке відбувається випадково. F-розподіл має ступені свободи v1 і v2. Якщо n — кількість точок даних і конст = TRUE або пропускається, то v1 = n – df – 1 і v2 = df. (Якщо конст = FALSE, то v1 = n – df і v2 = df.) Функція FDIST із синтаксисом FDIST(F,v1,v2) поверне ймовірність більшого F-значення, яке з'являться випадково. У цьому прикладі df = 6 (клітинка B18), а F = 459,753674 (клітинка A18).

Якщо значення альфа для 0,05, v1 = 11 – 6 – 1 = 4, а v2 = 6, критичний рівень F дорівнює 4,53. Оскільки F = 459,753674 значно перевищує 4,53, дуже неймовірно, що значення F це високе значення випадково. (Альфа = 0,05 гіпотеза, яка не має зв'язку між "known_y" і "known_x" – відхилити, коли F перевищує критичний рівень, 4,53.) Функцію FDIST можна використовувати Excel, щоб отримати ймовірність того, що значення F це високе значення сталося випадково. Наприклад, FDIST(459,753674, 4, 6) = 1,37E-7, дуже невелика ймовірність. Ви можете зробити висновок, знаходячи критичний рівень F у таблиці або використовуючи функцію FDIST, що формула регресії корисна для прогнозування оціночної вартості офісних будівель у цій місцевості. Пам'ятайте, що дуже важливо використовувати правильні значення v1 і v2, обчислених у попередньому абзаці.

Приклад 5. Обчислення t-статистики

Інша перевірка припущення визначить, чи кожний коефіцієнт нахилу допомагає в оціненні вартості адміністративної будівлі у прикладі 3. Наприклад, щоб визначити статистичну значність коефіцієнту часу експлуатації, поділіть -234,24 (коефіцієнт нахилу терміну) на 13,268 (очікувана стандартна помилка коефіцієнтів терміну у клітинці A15). Далі подано значення спостережуваного t:

t = m4 ÷ se4 = -234,24 ÷ 13,268 = -17,7

Якщо абсолютне значення t досить високе, можна зробити висновок, що коефіцієнт нахилу допомагає в оціненні вартості адміністративної будівлі у прикладі 3. У поданій нижче таблиці наведено абсолютні значення для 4 значень спостережуваного t.

Звернувшись до таблиць у довіднику з математичної статистики, можна дізнатися, що t-критичне двобічне з 6 степенями вільності та Альфа = 0,05 дорівнює 2,447. Це критичне значення можна також знайти за допомогою функції TINV у програмі Excel. TINV(0,05;6) = 2,447. Оскільки абсолютна величина t, яка дорівнює 17,7, більше за 2,447, час експлуатації є важливою змінною для оцінки вартості адміністративної будівлі. Аналогічно можна визначити статистичну значимість усіх інших змінних. Нижче наведено спостережувані значення t для кожної з незалежних змінних.

Змінна

Значення спостережуваного t

Площа

5,1

Кількість офісів

31,3

Кількість входів

4,8

Час експлуатації

17,7

Всі ці значення мають абсолютне значення, яке більше за 2,447; тому всі змінні, використані в рівнянні регресії, мають значення для прогнозування оціночної вартості адміністративних будівель у цьому районі.

Потрібна додаткова довідка?

Отримуйте нові функції раніше за інших
Приєднатися до Microsoft оцінювачів

Чи були ці відомості корисні?

Наскільки ви задоволені якістю перекладу?
Що вплинуло на ваші враження?

Дякуємо за ваш відгук!

×