Стандартний регресійний аналіз у STATISTICA. Регресійний аналіз

Оцінка якості рівняння регресії з допомогою коефіцієнтів детермінації. Перевіряє нульову гіпотезу про значущість рівняння та показники тісноти зв'язку за допомогою F-критерію Фішера.

Стандартні помилки коефіцієнтів.

Рівняння регресії має вигляд:

Y =3378,41 -494,59X 1 -35,00X 2 +75,74X 3 -15,81X 4 +80,10X 5 +59,84X 6 +
(1304,48) (226,77) (10,31) (277,57) (287,54) (35,31) (150,93)
+127,98X 7 -78,10X 8 -437,57X 9 +451,26X 10 -299,91X 11 -14,93X 12 -369,65X 13 (9)
(22,35) (31,19) (97,68) (331,79) (127,84) 86,06 (105,08)

Для заповнення таблиці «Регресійна статистика» (Таблиця 9) знаходимо:

1. Множинний R- r-коефіцієнт кореляції між у і ŷ.

Для цього слід скористатися функцією КОРРЕЛ, ввівши масиви у і ŷ.

Отримане в результаті число 0,99 близько 1, що показує дуже сильний зв'язок між дослідними даними та розрахунковими.

2. Для розрахунку R-квадратзнаходимо:

Помилка, що пояснюється 17455259,48,

Непояснена помилка .

Отже, R-квадрат дорівнює .

Відповідно 97% досвідчених даних можна пояснити отриманим рівнянням регресії.

3. Нормований R-квадратзнаходимо за формулою

Цей показник служить для порівняння різних моделей регресії за зміни складу пояснюючих змінних.

4. Стандартна помилка– квадратний корінь із вибіркової залишкової дисперсії:

В результаті одержуємо наступну таблицю.

Таблиця 9.

Заповнення таблиці "Дисперсійний аналіз"

Більшість даних вже отримано вище. (Пояснюється і непояснена помилка).

Розрахуємо t wx:val="Cambria Math"/> 13 = 1342712,27"> .



Оцінку статистичної значущості рівняння регресії загалом проведемо з допомогою F-Крітерія Фішера. Рівняння множинної регресії значимо (інакше - гіпотеза H 0 про рівність нулю параметрів регресійної моделі, тобто відкидається), якщо

, (10)

де - Табличне значення F-критерію Фішера.

Фактичне значення F- критерію за формулою складе:

Для розрахунку табличного значення критерію Фішера використовується функція FРАСПОБР (Малюнок 4).

Ступінь свободи 1: p=13

Ступінь свободи 2: n-p-1 = 20-13-1 = 6

Рисунок 4. Використання функції FРАСПОБР в Excel.

F табл = 3,976< 16,88, следовательно, модель адекватна опытным данным.

Значення Fрозраховується за допомогою функції FРАСП. Ця функція повертає F-розподіл ймовірності (розподіл Фішера) і дозволяє визначити, чи мають два множини даних різні ступені розкиду результатів.

Рисунок 5. Використання функції FРАСП в Excel.

Значущість F = 0,001.

У статистичному моделюванні регресійний аналіз є дослідження, що застосовуються з метою оцінки взаємозв'язку між змінними. Цей математичний метод включає безліч інших методів для моделювання та аналізу декількох змінних, коли основна увага приділяється взаємозв'язку між залежною змінною і однією або декількома незалежними. Говорячи конкретніше, регресійний аналіз допомагає зрозуміти, як змінюється типове значення залежної змінної, якщо одне із незалежних змінних змінюється, тоді як інші незалежні змінні залишаються фіксованими.

У всіх випадках цільова оцінка є функцією незалежних змінних і називається функцією регресії. У регресійному аналізі також цікавить характеристика зміни залежної змінної як функції регресії, яка може бути описана за допомогою розподілу ймовірностей.

Завдання регресійного аналізу

Даний статистичний метод дослідження широко використовується для прогнозування, де його використання має суттєву перевагу, але іноді це може призводити до ілюзії або помилкових відносин, тому рекомендується акуратно використовувати його в зазначеному питанні, оскільки, наприклад, кореляція не означає причинно-наслідкового зв'язку.

Розроблено велику кількість методів для проведення регресійного аналізу, такі як лінійна та звичайна регресії за методом найменших квадратів, які є параметричними. Їх суть у тому, що функція регресії визначається термінами кінцевого числа невідомих параметрів, які оцінюються з даних. Непараметрична регресія дозволяє її функції лежати у певному наборі функцій, які можуть бути нескінченномірними.

Як статистичний метод дослідження, регресійний аналіз практично залежить від форми процесу генерації даних і від цього, як і ставиться до регресійного підходу. Так як справжня форма процесу даних, що генерують, як правило, невідоме число, регресійний аналіз даних часто залежить до певної міри від припущень про цей процес. Ці припущення іноді перевіряються, якщо є достатньо доступних даних. Регресійні моделі часто бувають корисними навіть тоді, коли припущення помірковано порушені, хоча вони не можуть працювати з максимальною ефективністю.

У вужчому сенсі регресія може ставитися безпосередньо до оцінці безперервних змінних відгуку, на відміну дискретних змінних відгуку, що у класифікації. Випадок безперервної вихідний змінної також називають метричною регресією, щоб відрізнити його від пов'язаних із цим проблем.

Історія

Найраніша форма регресії – це всім відомий метод найменших квадратів. Він був опублікований Лежандром в 1805 році і Гауссом в 1809. Лежандр і Гаусс застосували метод завдання визначення з астрономічних спостережень орбіти тіл навколо Сонця (в основному комети, але пізніше і знову відкриті малі планети). Гаус опублікував подальший розвиток теорії найменших квадратів у 1821 році, включаючи варіант теореми Гаусса-Маркова.

Термін «регрес» вигадав Френсіс Гальтон у ХІХ столітті, щоб описати біологічне явище. Суть у тому, що зростання нащадків від зростання предків, зазвичай, регресує вниз до нормального середнього. Для Гальтона регресія мала лише цей біологічний сенс, але пізніше його робота була продовжена Удні Йолей та Карлом Пірсоном і виведена до більш загального статистичного контексту. У роботі Йоля та Пірсона спільний розподіл змінних відгуків та пояснювальних вважається гаусовим. Це припущення було відкинуто Фішером на роботах 1922 і 1925 років. Фішер припустив, що умовний розподіл змінної відгуку є гаусовим, але спільний розподіл не повинен бути таким. У зв'язку з цим припущення Фішера ближче до формулювання Гауса 1821 року. До 1970 року іноді витрачалося до 24 годин, щоб отримати результат регресійного аналізу.

Методи регресійного аналізу продовжують залишатися областю активних досліджень. Останні десятиліття нові методи були розроблені для надійної регресії; регресії за участю корелюючих відгуків; методи регресії, що вміщають різні типи даних, що відсутні; непараметричної регресії; байєсовські методи регресії; регресії, у яких змінні прогнозуючих вимірюються з помилкою; регресії здебільшого предикторов, ніж спостережень, і навіть причинно-наслідкових висновків з регресією.

Регресійні моделі

Моделі регресійного аналізу включають такі змінні:

  • Невідомі параметри, позначені як бета, які можуть бути скаляр або вектор.
  • Незалежні змінні, X.
  • Залежні змінні, Y.

У різних галузях науки, де здійснюється застосування регресійного аналізу, використовуються різні терміни замість залежних та незалежних змінних, але у всіх випадках регресійна модель відносить Y до функцій X та β.

Наближення зазвичай оформляється як E (Y | X) = F (X, β). Для проведення регресійного аналізу має бути визначено вид функції f. Рідше вона заснована на знаннях про взаємозв'язок між Y та X, які не покладаються на дані. Якщо таке знання недоступне, то вибрано гнучку або зручну форму F.

Залежна змінна Y

Припустимо тепер, що вектор невідомих параметрів має довжину k. Для виконання регресійного аналізу користувач повинен надати інформацію про залежну змінну Y:

  • Якщо спостерігаються точки N даних виду (Y, X), де N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Якщо спостерігаються рівно N = K, а функція F є лінійною, то рівняння Y = F (X, β) можна вирішити точно, а чи не приблизно. Це зводиться до рішення набору N-рівнянь з N-невідомими (елементи β), який має єдине рішення доти, доки X лінійно незалежний. Якщо F є нелінійним, рішення може не існувати або може існувати багато рішень.
  • Найбільш поширеною є ситуація, де спостерігається N> точки до даних. У цьому випадку є достатньо інформації в даних, щоб оцінити унікальне значення для β, яке найкраще відповідає даним, і модель регресії, коли застосування до даних можна розглядати як перевизначену систему β.

У разі регресійний аналіз надає інструменти для:

  • Пошук рішення для невідомих параметрів β, які, наприклад, мінімізувати відстань між виміряним і передбаченим значенням Y.
  • За певних статистичних припущень, регресійний аналіз використовує надлишок інформації для надання статистичної інформації про невідомі параметри β та передбачені значення залежної змінної Y.

Необхідна кількість незалежних вимірів

Розглянемо модель регресії, яка має три невідомі параметри: β 0 , β 1 та β 2 . Припустимо, що експериментатор виконує 10 вимірювань в тому самому значенні незалежної змінної вектора X. У цьому випадку регресійний аналіз не дає унікальний набір значень. Краще, що можна зробити, оцінити середнє значення і стандартне відхилення залежної змінної Y. Аналогічно вимірюючи два різних значеннях X, можна отримати достатньо даних для регресії з двома невідомими, але не для трьох і більше невідомих.

Якщо вимірювання експериментатора проводилися за трьох різних значеннях незалежної змінної вектора X, то регресійний аналіз забезпечить унікальний набір оцінок для трьох невідомих параметрів β.

У разі загальної лінійної регресії наведене вище твердження еквівалентне вимогі, що матриця X Т X оборотна.

Статистичні припущення

Коли число вимірювань N більше, ніж число невідомих параметрів k і похибки вимірювань ε i , то, як правило, поширюється надлишок інформації, що міститься у вимірюваннях, і використовується для статистичних прогнозів щодо невідомих параметрів. Цей надлишок інформації називається ступенем свободи регресії.

Основні припущення

Класичні припущення для регресійного аналізу включають:

  • Вибірка є представником прогнозування логічного висновку.
  • Помилка є випадковою величиною із середнім значенням нуля, який є умовним на пояснюючих змінних.
  • Незалежні змінні вимірюються без помилок.
  • Як незалежних змінних (предикторів) вони лінійно незалежні, тобто неможливо висловити будь-який провісник у вигляді лінійної комбінації інших.
  • Помилки є некорельованими, тобто матриця помилок діагоналей і кожен ненульовий елемент є дисперсією помилки.
  • Дисперсія помилки постійна за спостереженнями (гомоскедастичністю). Якщо ні, можна використовувати метод зважених найменших квадратів чи інші методи.

Ці достатні умови для оцінки найменших квадратів мають необхідні властивості, зокрема ці припущення означають, що оцінки параметрів будуть об'єктивними, послідовними та ефективними, особливо при їх обліку в класі лінійних оцінок. Важливо, що фактичні дані рідко задовольняють умовам. Тобто метод використовується навіть якщо припущення не вірні. Варіація з припущень іноді може бути використана як міра, що показує, наскільки ця модель є корисною. Багато з цих припущень можуть бути пом'якшені у більш розвинених методах. Звіти статистичного аналізу, як правило, включають аналіз тестів за даними вибірки і методології для корисності моделі.

Крім того, змінні в деяких випадках посилаються на значення, які вимірюються в точкових місцях. Там можуть бути просторові тенденції та просторові автокореляції у змінних, що порушують статистичні припущення. Географічна зважена регресія – єдиний метод, який має справу з такими даними.

У лінійній регресії особливістю є те, що залежна змінна, якою є Y i являє собою лінійну комбінацію параметрів. Наприклад, у простій лінійній регресії для моделювання n-точок використовується одна незалежна змінна, x i , і два параметри, β 0 і β 1 .

При множинні лінійної регресії існує кілька незалежних змінних або їх функцій.

При випадковій вибірці з популяції параметри дозволяють отримати зразок моделі лінійної регресії.

В даному аспекті найпопулярнішим є метод найменших квадратів. За допомогою нього одержують оцінки параметрів, які мінімізують суму квадратів залишків. Такі мінімізація (що характерно саме лінійної регресії) цієї функції призводить до набору нормальних рівнянь і набору лінійних рівнянь з параметрами, які вирішуються з отриманням оцінок параметрів.

При подальшому припущенні, що помилка популяції зазвичай поширюється, дослідник може використовувати ці оцінки стандартних помилок для створення довірчих інтервалів та перевірки гіпотез про її параметри.

Нелінійний регресійний аналіз

Приклад, коли функція не є лінійною щодо параметрів, вказує на те, що сума квадратів повинна бути мінімально зведена за допомогою ітераційної процедури. Це вносить багато ускладнень, які визначають різницю між лінійними і нелінійними методами найменших квадратів. Отже, результати регресійного аналізу під час використання нелінійного методу часом непередбачувані.

Розрахунок потужності та обсягу вибірки

Тут, зазвичай, немає узгоджених методів, які стосуються числа спостережень проти числом незалежних змінних у моделі. Перше правило було запропоновано Доброю і Хардіном і виглядає як N = t^n, де N є розмір вибірки, n - число незалежних змінних, а t є числом спостережень, необхідних досягнення бажаної точності, якщо модель мала тільки одну незалежну змінну. Наприклад, дослідник будує модель лінійної регресії з використанням набору даних, що містить 1000 пацієнтів (N). Якщо дослідник вирішує, що необхідно п'ять спостережень, щоб точно визначити пряму (м), то максимальна кількість незалежних змінних, які може підтримувати модель, дорівнює 4.

Інші методи

Незважаючи на те, що параметри регресійної моделі, як правило, оцінюються з використанням методу найменших квадратів, існують і інші методи, які використовуються набагато рідше. Наприклад, це такі способи:

  • Байєсовські методи (наприклад, метод Байєса лінійної регресії).
  • Процентна регресія, що використовується для ситуацій, коли зниження відсоткових помилок вважається за доцільне.
  • Найменші абсолютні відхилення, що є стійкішим у присутності викидів, що призводять до квантильної регресії.
  • Непараметрична регресія, що вимагає великої кількості спостережень та обчислень.
  • Відстань метрики навчання, яка вивчається у пошуках значної відстані метрики у заданому вхідному просторі.

Програмне забезпечення

Усі основні статистичні пакети програмного забезпечення виконуються за допомогою найменших квадратів регресійного аналізу. Проста лінійна регресія та множинний регресійний аналіз можуть бути використані в деяких додатках електронних таблиць, а також на деяких калькуляторах. Хоча багато статистичних пакетів програмного забезпечення можуть виконувати різні типи непараметричної та надійної регресії, ці методи менш стандартизовані; Різні програмні пакети реалізують різні методи. Спеціалізоване регресійне програмне забезпечення було розроблено для використання в таких галузях як аналіз обстеження та нейровізуалізації.

Основна мета регресійного аналізуполягає у визначенні аналітичної форми зв'язку, в якій зміна результативної ознаки обумовлена ​​впливом однієї або декількох факторних ознак, а безліч інших факторів, що також впливають на результативну ознаку, приймається за постійні та середні значення.
Завдання регресійного аналізу:
а) Встановлення форми залежності. Щодо характеру та форми залежності між явищами, розрізняють позитивну лінійну та нелінійну та негативну лінійну та нелінійну регресію.
б) Визначення функції регресії як математичного рівняння тієї чи іншої типу та встановлення впливу пояснюючих змінних на залежну змінну.
в) Оцінка невідомих значень залежною змінною. За допомогою функції регресії можна відтворити значення залежної змінної всередині інтервалу заданих значень пояснюючих змінних (тобто вирішити задачу інтерполяції) або оцінити перебіг процесу поза заданим інтервалом (тобто вирішити задачу екстраполяції). Результат є оцінкою значення залежної змінної.

Парна регресія - рівняння зв'язку двох змінних у них: де y - залежна змінна (результативний ознака); x - незалежна, що пояснює змінна (ознака-фактор).

Розрізняють лінійні та нелінійні регресії.
Лінійна регресія: y = a + bx + ε
Нелінійні регресії діляться на два класи: регресії, нелінійні щодо включених в аналіз пояснюючих змінних, але лінійні за параметрами, що оцінюються, і регресії, нелінійні за оцінюваними параметрами.
Регресії, нелінійні за такими, що пояснюють змінним:

Регресії, нелінійні за параметрами, що оцінюються: Побудова рівняння регресії зводиться до оцінки її параметрів. Для оцінки параметрів регресій, лінійних за параметрами, використовують метод найменших квадратів (МНК). МНК дозволяє отримати такі оцінки параметрів, у яких сума квадратів відхилень фактичних значень результативної ознаки у теоретичних мінімальна, тобто.
.
Для лінійних та нелінійних рівнянь, що наводяться до лінійних, вирішується наступна система щодо a та b:

Можна скористатися готовими формулами, що випливають із цієї системи:

Тісноту зв'язку досліджуваних явищ оцінює лінійний коефіцієнт парної кореляції для лінійної регресії:

та індекс кореляції - для нелінійної регресії:

Оцінку якості побудованої моделі дасть коефіцієнт (індекс) детермінації, а також середня помилка апроксимації.
Середня помилка апроксимації - середнє відхилення розрахункових значень від фактичних:
.
Допустима межа значень - не більше 8-10%.
Середній коефіцієнт еластичності показує, на скільки відсотків в середньому по сукупності зміниться результат від своєї середньої величини при зміні фактора x на 1% від свого середнього значення:
.

Завдання дисперсійного аналізу полягає в аналізі дисперсії залежною змінною:
,
де – загальна сума квадратів відхилень;
- сума квадратів відхилень, обумовлена ​​регресією («пояснена» чи «факторна»);
- Залишкова сума квадратів відхилень.
Частку дисперсії, що пояснюється регресією, у загальній дисперсії результативної ознаки характеризує коефіцієнт (індекс) детермінації R 2:

Коефіцієнт детермінації – квадрат коефіцієнта чи індексу кореляції.

F-тест - оцінювання якості рівняння регресії - полягає у перевірці гіпотези Але про статистичну незначущість рівняння регресії та показника тісноти зв'язку. Для цього виконується порівняння фактичного F факт та критичного (табличного) F табл значень F-критерію Фішера. F факт визначається із співвідношення значень факторної та залишкової дисперсій, розрахованих на один ступінь свободи:
,
де n – число одиниць сукупності; m – число параметрів при змінних х.
F табл - це максимально можливе значення критерію під впливом випадкових факторів при даних ступенях свободи та рівні значущості a. Рівень значущості a - можливість відкинути правильну гіпотезу за умови, що вона вірна. Зазвичай приймається a дорівнює 0,05 або 0,01.
Якщо F табл< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F факт, то гіпотеза Н не відхиляється і визнається статистична незначимість, ненадійність рівняння регресії.
Для оцінки статистичної значущості коефіцієнтів регресії та кореляції розраховуються t-критерій Стьюдента та довірчі інтервали кожного з показників. Висувається гіпотеза про випадкову природу показників, тобто. про незначне їх відмінність від нуля. Оцінка значущості коефіцієнтів регресії та кореляції за допомогою t-критерію Стьюдента проводиться шляхом зіставлення їх значень із величиною випадкової помилки:
; ; .
Випадкові помилки параметрів лінійної регресії та коефіцієнта кореляції визначаються за формулами:



Порівнюючи фактичне та критичне (табличне) значення t-статистики – t табл та t факт – приймаємо або відкидаємо гіпотезу Н о.
Зв'язок між F-критерієм Фішера та t-статистикою Стьюдента виражається рівністю

Якщо t табл< t факт то H o отклоняется, т.е. a, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t факт то гіпотеза Н не відхиляється і визнається випадкова природа формування а, b або .
Для розрахунку довірчого інтервалу визначаємо граничну помилку D для кожного показника:
, .
Формули для розрахунку довірчих інтервалів мають такий вигляд:
; ;
; ;
Якщо межі довірчого інтервалу потрапляє нуль, тобто. нижня межа негативна, а верхня позитивна, то оцінюваний параметр приймається нульовим, оскільки він може одночасно приймати і позитивне, і негативне значення.
Прогнозне значення визначається шляхом підстановки рівняння регресії відповідного (прогнозного) значення . Обчислюється середня стандартна помилка прогнозу:
,
де
та будується довірчий інтервал прогнозу:
; ;
де .

Приклад рішення

Завдання №1. За сімома територіями Уральського району За 199Х р. відомі значення двох ознак.
Таблиця 1.
Потрібно: 1. Для характеристики залежності у від х розрахувати параметри наступних функцій:
а) лінійною;
б) статечної (попередньо потрібно провести процедуру лінеаризації змінних, шляхом логарифмування обох частин);
в) показовою;
г) рівносторонньої гіперболи (так само потрібно придумати як заздалегідь лінеаризувати цю модель).
2. Оцінити кожну модель через середню помилку апроксимації та F-критерій Фішера.

Рішення (Варіант №1)

Для розрахунку параметрів a та b лінійної регресії (розрахунок можна проводити за допомогою калькулятора).
вирішуємо систему нормальних рівнянь щодо аі b:
За вихідними даними розраховуємо :
y x yx x 2 y 2 A і
l 68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Разом 405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
Порівн. знач. (Разом/n) 57,89 54,90 3166,05 3048,34 3383,68 X X 8,1
s 5,74 5,86 X X X X X X
s 2 32,92 34,34 X X X X X X


Рівняння регресії: у = 76,88 - 0,35х.Зі збільшенням середньоденної зарплати на 1 крб. частка витрат на купівлю продовольчих товарів знижується в середньому на 0,35% пункту.
Розрахуємо лінійний коефіцієнт парної кореляції:

Зв'язок помірний, зворотний.
Визначимо коефіцієнт детермінації:

Варіація результату на 12,7% пояснюється варіацією фактора x. Підставляючи в рівняння регресії фактичні значення х,визначимо теоретичні (розрахункові) значення . Знайдемо величину середньої помилки апроксимації:

У середньому, розрахункові значення відхиляються від фактичних на 8,1%.
Розрахуємо F-критерій:

оскільки 1< F < ¥ слід розглянути F -1 .
Отримане значення вказує на необхідність прийняти гіпотезу Але провипадковій природі виявленої залежності та статистичної незначущості параметрів рівняння та показника тісноти зв'язку.
1б.Побудови статечної моделі передує процедура лінеаризації змінних. У прикладі лінеаризація проводиться шляхом логарифмування обох частин рівняння:


деY=lg(y), X=lg(x), C=lg(a).

Для розрахунків використовуємо дані табл. 1.3.

Таблиця 1.3

Y X YX Y 2 X 2 A і
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Разом 12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Середнє значення 1,7605 1,7370 3,0572 3,1011 3,0194 X X 28,27 8,0
σ 0,0425 0,0484 X X X X X X X
σ 2 0,0018 0,0023 X X X X X X X

Розрахуємо С і b:


Отримаємо лінійне рівняння: .
Виконавши його потенціювання, отримаємо:

Підставляючи на це рівняння фактичні значення х,одержуємо теоретичні значення результату. За ними розрахуємо показники: тісноти зв'язку - індекс кореляції та середню помилку апроксимації

Характеристики статечної моделі вказують, що вона дещо краща за лінійну функцію описує взаємозв'язок.

. Побудови рівняння показовою кривою

передує процедура лінеаризації змінних при логарифмуванні обох частин рівняння:

Для розрахунків використовуємо дані таблиці.

Y x Yx Y 2 x 2 A і
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Разом 12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
Порівн. зн. 1,7605 54,9 96,5711 3,1011 3048,34 X X 28,68 8,0
σ 0,0425 5,86 X X X X X X X
σ 2 0,0018 34,339 X X X X X X X

Значення параметрів регресії A та Усклали:


Отримано лінійне рівняння: . Зробимо потенціювання отриманого рівняння та запишемо його у звичайній формі:

Тісноту зв'язку оцінимо через індекс кореляції:

y=f(x), коли кожному значенню незалежної змінної xвідповідає одне певне значення величини y, при регресійному зв'язку одному й тому самому значенню xможуть відповідати залежно від випадку різні значення величини y. Якщо за кожного значення x=x iспостерігається n iзначень y i 1 …y in 1 величини y, то залежність середніх арифметичних =( y i 1 +…+y in 1)/n iвід x=x iі є регресією у статистичному розумінні цього терміна.

Цей термін у статистиці вперше було використано Френсісом Гальтоном (1886) у зв'язку з дослідженням питань успадкування фізичних характеристик людини. Як одну з характеристик було взято зростання людини; при цьому було виявлено, що загалом сини високих батьків, що не дивно, виявилися вищими, ніж сини батьків із низьким зростанням. Цікавішим було те, що розкид у зростанні синів був меншим, ніж розкид у зростанні батьків. Так виявлялася тенденція повернення зростання синів до середнього ( regression to mediocrity), тобто «регрес». Цей факт був продемонстрований обчисленням середнього зросту синів батьків, зростання яких дорівнює 56 дюймам, обчисленням середнього зросту синів батьків, зростання яких дорівнює 58 дюймам, і т. д. Після цього результати були зображені на площині, по осі ординат якої відкладалися значення середнього зросту синів , а по осі абсцис - значення середнього зростання батьків. Крапки (приблизно) лягли на пряму з позитивним кутом нахилу менше 45 °; важливо, що регресія була лінійною.

Отже, припустимо, є вибірка з двовимірного розподілу кількох випадкових змінних ( X, Y). Пряма лінія у площині ( x, y) була вибірковим аналогом функції

У цьому прикладі регресія Yна Xє лінійною функцією. Якщо регресія Yна Xвідмінна від лінійної, то наведені рівняння є лінійна апроксимація істинного рівняння регресії.

У випадку регресія однієї випадкової змінної на іншу не обов'язково буде лінійною. Також не обов'язково обмежуватись парою випадкових змінних. Статистичні проблеми регресії пов'язані з визначенням загального виду рівняння регресії, побудовою оцінок невідомих параметрів, що входять до рівняння регресії, та перевіркою статистичних гіпотез про регресію. Ці проблеми розглядаються в рамках регресійного аналізу.

Простим прикладом регресії Yпо Xє залежність між Yі X, Що виражається співвідношенням: Y=u(X)+ε, де u(x)=E(Y | X=x), а випадкові величини Xта ε незалежні. Це уявлення корисне, коли планується експеримент вивчення функціонального зв'язку y=u(x) між невипадковими величинами yі x. Насправді зазвичай коефіцієнти регресії у рівнянні y=u(x) невідомі та їх оцінюють за експериментальними даними.

Лінійна регресія (пропедевтика)

Представимо залежність yвід xу вигляді лінійної моделі першого порядку:

Вважатимемо, що значення xвизначаються без помилки, β 0 і β 1 - параметри моделі, а ε - помилка, розподіл якої підпорядковується нормальному закону з нульовим середнім значенням та постійним відхиленням σ 2 . Значення параметрів β заздалегідь не відомі та їх потрібно визначити з набору експериментальних значень ( x i , y i), i=1, …, n. Таким чином ми можемо записати:

де означає передбачене моделлю значення yпри цьому x, b 0 та b 1 – вибіркові оцінки параметрів моделі, а – значення помилок апроксимації.

Метод найменших квадратів дає такі формули для обчислення параметрів даної моделі та їх відхилень:

тут середні значення визначаються як завжди: , і s e 2 означає залишкове відхилення регресії, яке є оцінкою дисперсії σ 2 у тому випадку, якщо модель вірна.

Стандартні помилки коефіцієнтів регресії використовуються аналогічно до стандартної помилки середнього - для знаходження довірчих інтервалів і перевірки гіпотез. Використовуємо, наприклад, критерій Стьюдента для перевірки гіпотези про рівність коефіцієнта регресії нулю, тобто його незначущість для моделі. Статистика Стьюдента: t=b/s b. Якщо ймовірність для отриманого значення та n−2 ступенів свободи досить мала, наприклад,<0,05 - гипотеза отвергается. Напротив, если нет оснований отвергнуть гипотезу о равенстве нулю, скажем b 1 - є підстави задуматися про існування шуканої регресії, хоча б у цій формі, або збирання додаткових спостережень. Якщо ж нулю дорівнює вільний член b 0 то пряма проходить через початок координат і оцінка кутового коефіцієнта дорівнює

,

а її стандартної помилки

Зазвичай істинні величини коефіцієнтів регресії 0 і 1 не відомі. Відомі лише їх оцінки b 0 та b 1 . Інакше кажучи, справжня пряма регресії може пройти інакше, ніж побудована за вибірковими даними. Можна визначити довірчу область для лінії регресії. За будь-якого значення xвідповідні значення yрозподілено нормально. Середнім є значення рівняння регресії. Невизначеність його оцінки характеризується стандартною помилкою регресії:

Тепер можна обчислити 100(1−α/2)-відсотковий довірчий інтервал значення рівняння регресії в точці x:

,

де t(1-α/2, n−2) - t-значення розподілу Стьюдента На малюнку показана лінія регресії, побудована по 10 точках (суцільні точки), а також 95% довірча область лінії регресії, яка обмежена пунктирними лініями. З 95% ймовірністю можна стверджувати, що справжня лінія знаходиться десь усередині цієї області. Або інакше, якщо ми зберемо аналогічні набори даних (позначені кружками) і побудуємо за ними лінії регресії (позначені блакитним кольором), то в 95 випадках зі 100 ці прямі не залишать межі довірчої області. (Для візуалізації натисніть на картинці) Зверніть увагу, що деякі точки опинилися поза довірчою областю. Це цілком природно, оскільки йдеться про довірчу область лінії регресії, а не самих значень. Розкид значень складається з розкиду значень навколо лінії регресії та невизначеності положення цієї лінії, а саме:

Тут m- кратність виміру yпри цьому x. І 100(1−α/2)-відсотковий довірчий інтервал (інтервал прогнозу) для середнього mзначень yбуде:

.

На малюнку ця 95% довірча область при m=1 обмежена суцільними лініями. У цю область потрапляє 95% всіх можливих значень величини yу дослідженому діапазоні значень x.

Література

Посилання

  • (англ.)

Wikimedia Foundation. 2010 .

Дивитись що таке "Регресія (математика)" в інших словниках:

    У Вікісловарі є стаття «Регресія» Регресія (лат. regressio «Зворотний рух, повернення») багатозначна … Вікіпедія

    Про функцію див.: Інтерполянт. Інтерполяція, інтерполяція в обчислювальній математиці спосіб знаходження проміжних значень величини наявного дискретного набору відомих значень. Багатьом із тих, хто стикається з науковими та ... Вікіпедія

    Цей термін має й інші значення, див. середнє значення. У математиці та статистиці середнє арифметичне одна з найбільш поширених заходів центральної тенденції, що є сумою всіх спостережених значень поділену на них.

    Не слід плутати з японськими свічками. Графік 1. Результати експерименту Майкельсона Морлі… Вікіпедія

    Початківцям · Спільнота · Портали · Нагороди · Проекти · Запити · Оцінювання Географія · Історія · Суспільство · Персоналії · Релігія · Спорт · Техніка · Наука · Мистецтво · Філософія … Вікіпедія

    РЕГРЕСІЙНИЙ І КОРЕЛЯЦІЙНИЙ АНАЛІЗ- REGRESSION AND CORRELATION ANALYSISР.а. являє собою обчислення на основі статистичної інформації з метою математичної оцінки усередненого зв'язку між залежною змінною та деякою незалежною змінною або змінними. Проста… … Енциклопедія банківської справи та фінансів

    Логотип Тип Програми математичного моделювання Розробник … Вікіпедія

  • Tutorial

Статистика останнім часом отримала потужну PR підтримку з боку нових і гучних дисциплін - Машинного Навчанняі Великих даних. Тим, хто прагне осідлати цю хвилю необхідно потоваришувати з рівняннями регресії. Бажано при цьому не тільки засвоїти 2-3 приймачі та скласти іспит, а вміти вирішувати проблеми із повсякденного життя: знайти залежність між змінними, а в ідеалі – вміти відрізнити сигнал від шуму.



Для цієї мети ми будемо використовувати мову програмування та середовище розробки R, який якнайкраще пристосований до таких завдань. Заодно перевіримо від чого залежать рейтинг Хабрапоста на статистиці власних статей.

Введення у регресійний аналіз

Якщо є кореляційна залежність між змінними y і x виникає необхідність визначити функціональний зв'язок між двома величинами. Залежність середнього значення називається регресією y по x.


Основу регресійного аналізу складає метод найменших квадратів (МНК), відповідно до якого як рівняння регресії береться функція така, що сума квадратів різниць мінімальна.



Карл Гаус відкрив, або точніше відтворив, МНК у віці 18 років, проте вперше результати були опубліковані Лежандром в 1805 р. За неперевіреними даними метод був відомий ще в стародавньому Китаї, звідки він перекочував до Японії і тільки потім потрапив до Європи. Європейці не стали робити з цього секрету і успішно запустили у виробництво, виявивши з його допомогою траєкторію карликової планети Церес у 1801 році.


Вигляд функції , зазвичай, визначено заздалегідь, а з допомогою МНК підбираються оптимальні значення невідомих параметрів. Метрикою розсіювання значень довкола регресії є дисперсія.


  • k – число коефіцієнтів у системі рівнянь регресії.

Найчастіше використовується модель лінійної регресії, а всі нелінійні залежності призводять до лінійного вигляду за допомогою хитрощів алгебри, різних перетворення змінних y і x .

Лінійна регресія

Рівняння лінійної регресії можна записати як



У матричному вигляді це випрасує


  • y - залежна змінна;
  • x – незалежна змінна;
  • - коефіцієнти, які необхідно знайти за допомогою МНК;
  • ε - похибка, незрозуміла помилка та відхилення від лінійної залежності;


Випадкова величина може бути інтерпретована як сума з двох доданків:



Ще одне ключове поняття - коефіцієнт кореляції R2.


Обмеження лінійної регресії

Для того, щоб використовувати модель лінійної регресії, необхідні деякі припущення щодо розподілу та властивостей змінних.



Як виявити, що вищезазначені умови не дотримані? Ну, по-перше, досить часто це видно неозброєним оком на графіку.


Неоднорідність дисперсії


При зростанні дисперсії зі зростанням незалежної змінної маємо графік у формі вирви.



Нелінійну регресію в деяких випадках також модно побачити на графіку досить наочно.


Проте є й цілком суворі формальні способи визначити, чи дотримані умови лінійної регресії, чи порушені.




У цій формулі - коефіцієнт взаємної детермінації між іншими факторами. Якщо хоча б один із VIF-ів > 10, цілком резонно припустити наявність мультиколінеарності.


Чому нам таке важливе дотримання всіх вище перерахованих умов? Вся справа в Теоремі Гауса-Маркова, згідно з якою оцінка МНК є точною та ефективною лише за дотримання цих обмежень.

Як подолати ці обмеження

Порушення однієї чи кількох обмежень ще вирок.

  1. Нелінійність регресії може бути подолана перетворенням змінних, наприклад, через функцію натурального логарифму ln .
  2. Таким же способом можливо вирішити проблему неоднорідної дисперсії, за допомогою ln або sqrt перетворень залежної змінної, або ж використовуючи зважений МНК.
  3. Для усунення проблеми мультиколлінеарності застосовується метод виключення змінних. Суть його в тому, що високо корельовані пояснюючі змінні усуваються з регресії, і вона знову оцінюється. Критерієм відбору змінних, які підлягають виключенню, є коефіцієнт кореляції. Є ще один спосіб вирішення цієї проблеми, який полягає в заміні змінних, яким властива мультиколінеарність, їхньою лінійною комбінацією. Цим весь список не вичерпується, є ще покрокова регресіята інші методи.

На жаль, не всі порушення умов та дефекти лінійної регресії можна усунути за допомогою натурального логарифму. Якщо має місце автокореляція обуреньНаприклад, краще відступити на крок назад і побудувати нову і кращу модель.

Лінійна регресія плюсів на Хабрі

Отже, досить теоретичного багажу і можна будувати саму модель.
Мені давно було цікаво від чого залежить та сама зелена цифра, що вказує на рейтинг посту на Хабрі. Зібравши всю доступну статистику своїх постів, я вирішив прогнати її через модель лінійної регресії.


Завантажує дані із tsv файлу.


> hist<- read.table("~/habr_hist.txt", header=TRUE) >hist
points reads comm faves fb bytes 31 11 937 29 19 13 10 265 93 34 122 71 98 74 14 995 32 12 153 12 147 17 22 476 30 16 85 2 2 46 18824 12 16571 44 149 35 9972 18 9651 16 86 49 11370 59 29610 82 29 333 10131 26 8605 25 65 11 13050 20 11266 14 48 8 9884 ...
  • points- Рейтинг статті
  • reads- Число переглядів.
  • comm- Число коментарів.
  • faves- Додано до закладок.
  • fb- поділилися у соціальних мережах (fb + vk).
  • bytes- Довжина у байтах.

Перевірка мультиколінеарності.


> cor(hist) points reads comm faves fb bytes points 1.0000000 0.5641858 0.61489369 0.24104452 0.61696653 0.19502379 reads 0.564085 0.564185 7451189 0.57092464 0.24359202 comm 0.6148937 0.5478520 1.00000000 -0.01511207 0.51551030 0.08829025 0.5709241 207 1.00000000 0.23659894 0.14583018 fb 0.6169665 0.5709246 0.51551030 0.23659894 1.00000000 0.066 0.2435920 0.08829029 0.14583018 0.06782256 1.00000000

Всупереч моїм очікуванням найбільша віддачане від кількості переглядів статті, а від коментарів та публікацій у соціальних мережах. Я також вважав, що кількість переглядів і коментарів матиме сильнішу кореляцію, проте залежність цілком помірна - немає потреби виключати жодну з незалежних змінних.


Тепер сама модель, використовуємо функцію lm .


regmodel<- lm(points ~., data = hist) summary(regmodel) Call: lm(formula = points ~ ., data = hist) Residuals: Min 1Q Median 3Q Max -26.920 -9.517 -0.559 7.276 52.851 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.029e+01 7.198e+00 1.430 0.1608 reads 8.832e-05 3.158e-04 0.280 0.7812 comm 1.356e-01 5.218e-0. 2 3.492e-02 0.785 0.4374 fb 1.162e-01 4.691e-02 2.476 0.0177 * bytes 3.960e-04 4.219e-04 0.939 0.3537 --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 16.65 на 39 ступені freedom Multiple R-squared: 0.5384, Adjusted R-squared2: 0. статистика: 9.099 за 5 і 39 DF, p-значення: 8.476e-06

У першому рядку ми задаємо параметри лінійної регресії. Рядок points ~. визначає залежну змінну пунктів і всі інші змінні як регресори. Можна визначити одну єдину незалежну змінну через points~reads, набір змінних-points~reads+comm.


Перейдемо тепер до розшифрування отриманих результатів.




Можна спробувати дещо покращити модель, згладжуючи нелінійні чинники: коментарі та пости у соціальних мережах. Замінимо значення змінних fb і comm їх ступенями.


> hist$fb = hist$fb^(4/7) > hist$comm = hist$comm^(2/3)

Перевіримо значення параметрів лінійної регресії.


> regmodel<- lm(points ~., data = hist) >summary(regmodel) Call: lm(formula = points ~ ., data = hist) Residuals: Min 1Q Median 3Q Max -22.972 -11.362 -0.603 7.977 49.549 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.823e+00 7.305e+00 0.387 0.70123 reads -6.278e-05 3.227e-04 -0.195 0.84674 comm 1.030 2 ** faves 2.753e-02 3.421e-02 0.805 0.42585 fb 1.601e+00 5.575e-01 2.872 0.00657 ** bytes 2.688e-04 4.108e-07 0.5 codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 16.21 на 39 ступені freedom Multiple R-squared: 0.5624, Adjusted R-squared2: 0. статистика: 10.02 за 5 і 39 DF, p-value: 3.186e-06

Як бачимо загалом чуйність моделі зросла, параметри підтяглися і стали більш шовковистими, F-статистика зросла, так само як і скоригований коефіцієнт детермінації.


Перевіримо, чи дотримані умови застосування моделі лінійної регресії? Тест Дарбіна-Уотсона перевіряє наявність автокореляції збурень.


> dwtest(hist$points ~., data = hist) Durbin-Watson test data: hist$points ~ . DW = 1.585, p-value = 0.07078 альтернативна гіпотеза: true autocorrelation is greater than 0

І насамкінець перевірка неоднорідності дисперсії за допомогою тесту Бройша-Пагана.


> bptest(hist$points ~., data = hist) studentized Breusch-Pagan test data: hist$points ~ . BP = 6.5315, df = 5, p-value = 0.2579

На закінчення

Звичайно, наша модель лінійної регресії рейтингу Хабра-топіков вийшла не найвдалішою. Нам вдалося пояснити не більше половини варіативності даних. Чинники треба лагодити, щоб позбавлятися неоднорідної дисперсії, з автокореляцією теж незрозуміло. Взагалі даних замало для серйозної оцінки.


Але з іншого боку, це добре. Інакше будь-який поспіхом написаний троль-пост на Хабрі автоматично набирав би високий рейтинг, а це на щастя не так.

Використані матеріали

  1. Кобзар А. І.Прикладна математична статистика. - М: Фізматліт, 2006.
  2. William H. Green Econometric Analysis

Теги: Додати теги