Uchambuzi wa kawaida wa urejeshaji katika STATISTICA. Uchambuzi wa kurudi nyuma

Kutathmini ubora wa mlinganyo wa urejeshi kwa kutumia coefficients ya uamuzi. Kujaribu nadharia potofu kuhusu umuhimu wa mlingano na viashirio vya nguvu ya uhusiano kwa kutumia jaribio la Fisher's F.

Makosa ya kawaida ya mgawo.

Mlinganyo wa kurudi nyuma ni:

Y =3378,41 -494.59X 1 -35.00X 2 +75.74X 3 -15.81X 4 +80.10X 5 +59.84X 6 +
(1304,48) (226,77) (10,31) (277,57) (287,54) (35,31) (150,93)
+127.98X 7 -78.10X 8 -437.57X 9 +451.26X 10 -299.91X 11 -14.93X 12 -369.65X 13 (9)
(22,35) (31,19) (97,68) (331,79) (127,84) 86,06 (105,08)

Ili kujaza jedwali "Takwimu za Regression" (Jedwali la 9) tunapata:

1. Wingi R- mgawo wa uunganisho wa r kati ya y na ŷ.

Ili kufanya hivyo, tumia kitendakazi cha CORREL kwa kuingiza safu y na ŷ.

Nambari inayotokana 0.99 iko karibu na 1, ambayo inaonyesha uhusiano mkubwa sana kati ya data ya majaribio na data iliyohesabiwa.

2. Kwa hesabu R-mraba tunapata:

Hitilafu Iliyoelezewa 17455259,48,

Hitilafu isiyoelezeka .

Kwa hivyo, R-mraba ni sawa na .

Ipasavyo, 97% ya data ya majaribio inaweza kuelezewa na mlingano wa urejeshaji unaotokana.

3. R-mraba ya kawaida pata kwa formula

Kiashiria hiki kinatumika kulinganisha mifano tofauti ya urejeshaji wakati muundo wa vigezo vya maelezo hubadilika.

4. Hitilafu ya kawaida- mzizi wa mraba wa tofauti ya mabaki ya sampuli:

Kama matokeo, tunapata meza ifuatayo.

Jedwali 9.

Kujaza jedwali la "Uchambuzi wa Tofauti".

Data nyingi tayari zimepatikana hapo juu. (Kosa lililoelezewa na lisiloelezeka).

Hebu tuhesabu t wx:val="Cambria Math"/> 13 = 1342712,27"> .



Tutatathmini umuhimu wa takwimu wa mlinganyo wa rejista kwa ujumla kwa kutumia F-Kigezo cha wavuvi. Mlinganyo wa urejeshaji nyingi ni muhimu (vinginevyo, nadharia H 0 kuhusu usawa wa vigezo vya modeli ya urejeshi hadi sifuri, i.e. imekataliwa) ikiwa

, (10)

iko wapi bei ya jedwali ya mtihani wa Fisher's F.

Thamani halisi F- kigezo kulingana na formula itakuwa:

Ili kukokotoa thamani ya jedwali ya kigezo cha Fisher, chaguo za kukokotoa FRIST hutumiwa (Mchoro 4).

Kiwango cha uhuru 1: p=13

Kiwango cha uhuru 2: n-p-1 = 20-13-1=6

Mchoro 4. Kutumia kitendakazi cha FRIST katika Excel.

Jedwali la F = 3.976< 16,88, следовательно, модель адекватна опытным данным.

Umuhimu F imekokotolewa kwa kutumia chaguo za kukokotoa za FDIST. Chaguo hili la kukokotoa hurejesha usambazaji wa uwezekano wa F (Usambazaji wa Fisher) na hukuruhusu kubainisha kama seti mbili za data zina viwango tofauti vya mtawanyiko katika matokeo yao.

Mchoro 5. Kutumia kitendakazi cha FDIST katika Excel.

Umuhimu F = 0.001.

Katika uundaji wa takwimu, uchanganuzi wa urejeleaji ni utafiti unaotumika kutathmini uhusiano kati ya vigeu. Mbinu hii ya hisabati inajumuisha mbinu nyingine nyingi za kuigwa na kuchanganua vigeu vingi ambapo mkazo ni uhusiano kati ya kigezo tegemezi na kimoja au zaidi huru. Hasa zaidi, uchanganuzi wa urejeshi hutusaidia kuelewa jinsi thamani ya kawaida ya kigezo tegemezi hubadilika ikiwa mojawapo ya vigeu vinavyojitegemea hubadilika huku vigeu vingine huru vikibaki kuwa sawa.

Katika visa vyote, makadirio lengwa ni kazi ya vigeu huru na inaitwa kazi ya kurejesha kumbukumbu. Katika uchanganuzi wa rejista, pia ni ya kupendeza kuangazia mabadiliko katika kigezo tegemezi kama kazi ya urekebishaji, ambayo inaweza kuelezewa kwa kutumia usambazaji wa uwezekano.

Matatizo ya Uchambuzi wa Kurudi nyuma

Njia hii ya utafiti wa takwimu hutumiwa sana kwa utabiri, ambapo matumizi yake yana faida kubwa, lakini wakati mwingine inaweza kusababisha udanganyifu au mahusiano ya uwongo, kwa hiyo inashauriwa kuitumia kwa uangalifu katika suala hilo, kwa kuwa, kwa mfano, uwiano haimaanishi. kusababisha.

Idadi kubwa ya mbinu zimetengenezwa kwa uchanganuzi wa urejeleaji, kama vile urejeleaji wa miraba ya mstari na ya kawaida, ambayo ni parametric. Kiini chao ni kwamba kazi ya urekebishaji inafafanuliwa kwa suala la idadi ya kikomo ya vigezo visivyojulikana ambavyo vinakadiriwa kutoka kwa data. Urejeshaji usio na kipimo huruhusu utendakazi wake kuwa ndani ya seti mahususi ya vitendakazi, ambayo inaweza kuwa isiyo na kipimo.

Kama mbinu ya utafiti wa takwimu, uchanganuzi wa urejeleaji katika mazoezi unategemea aina ya mchakato wa kutengeneza data na jinsi inavyohusiana na mbinu ya urejeleaji. Kwa kuwa aina ya kweli ya mchakato wa kutengeneza data kwa kawaida ni nambari isiyojulikana, uchanganuzi wa urekebishaji wa data mara nyingi hutegemea kwa kiasi fulani mawazo kuhusu mchakato huo. Mawazo haya wakati mwingine yanaweza kujaribiwa ikiwa kuna data ya kutosha inayopatikana. Miundo ya urejeshaji mara nyingi ni muhimu hata wakati mawazo yamekiukwa kwa kiasi, ingawa yanaweza yasifanye kazi kwa ufanisi wa kilele.

Kwa maana finyu, urejeleaji unaweza kurejelea haswa makadirio ya vigeu vya majibu endelevu, kinyume na vijitibu tofauti vinavyotumika katika uainishaji. Kesi inayobadilika ya pato inayoendelea pia inaitwa urejeleaji wa kipimo ili kuitofautisha na matatizo yanayohusiana.

Hadithi

Njia ya mwanzo ya urejeshaji nyuma ni njia inayojulikana ya angalau mraba. Ilichapishwa na Legendre mwaka wa 1805 na Gauss mwaka wa 1809. Legendre na Gauss walitumia mbinu kwa tatizo la kuamua kutoka kwa uchunguzi wa angani mizunguko ya miili inayozunguka Jua (hasa comets, lakini baadaye pia sayari ndogo ndogo). Gauss alichapisha uendelezaji zaidi wa nadharia ya angalau mraba mnamo 1821, ikijumuisha toleo la nadharia ya Gauss-Markov.

Neno "regression" lilianzishwa na Francis Galton katika karne ya 19 kuelezea jambo la kibiolojia. Wazo lilikuwa kwamba urefu wa wazao kutoka kwa mababu zao huelekea kurudi chini kuelekea wastani wa kawaida. Kwa Galton, regression ilikuwa na maana hii ya kibiolojia tu, lakini baadaye kazi yake iliendelea na Udney Yoley na Karl Pearson na kuletwa katika muktadha wa jumla zaidi wa takwimu. Katika kazi ya Yule na Pearson, usambazaji wa pamoja wa majibu na vigezo vya maelezo huchukuliwa kuwa Gaussian. Dhana hii ilikataliwa na Fischer katika karatasi za 1922 na 1925. Fisher alipendekeza kuwa usambazaji wa masharti wa tofauti ya majibu ni Gaussian, lakini usambazaji wa pamoja hauhitaji kuwa. Katika suala hili, pendekezo la Fischer liko karibu na uundaji wa Gauss wa 1821. Kabla ya 1970, wakati mwingine ilichukua hadi saa 24 kupata matokeo ya uchanganuzi wa rejista.

Mbinu za uchambuzi wa urejeshi zinaendelea kuwa eneo la utafiti amilifu. Katika miongo ya hivi karibuni, mbinu mpya zimetengenezwa kwa urejeshaji thabiti; rejeshi zinazohusisha majibu yanayohusiana; njia za urejeshaji zinazoshughulikia aina tofauti za data zinazokosekana; urekebishaji usio na kipimo; Mbinu za urejeshaji wa Bayesian; rejeshi ambapo vigezo vya utabiri hupimwa kwa makosa; regression na watabiri zaidi kuliko uchunguzi, na uelekezaji wa sababu-na-athari na rejista.

Mifano ya urejeshaji

Mitindo ya uchanganuzi wa urekebishaji ni pamoja na anuwai zifuatazo:

  • Vigezo visivyojulikana, beta iliyochaguliwa, ambayo inaweza kuwa scalar au vector.
  • Vigezo Huru, X.
  • Vigezo Tegemezi, Y.

Nyanja tofauti za sayansi ambapo uchanganuzi wa urejeleaji hutumiwa hutumia istilahi tofauti badala ya vigeu tegemezi na vinavyojitegemea, lakini katika hali zote modeli ya urejeleaji inahusisha Y na utendaji wa X na β.

Ukadiriaji kawaida huandikwa kama E(Y | X) = F(X, β). Ili kufanya uchanganuzi wa urejeshaji, aina ya chaguo za kukokotoa f lazima ibainishwe. Chini ya kawaida, inategemea ujuzi kuhusu uhusiano kati ya Y na X, ambayo haitegemei data. Ikiwa ujuzi huo haupatikani, basi fomu ya kubadilika au rahisi F inachaguliwa.

Tofauti tegemezi Y

Wacha sasa tufikirie kuwa vekta ya vigezo visivyojulikana $ \ beta $ ina urefu $ \ k $. Ili kufanya uchanganuzi wa urejeshaji, mtumiaji lazima atoe maelezo kuhusu kigezo tegemezi cha Y:

  • Ikiwa vidokezo vya data vya fomu (Y, X) vinazingatiwa, ambapo N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Ikiwa hasa N = K huzingatiwa na kazi F ni ya mstari, basi equation Y = F (X, β) inaweza kutatuliwa hasa badala ya takriban. Hii ni sawa na kusuluhisha seti ya milinganyo ya N na N-isiyojulikana (vipengee β) ambayo ina suluhu la kipekee mradi tu X inajitegemea kimstari. Ikiwa F sio ya mstari, kunaweza kuwa hakuna suluhisho, au suluhisho nyingi zinaweza kuwepo.
  • Hali ya kawaida ni pale N > pointi za data zinazingatiwa. Katika hali hii, kuna maelezo ya kutosha katika data ya kukadiria thamani ya kipekee ya $ \ beta $ ambayo inafaa zaidi data, na muundo wa urekebishaji ambapo programu kwa data inaweza kutazamwa kama mfumo uliobainishwa kupita kiasi katika $ \ beta $.

Katika kesi ya mwisho, uchambuzi wa rejista hutoa zana za:

  • Kupata suluhisho kwa vigezo visivyojulikana $ \ beta $, ambayo, kwa mfano, itapunguza umbali kati ya thamani iliyopimwa na iliyotabiriwa ya $ Y $.
  • Chini ya mawazo fulani ya takwimu, uchanganuzi wa urekebishaji hutumia maelezo ya ziada kutoa maelezo ya takwimu kuhusu vigezo visivyojulikana β na thamani zilizotabiriwa za utofauti tegemezi wa Y.

Nambari inayohitajika ya vipimo vya kujitegemea

Fikiria mfano wa urejeshaji ambao una vigezo vitatu visivyojulikana: β 0 , β 1 na β 2 . Tuseme mjaribio hufanya vipimo 10 kwa thamani sawa ya vekta ya kutofautiana ya X. Katika kesi hii, uchambuzi wa urejeshaji hautoi seti ya kipekee ya maadili. Bora unayoweza kufanya ni kukadiria mkengeuko wa wastani na wa kawaida wa kigezo tegemezi cha Y. Vile vile, kwa kupima thamani mbili tofauti za X, unaweza kupata data ya kutosha ya kusawazisha na mbili zisizojulikana, lakini sio kwa tatu au zaidi zisizojulikana.

Ikiwa vipimo vya mjaribio vilifanywa kwa viwango vitatu tofauti vya vekta inayojitegemea ya X, basi uchanganuzi wa urekebishaji utatoa seti ya kipekee ya makadirio kwa vigezo vitatu visivyojulikana katika $ \ beta $.

Katika kesi ya urejeshaji wa mstari wa jumla, taarifa iliyo hapo juu ni sawa na hitaji la kuwa matrix X T X haiwezi kugeuzwa.

Mawazo ya Kitakwimu

Wakati idadi ya vipimo N ni kubwa kuliko idadi ya vigezo visivyojulikana k na makosa ya kipimo ε i , basi, kama sheria, maelezo ya ziada yaliyomo katika vipimo basi husambazwa na kutumika kwa utabiri wa takwimu kuhusu vigezo visivyojulikana. Habari hii ya ziada inaitwa kiwango cha regression cha uhuru.

Mawazo ya Msingi

Mawazo ya kawaida ya uchanganuzi wa rejista ni pamoja na:

  • Sampuli ni kiwakilishi cha utabiri wa makisio.
  • Neno la makosa ni kigezo cha nasibu chenye maana ya sifuri, ambayo ni ya masharti kwa vigeu vya maelezo.
  • Vigezo vya kujitegemea vinapimwa bila makosa.
  • Kama vigeu vinavyojitegemea (watabiri), vinajitegemea kwa mstari, yaani, haiwezekani kueleza kitabiri chochote kama mchanganyiko wa mstari wa wengine.
  • Makosa hayajaunganishwa, ambayo ni, matrix ya udadisi wa makosa ya diagonals na kila kipengele kisicho sifuri ni tofauti ya makosa.
  • Tofauti ya makosa ni ya mara kwa mara katika uchunguzi (homoscedasticity). Ikiwa sivyo, basi mraba mdogo au njia zingine zinaweza kutumika.

Masharti haya ya kutosha ya ukadiriaji wa angalau miraba yana sifa zinazohitajika; haswa, mawazo haya yanamaanisha kuwa makadirio ya vigezo yatakuwa yenye lengo, thabiti, na ufanisi, hasa yakizingatiwa katika darasa la wakadiriaji wa mstari. Ni muhimu kutambua kwamba ushahidi mara chache hukidhi masharti. Hiyo ni, njia hutumiwa hata kama dhana sio sahihi. Tofauti kutoka kwa mawazo wakati mwingine inaweza kutumika kama kipimo cha jinsi mfano ni muhimu. Mengi ya mawazo haya yanaweza kulegezwa kwa njia za hali ya juu zaidi. Ripoti za uchanganuzi wa takwimu kwa kawaida hujumuisha uchanganuzi wa majaribio kwenye sampuli ya data na mbinu kwa ajili ya manufaa ya modeli.

Zaidi ya hayo, vigezo katika baadhi ya matukio hurejelea thamani zilizopimwa katika maeneo ya uhakika. Huenda kukawa na mitindo ya anga na uunganisho otomatiki wa anga katika vigeu vinavyokiuka mawazo ya takwimu. Urejeshaji wa uzani wa kijiografia ndio njia pekee inayoshughulika na data kama hiyo.

Kipengele cha urejeshaji wa mstari ni kwamba kigezo tegemezi, ambacho ni Yi, ni mchanganyiko wa mstari wa vigezo. Kwa mfano, urejeshaji rahisi wa mstari hutumia kigezo kimoja huru, x i , na vigezo viwili, β 0 na β 1, kuiga n-alama.

Katika urejeshaji wa safu nyingi, kuna anuwai nyingi huru au kazi zake.

Sampuli nasibu inapochukuliwa kutoka kwa idadi ya watu, vigezo vyake huruhusu mtu kupata sampuli ya modeli ya urejeleaji wa mstari.

Katika kipengele hiki, maarufu zaidi ni njia ya angalau mraba. Inatumika kupata makadirio ya vigezo ambayo hupunguza jumla ya mabaki ya mraba. Aina hii ya upunguzaji (ambayo ni kawaida ya urejeshaji wa mstari) wa chaguo za kukokotoa hupelekea seti ya milinganyo ya kawaida na seti ya milinganyo ya mstari yenye vigezo, ambayo hutatuliwa ili kupata makadirio ya vigezo.

Chini ya dhana zaidi kwamba makosa ya idadi ya watu kwa ujumla huenezwa, mtafiti anaweza kutumia makadirio haya ya makosa ya kawaida kuunda vipindi vya kujiamini na kufanya majaribio ya nadharia kuhusu vigezo vyake.

Uchambuzi wa urejeshaji usio na mstari

Mfano ambapo fomula ya kukokotoa si ya mstari kuhusiana na vigezo inaonyesha kuwa jumla ya miraba inapaswa kupunguzwa kwa kutumia utaratibu wa kurudia. Hii inaleta matatizo mengi ambayo yanafafanua tofauti kati ya njia za mraba zenye mstari na zisizo za mstari. Kwa hivyo, matokeo ya uchanganuzi wa rejista wakati wa kutumia njia isiyo ya mstari wakati mwingine haitabiriki.

Uhesabuji wa nguvu na saizi ya sampuli

Kwa ujumla hakuna mbinu thabiti kuhusu idadi ya uchunguzi dhidi ya idadi ya vigezo huru katika modeli. Sheria ya kwanza ilipendekezwa na Dobra na Hardin na inaonekana kama N = t^n, ambapo N ni saizi ya sampuli, n ni idadi ya vigeu vinavyojitegemea, na t ni idadi ya uchunguzi unaohitajika kufikia usahihi unaotaka ikiwa mfano ungekuwa. tofauti moja tu ya kujitegemea. Kwa mfano, mtafiti huunda modeli ya urejeshi wa mstari kwa kutumia seti ya data ambayo ina wagonjwa 1000 (N). Ikiwa mtafiti ataamua kuwa uchunguzi tano unahitajika ili kufafanua kwa usahihi mstari (m), basi idadi ya juu ya vigezo huru ambavyo modeli inaweza kuunga mkono ni 4.

Mbinu nyingine

Ingawa vigezo vya modeli za urejeshi kawaida hukadiriwa kwa kutumia njia ya miraba ndogo zaidi, kuna njia zingine ambazo hutumiwa mara chache sana. Kwa mfano, hizi ni njia zifuatazo:

  • Njia za Bayesian (kwa mfano, rejeshi la mstari wa Bayesian).
  • Asilimia ya kurudi nyuma, inayotumika kwa hali ambapo kupunguza makosa ya asilimia inachukuliwa kuwa inafaa zaidi.
  • Mkengeuko mdogo kabisa, ambao ni thabiti zaidi mbele ya wauzaji wa nje unaosababisha urejeshaji wa quantile.
  • Urejeshaji usio na kipimo, ambao unahitaji idadi kubwa ya uchunguzi na mahesabu.
  • Kipimo cha kujifunza kwa umbali ambacho hufunzwa kupata kipimo cha maana cha umbali katika nafasi fulani ya kuingiza data.

Programu

Vifurushi vyote vikuu vya programu vya takwimu hufanya uchanganuzi wa urejeleaji wa miraba. Urejeshaji rahisi wa mstari na uchanganuzi wa urejeshaji nyingi unaweza kutumika katika baadhi ya programu za lahajedwali na pia baadhi ya vikokotoo. Ingawa vifurushi vingi vya programu za takwimu vinaweza kufanya aina mbalimbali za urejeshaji usio na kipimo na thabiti, mbinu hizi hazina viwango; vifurushi tofauti vya programu hutumia njia tofauti. Programu maalum ya urejeleaji imeundwa kwa matumizi katika maeneo kama vile uchanganuzi wa mitihani na uchunguzi wa neva.

Kusudi kuu la uchambuzi wa urejeshaji Inajumuisha kuamua aina ya mawasiliano ya uchambuzi ambayo mabadiliko katika tabia ya ufanisi ni kwa sababu ya ushawishi wa sifa moja au zaidi ya sababu, na seti ya mambo mengine yote ambayo pia huathiri sifa ya ufanisi huchukuliwa kama maadili ya mara kwa mara na ya wastani.
Matatizo ya Uchambuzi wa Kurudi nyuma:
a) Kuanzisha aina ya utegemezi. Kuhusu asili na aina ya uhusiano kati ya matukio, tofauti hufanywa kati ya urejeshaji chanya wa mstari na usio na mstari na hasi wa mstari na usio wa mstari.
b) Kuamua kazi ya urejeshaji kwa namna ya usawa wa hisabati wa aina moja au nyingine na kuanzisha ushawishi wa vigezo vya maelezo juu ya kutofautiana tegemezi.
c) Ukadiriaji wa maadili yasiyojulikana ya tofauti tegemezi. Kwa kutumia kitendakazi cha rejista, unaweza kuzaliana maadili ya kutofautisha tegemezi ndani ya muda wa maadili maalum ya vigezo vya maelezo (yaani, kutatua tatizo la ukalimani) au kutathmini mwendo wa mchakato nje ya muda maalum (yaani. suluhisha shida ya ziada). Matokeo yake ni makadirio ya thamani ya kigezo tegemezi.

Urejeshaji uliooanishwa ni mlinganyo wa uhusiano kati ya vigeu viwili y na x: , ambapo y ni kigezo tegemezi (sifa tokeo); x ni kigezo huru cha maelezo (kipengele-sababu).

Kuna rejista za mstari na zisizo za mstari.
Urejeshaji wa mstari: y = a + bx + ε
Marekebisho yasiyo ya mstari yamegawanywa katika madarasa mawili: rejeshi zisizo za mstari kwa heshima na vigezo vya maelezo vilivyojumuishwa katika uchanganuzi, lakini mstari kwa heshima na vigezo vinavyokadiriwa, na urejeshaji usio na mstari kwa heshima na vigezo vinavyokadiriwa.
Marekebisho ambayo hayana mstari katika anuwai ya maelezo:

Marekebisho ambayo hayana mstari kuhusiana na vigezo vinavyokadiriwa: Ujenzi wa mlinganyo wa urejeshi unakuja chini ya kukadiria vigezo vyake. Ili kukadiria vigezo vya regressions za mstari katika vigezo, njia ya angalau mraba (OLS) hutumiwa. Njia ya mraba ndogo hufanya iwezekane kupata makadirio ya parameta ambayo jumla ya kupotoka kwa mraba wa maadili halisi ya tabia ya matokeo y kutoka kwa zile za kinadharia ni ndogo, i.e.
.
Kwa milinganyo ya mstari na isiyo ya mstari inayoweza kupunguzwa hadi ya mstari, mfumo ufuatao unatatuliwa kwa a na b:

Unaweza kutumia fomula zilizotengenezwa tayari zinazofuata kutoka kwa mfumo huu:

Ukaribu wa muunganisho kati ya matukio yanayosomwa hutathminiwa na mgawo wa mstari wa uunganisho wa jozi kwa urejeshaji wa mstari:

na faharisi ya uunganisho - kwa urekebishaji usio wa mstari:

Ubora wa mfano uliojengwa utapimwa na mgawo (index) ya uamuzi, pamoja na kosa la wastani la makadirio.
Hitilafu ya wastani ya kukadiria - mkengeuko wastani wa thamani zilizokokotwa kutoka kwa zile halisi:
.
Kikomo kinachoruhusiwa cha maadili sio zaidi ya 8-10%.
Wastani wa mgawo wa unyumbufu unaonyesha kwa asilimia ngapi kwa wastani matokeo y yatabadilika kutoka thamani yake ya wastani wakati kipengele cha x kinapobadilika kwa 1% kutoka thamani yake ya wastani:
.

Madhumuni ya uchanganuzi wa tofauti ni kuchambua utofauti wa tofauti tegemezi:
,
iko wapi jumla ya mikengeuko ya mraba;
- jumla ya mikengeuko ya mraba kwa sababu ya kurudi nyuma ("iliyoelezewa" au "kipengele");
- Jumla ya mabaki ya mikengeuko ya mraba.
Sehemu ya tofauti iliyoelezewa na rejista katika tofauti ya jumla ya sifa y inaonyeshwa na mgawo (fahirisi) ya uamuzi R2:

Mgawo wa uamuzi ni mraba wa mgawo au faharasa ya uunganisho.

Jaribio la F - kutathmini ubora wa mlinganyo wa urejeshi - linajumuisha majaribio ya nadharia No kuhusu udogo wa takwimu wa mlinganyo wa kurejesha nyuma na kiashirio cha ukaribu wa uhusiano. Ili kufanya hivyo, kulinganisha kunafanywa kati ya ukweli halisi wa F na maadili muhimu (ya jedwali) F ya kigezo cha F ya Fisher. Ukweli wa F huamuliwa kutoka kwa uwiano wa maadili ya sababu na tofauti za mabaki zilizohesabiwa kwa kiwango cha uhuru:
,
ambapo n ni idadi ya vitengo vya idadi ya watu; m ni idadi ya vigezo vya vigezo x.
F Kiwango cha umuhimu a ni uwezekano wa kukataa dhana sahihi, mradi tu ni kweli. Kawaida a inachukuliwa sawa na 0.05 au 0.01.
Ikiwa jedwali la F< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F ukweli, basi hypothesis H o haijakataliwa na kutokuwa na umuhimu wa takwimu na kutoaminika kwa mlinganyo wa urejeshi hutambuliwa.
Ili kutathmini umuhimu wa takwimu wa urejeshaji na uwianishi wa uwiano, kipimo cha t cha Mwanafunzi na vipindi vya kujiamini kwa kila kiashirio huhesabiwa. Dhana inawekwa mbele kuhusu asili ya nasibu ya viashiria, i.e. kuhusu tofauti yao isiyo na maana kutoka kwa sifuri. Kutathmini umuhimu wa rejeshi na uwiano wa misimbo kwa kutumia mtihani wa t wa Mwanafunzi hufanywa kwa kulinganisha thamani zao na ukubwa wa hitilafu nasibu:
; ; .
Makosa ya nasibu ya vigezo vya rejista ya mstari na mgawo wa uunganisho huamuliwa na fomula:



Kulinganisha maadili halisi na muhimu (tabular) ya t-takwimu - jedwali la t na ukweli wa t - tunakubali au kukataa nadharia H o.
Uhusiano kati ya mtihani wa Fisher F na takwimu za T wa Mwanafunzi unaonyeshwa na usawa

Ikiwa t meza< t факт то H o отклоняется, т.е. a, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t ni ukweli kwamba nadharia H o haijakataliwa na asili nasibu ya uundaji wa a, b au inatambuliwa.
Ili kuhesabu muda wa kujiamini, tunaamua kosa la juu D kwa kila kiashiria:
, .
Njia za kuhesabu vipindi vya kujiamini ni kama ifuatavyo:
; ;
; ;
Ikiwa sifuri iko ndani ya muda wa kujiamini, i.e. Ikiwa kikomo cha chini ni hasi na kikomo cha juu ni chanya, basi parameter inakadiriwa inachukuliwa kuwa sifuri, kwani haiwezi kuchukua wakati huo huo maadili mazuri na hasi.
Thamani ya utabiri hubainishwa kwa kubadilisha thamani inayolingana (ya utabiri) kwenye mlinganyo wa rejista. Hitilafu ya wastani ya utabiri imehesabiwa:
,
Wapi
na muda wa kujiamini kwa utabiri unaundwa:
; ;
Wapi .

Suluhisho la mfano

Kazi nambari 1. Kwa maeneo saba ya mkoa wa Ural mnamo 199X, maadili ya sifa mbili yanajulikana.
Jedwali 1.
Inahitajika: 1. Ili kubainisha utegemezi wa y kwa x, hesabu vigezo vya kazi zifuatazo:
a) mstari;
b) nguvu (lazima kwanza ufanyie utaratibu wa mstari wa vigezo kwa kuchukua logarithm ya sehemu zote mbili);
c) maonyesho;
d) hyperbola equilateral (unahitaji pia kujua jinsi ya kuweka mstari wa mfano huu).
2. Tathmini kila modeli ukitumia hitilafu ya wastani ya ukadiriaji na mtihani wa Fisher F.

Suluhisho (Chaguo Na. 1)

Ili kuhesabu vigezo a na b vya urejeshaji wa mstari (hesabu inaweza kufanywa kwa kutumia kikokotoo).
kutatua mfumo wa milinganyo ya kawaida kwa A Na b:
Kulingana na data ya awali, tunahesabu :
y x yx x 2 y 2 A i
l 68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Jumla 405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
Jumatano. maana (Jumla/n) 57,89 54,90 3166,05 3048,34 3383,68 X X 8,1
s 5,74 5,86 X X X X X X
s 2 32,92 34,34 X X X X X X


Mlinganyo wa kurudi nyuma: y = 76,88 - 0,35X. Kwa ongezeko la wastani wa mshahara wa kila siku kwa 1 kusugua. sehemu ya gharama za ununuzi wa bidhaa za chakula hupungua kwa wastani wa asilimia 0.35.
Wacha tuhesabu mgawo wa uunganisho wa jozi ya mstari:

Uunganisho ni wa wastani, kinyume.
Wacha tuamue mgawo wa uamuzi:

Tofauti ya 12.7% katika matokeo inaelezewa na tofauti katika sababu ya x. Kubadilisha maadili halisi kwenye mlinganyo wa rejista X, wacha tuamue maadili ya kinadharia (yaliyohesabiwa). . Wacha tupate thamani ya kosa la wastani la makadirio:

Kwa wastani, maadili yaliyohesabiwa yanapotoka kutoka kwa halisi kwa 8.1%.
Wacha tuhesabu kigezo cha F:

tangu 1< F < ¥ , inapaswa kuzingatiwa F -1 .
Thamani inayotokana inaonyesha hitaji la kukubali nadharia Lakini oh asili ya nasibu ya utegemezi uliotambuliwa na kutokuwa na maana kwa takwimu ya vigezo vya equation na kiashiria cha ukaribu wa uunganisho.
1b. Ujenzi wa mfano wa nguvu unatanguliwa na utaratibu wa mstari wa vigezo. Katika mfano, uwekaji mstari unafanywa kwa kuchukua logariti za pande zote mbili za equation:


WapiY=lg(y), X=lg(x), C=lg(a).

Kwa mahesabu tunatumia data kwenye jedwali. 1.3.

Jedwali 1.3

Y X YX Y2 X 2 A i
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Jumla 12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Thamani ya wastani 1,7605 1,7370 3,0572 3,1011 3,0194 X X 28,27 8,0
σ 0,0425 0,0484 X X X X X X X
σ 2 0,0018 0,0023 X X X X X X X

Wacha tuhesabu C na b:


Tunapata equation ya mstari: .
Baada ya kutekeleza uwezo wake, tunapata:

Kubadilisha maadili halisi kwenye mlinganyo huu X, tunapata maadili ya kinadharia ya matokeo. Kwa kuzitumia, tutahesabu viashiria: ukali wa uunganisho - index ya uunganisho na kosa la wastani la makadirio

Sifa za kielelezo cha sheria-nguvu zinaonyesha kuwa inaelezea uhusiano kwa kiasi fulani bora kuliko utendaji kazi wa mstari.

1c. Kuunda mlinganyo wa curve ya kielelezo

hutanguliwa na utaratibu wa kuainisha vigezo kwa kuchukua logariti za pande zote mbili za equation:

Kwa mahesabu tunatumia data ya meza.

Y x Yx Y2 x 2 A i
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Jumla 12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
Jumatano. zn. 1,7605 54,9 96,5711 3,1011 3048,34 X X 28,68 8,0
σ 0,0425 5,86 X X X X X X X
σ 2 0,0018 34,339 X X X X X X X

Maadili ya vigezo vya rejista A na KATIKA ilifikia:


Mlinganyo wa mstari unaotokana ni: . Wacha tuwezeshe equation inayosababishwa na tuandike kwa fomu ya kawaida:

Tutatathmini ukaribu wa muunganisho kupitia faharisi ya uunganisho:

y=f(x), wakati kila thamani ya tofauti huru x inalingana na thamani moja maalum ya wingi y, na muunganisho wa rejista kwa thamani sawa x inaweza kuendana kulingana na kesi na maadili tofauti ya wingi y. Ikiwa kwa kila thamani x=Xi kuzingatiwa n i maadili y i 1 …y katika 1 ukubwa y, basi utegemezi wa njia za hesabu =( y i 1 +…+y katika 1)/n i kutoka x=Xi na ni mrejesho katika maana ya takwimu ya neno hilo.

Neno hili katika takwimu lilitumiwa kwanza na Francis Galton (1886) kuhusiana na utafiti wa urithi wa sifa za kimwili za binadamu. Urefu wa mwanadamu ulichukuliwa kama moja ya sifa; ilibainika kuwa, kwa ujumla, wana wa baba warefu, haishangazi, waligeuka kuwa warefu kuliko wana wa baba wafupi. Kilichovutia zaidi ni kwamba tofauti katika urefu wa wana ilikuwa ndogo kuliko tofauti katika urefu wa baba. Hivi ndivyo tabia ya urefu wa wana kurudi kwa wastani ilidhihirika ( kurudi nyuma kwa wastani), yaani, "regression". Ukweli huu ulionyeshwa kwa kuhesabu urefu wa wastani wa wana wa baba ambao urefu wao ni inchi 56, kwa kuhesabu urefu wa wastani wa wana wa baba ambao wana urefu wa inchi 58, nk. Matokeo yalipangwa kwenye ndege, pamoja na kuratibu. mhimili ambao urefu wa wastani wa wana ulipangwa. , na kwenye mhimili wa x - maadili ya urefu wa wastani wa baba. Pointi (takriban) ziko kwenye mstari wa moja kwa moja na angle nzuri ya mwelekeo chini ya 45 °; ni muhimu kwamba regression ilikuwa ya mstari.

Kwa hivyo, wacha tuseme tunayo sampuli kutoka kwa usambazaji wa bivariate ya jozi ya anuwai ya nasibu ( X, Y) Mstari wa moja kwa moja kwenye ndege ( x, y) ilikuwa analog ya kuchagua ya chaguo

Katika mfano huu, regression Y juu X ni kazi ya mstari. Ikiwa kurudi nyuma Y juu X ni tofauti na mstari, basi milinganyo iliyotolewa ni ukadiriaji wa mstari wa mlinganyo wa kweli wa rejista.

Kwa ujumla, urekebishaji wa tofauti moja ya nasibu kwenye nyingine sio lazima iwe ya mstari. Pia sio lazima kujiwekea kikomo kwa anuwai kadhaa za nasibu. Matatizo ya urejeshaji wa takwimu yanahusisha kubainisha aina ya jumla ya mlingano wa kurejesha hali, kuunda makadirio ya vigezo visivyojulikana vilivyojumuishwa katika mlinganyo wa kurejesha hali, na kupima dhahania za takwimu kuhusu urejeshaji. Matatizo haya yanashughulikiwa ndani ya mfumo wa uchanganuzi wa urejeshi.

Mfano rahisi wa kurudi nyuma Y Na X ni uhusiano kati ya Y Na X, ambayo inaonyeshwa na uhusiano: Y=u(X)+ε, wapi u(x)=E(Y | X=x), na anuwai za nasibu X na ε wanajitegemea. Uwakilishi huu ni muhimu wakati wa kubuni jaribio la kusoma muunganisho wa utendaji y=u(x) kati ya idadi isiyo ya nasibu y Na x. Kwa mazoezi, kwa kawaida migawo ya rejista katika Eq. y=u(x) hazijulikani na zinakadiriwa kutokana na data ya majaribio.

Urejeshaji wa mstari (propaedeutics)

Hebu fikiria utegemezi y kutoka x kwa namna ya mfano wa mstari wa mpangilio wa kwanza:

Tutafikiri kwamba maadili x huamuliwa bila makosa, β 0 na β 1 ​​ni vigezo vya mfano, na ε ni kosa, usambazaji ambao unatii sheria ya kawaida na thamani ya sifuri na kupotoka mara kwa mara σ 2. Thamani za vigezo β hazijulikani mapema na lazima ziamuliwe kutoka kwa seti ya maadili ya majaribio ( x mimi, y i), i=1, …, n. Kwa hivyo tunaweza kuandika:

ambapo inamaanisha thamani iliyotabiriwa na mfano y kupewa x, b 0 na b 1 - makadirio ya sampuli ya vigezo vya mfano, na - maadili ya makosa ya kukadiria.

Njia ndogo ya mraba inatoa fomula zifuatazo za kuhesabu vigezo vya muundo fulani na kupotoka kwao:

hapa maadili ya wastani yamedhamiriwa kama kawaida: , na s e 2 inaashiria mabaki ya rejista, ambayo ni makadirio ya tofauti σ 2 ikiwa mfano ni sahihi.

Makosa ya kawaida ya mgawo wa urekebishaji hutumiwa sawa na kosa la kawaida la wastani - kupata vipindi vya kujiamini na nadharia za majaribio. Tunatumia, kwa mfano, jaribio la Mwanafunzi kujaribu dhahania kwamba mgawo wa rejista ni sawa na sifuri, ambayo ni kwamba, sio muhimu kwa mfano. Takwimu za wanafunzi: t=b/s b. Ikiwa uwezekano wa thamani iliyopatikana na n−2 digrii za uhuru ni ndogo sana, kwa mfano,<0,05 - гипотеза отвергается. Напротив, если нет оснований отвергнуть гипотезу о равенстве нулю, скажем b 1 - kuna sababu ya kufikiri juu ya kuwepo kwa regression taka, angalau katika fomu hii, au kuhusu kukusanya uchunguzi wa ziada. Ikiwa neno la bure ni sawa na sifuri b 0, kisha mstari wa moja kwa moja hupitia asili na makadirio ya mteremko ni sawa na

,

na makosa yake ya kawaida

Kawaida maadili ya kweli ya hesabu za rejista β 0 na β 1 ​​hazijulikani. Makadirio yao tu ndiyo yanajulikana b 0 na b 1 . Kwa maneno mengine, laini ya rejista ya kweli inaweza kufanya kazi tofauti na ile iliyojengwa kutoka kwa data ya sampuli. Unaweza kuhesabu eneo la kujiamini kwa safu ya rejista. Kwa thamani yoyote x maadili yanayolingana y kawaida kusambazwa. Wastani ni thamani ya mlinganyo wa rejista. Kutokuwa na uhakika wa makadirio yake ni sifa ya kosa la kawaida la rejista:

Sasa tunaweza kuhesabu muda wa kujiamini wa asilimia 100 (1-α/2) kwa thamani ya mlinganyo wa rejista kwa uhakika. x:

,

Wapi t(1−α/2, n−2) - t-thamani ya mgawanyo wa Wanafunzi. Kielelezo kinaonyesha mstari wa regression uliojengwa kwa kutumia pointi 10 (dots imara), pamoja na eneo la ujasiri la 95% la mstari wa kurejesha, ambao umepunguzwa na mistari ya nukta. Kwa uwezekano wa 95% tunaweza kusema kwamba mstari wa kweli iko mahali fulani ndani ya eneo hili. Au vinginevyo, ikiwa tunakusanya seti za data zinazofanana (zilizoonyeshwa na miduara) na kujenga mistari ya regression juu yao (iliyoonyeshwa kwa bluu), basi katika kesi 95 kati ya 100 hizi mistari moja kwa moja haitaondoka kwenye eneo la uaminifu. (Bofya kwenye picha ili kuibua) Tafadhali kumbuka kuwa baadhi ya pointi zilikuwa nje ya eneo la imani. Hii ni ya asili kabisa, kwani tunazungumza juu ya eneo la kujiamini la safu ya rejista, na sio maadili yenyewe. Kuenea kwa maadili kunajumuisha kuenea kwa maadili karibu na mstari wa rejista na kutokuwa na uhakika wa nafasi ya mstari huu yenyewe, yaani:

Hapa m- mzunguko wa kipimo y kupewa x. Na muda wa kujiamini wa asilimia 100 (1-α/2) (muda wa utabiri) kwa maana ya m maadili y mapenzi:

.

Katika takwimu, hii 95% imani mkoa katika m=1 imepunguzwa na mistari thabiti. 95% ya maadili yote yanayowezekana ya wingi huanguka katika eneo hili y katika safu iliyosomwa ya maadili x.

Fasihi

Viungo

  • (Kiingereza)

Wikimedia Foundation. 2010.

Tazama "Regression (hisabati)" ni nini katika kamusi zingine:

    Wiktionary ina makala kuhusu “regression.” Regression (Kilatini regressio “reverse movement, return”) ina maana nyingi ... Wikipedia

    Kuhusu kazi, ona: Interpolant. Ufafanuzi, tafsiri katika hisabati ya hesabu ni njia ya kupata maadili ya kati ya kiasi kutoka kwa seti iliyopo ya maadili inayojulikana. Wengi wa wale wanaokutana na kisayansi na ... ... Wikipedia

    Neno hili lina maana zingine, angalia maana ya wastani. Katika hisabati na takwimu, maana ya hesabu ni mojawapo ya hatua za kawaida za tabia kuu, inayowakilisha jumla ya maadili yote yaliyozingatiwa yaliyogawanywa na ... ... Wikipedia

    Haipaswi kuchanganyikiwa na vinara vya Kijapani. Grafu 1. Matokeo ya jaribio la Michelson Morley ... Wikipedia

    Kwa wanaoanza · Jumuiya · Tovuti · Tuzo · Miradi · Maombi · Jiografia ya Tathmini · Historia · Jamii · Haiba · Dini · Michezo · Teknolojia · Sayansi · Sanaa · Falsafa ... Wikipedia

    UCHAMBUZI WA UREJAJI NA UWIANO- UCHAMBUZI WA UREJAJI NA UWIANO. ni hesabu kulingana na maelezo ya takwimu ili kukadiria kihisabati uhusiano wa wastani kati ya kigezo tegemezi na baadhi ya vigeu vinavyojitegemea. Rahisi...... Encyclopedia ya Benki na Fedha

    Aina ya Nembo Mpango wa uundaji wa hisabati Msanidi ... Wikipedia

  • Mafunzo

Takwimu hivi majuzi zimepokea usaidizi wa nguvu wa PR kutoka kwa taaluma mpya na zenye kelele zaidi - Kujifunza kwa Mashine Na Data Kubwa. Wale ambao wanataka kupanda wimbi hili wanahitaji kufanya urafiki nao milinganyo ya kurudi nyuma. Inashauriwa sio tu kujifunza mbinu 2-3 na kupitisha mtihani, lakini pia kuwa na uwezo wa kutatua matatizo kutoka kwa maisha ya kila siku: kupata uhusiano kati ya vigezo, na vyema, kuwa na uwezo wa kutofautisha ishara kutoka kwa kelele.



Kwa kusudi hili tutatumia lugha ya programu na mazingira ya maendeleo R, ambayo inafaa kabisa kwa kazi hizo. Wakati huo huo, hebu tuangalie ni nini huamua ukadiriaji wa Habrapost kulingana na takwimu za nakala zake.

Utangulizi wa Uchambuzi wa Kurudi nyuma

Ikiwa kuna uwiano kati ya vigezo y na x, kuna haja ya kuamua uhusiano wa kazi kati ya wingi mbili. Utegemezi wa thamani ya wastani huitwa kurudi nyuma kwa y kwenye x.


Msingi wa uchambuzi wa urejeshaji ni njia ya angalau mraba (LSM), kulingana na ambayo mlinganyo wa rejista huchukuliwa kuwa kazi ili jumla ya miraba ya tofauti iwe ndogo.



Carl Gauss aligundua, au tuseme alitengeneza tena, MNC akiwa na umri wa miaka 18, lakini matokeo yalichapishwa kwanza na Legendre mwaka wa 1805. Kwa mujibu wa data isiyothibitishwa, njia hiyo ilijulikana katika China ya kale, kutoka ambapo ilihamia Japan na kisha tu ikaja. Ulaya. Wazungu hawakufanya siri ya hii na walifanikiwa kuiweka katika uzalishaji, wakitumia kugundua trajectory ya sayari ndogo ya Ceres mnamo 1801.


Aina ya kazi ni, kama sheria, imedhamiriwa mapema, na maadili bora ya vigezo visivyojulikana huchaguliwa kwa kutumia mraba mdogo. Kipimo cha mtawanyiko wa thamani karibu na urejeshaji ni tofauti.


  • k ni idadi ya coefficients katika mfumo wa milinganyo ya regression.

Mara nyingi, mfano wa urejeshaji wa mstari hutumiwa, na utegemezi wote usio na mstari hupunguzwa kwa fomu ya mstari kwa msaada wa hila za algebraic na mabadiliko mbalimbali ya vigezo y na x.

Urejeshaji wa mstari

Milinganyo ya rejista ya mstari inaweza kuandikwa kama



Katika fomu ya matrix hii itaonekana kama


  • y - kutofautiana kwa tegemezi;
  • x - kutofautiana kwa kujitegemea;
  • β - coefficients ambayo inahitaji kupatikana kwa kutumia mraba mdogo;
  • ε - kosa, kosa lisiloelezewa na kupotoka kutoka kwa utegemezi wa mstari;


Tofauti ya nasibu inaweza kufasiriwa kama jumla ya maneno mawili:



Dhana nyingine muhimu ni mgawo wa uwiano R 2 .


Mapungufu ya Urejeshaji wa Mstari

Ili kutumia modeli ya rejista ya mstari, mawazo kadhaa yanahitajika kuhusu usambazaji na mali ya anuwai.



Jinsi ya kugundua kuwa hali zilizo hapo juu hazijafikiwa? Kweli, kwanza, mara nyingi hii inaonekana kwa jicho uchi kwenye chati.


Heterogeneity ya utawanyiko


Tofauti inapoongezeka kwa tofauti huru, tuna grafu yenye umbo la funnel.



Katika baadhi ya matukio, urejeshaji usio na mstari pia unaweza kuonekana wazi kabisa kwenye grafu.


Walakini, kuna njia rasmi za kuamua ikiwa masharti ya urejeshaji wa mstari yamefikiwa au kukiukwa.




Katika formula hii - mgawo wa uamuzi wa pande zote kati na mambo mengine. Ikiwa angalau moja ya VIF ni> 10, ni busara kabisa kudhani uwepo wa multicollinearity.


Kwa nini ni muhimu sana kwetu kutii masharti yote hapo juu? Yote ni kuhusu Nadharia ya Gauss-Markov, kulingana na ambayo makadirio ya OLS ni sahihi na yanafaa tu ikiwa vikwazo hivi vinatimizwa.

Jinsi ya kuondokana na mapungufu haya

Kukiuka kizuizi kimoja au zaidi sio hukumu ya kifo.

  1. Ukosefu wa usawa wa urejeshaji unaweza kushinda kwa kubadilisha vigeu, kwa mfano kupitia kitendakazi asilia cha logarithm ln.
  2. Kwa njia hiyo hiyo, inawezekana kutatua tatizo la tofauti tofauti, kwa kutumia mabadiliko ya ln, au sqrt ya kutofautiana tegemezi, au kutumia OLS yenye uzito.
  3. Ili kuondoa tatizo la multicollinearity, njia ya kuondoa vigezo hutumiwa. Asili yake ni hiyo vigezo vya maelezo vinavyohusiana sana huondolewa kwenye regression, na inatathminiwa upya. Kigezo cha kuchagua vigeu vitakavyotengwa ni mgawo wa uunganisho. Kuna njia nyingine ya kutatua tatizo hili, ambayo ni kubadilisha vigeu ambavyo asili ni multicollinear na mchanganyiko wao wa mstari. Orodha hii sio kamili, kuna zaidi kurudi nyuma kwa hatua na mbinu zingine.

Kwa bahati mbaya, sio ukiukaji wote wa hali na kasoro za urejeshaji wa mstari zinaweza kuondolewa kwa kutumia logarithm asili. Kama ipo autocorrelation ya usumbufu kwa mfano, ni bora kuchukua hatua nyuma na kujenga mtindo mpya na bora zaidi.

Urejeshaji wa mstari wa faida kwenye Habre

Kwa hiyo, mizigo ya kutosha ya kinadharia na unaweza kujenga mfano yenyewe.
Kwa muda mrefu nimekuwa nikitamani kujua ni nini nambari hiyo ndogo ya kijani inategemea, ambayo inaonyesha ukadiriaji wa chapisho kwenye Habre. Baada ya kukusanya takwimu zote zinazopatikana za machapisho yangu mwenyewe, niliamua kuiendesha kupitia modeli ya rejista ya mstari.


Inapakia data kutoka kwa faili ya tsv.


> wake<- read.table("~/habr_hist.txt", header=TRUE) >hist
pointi zinasoma comm faves fb bytes 31 11937 29 19 13 10265 93 34122 71 98 74 14995 32 12153 12 147 17 22476 30 168607 125 12 32 30 168607 12 32 46 18824 12 16571 44 149 35 9972 18 9651 16 86 49 11370 59 29610 82 29 333 10131 26 8605 25 65 11 13050 20 11266 14 48 8 9884 ...
  • pointi- Makala rating
  • inasoma- Idadi ya maoni.
  • comm- Idadi ya maoni.
  • vipendwa- Imeongezwa kwa alamisho.
  • fb- Imeshirikiwa kwenye mitandao ya kijamii (fb + vk).
  • baiti- Urefu katika baiti.

Ukaguzi wa Multicollinearity.


> pointi za cor(hist) zinasoma comm faves fb bytes pointi 1.0000000 0.5641858 0.61489369 0.24104452 0.61696653 0.19502379 inasoma 0.5640000 705 705 705 705 705 708 570 5708057. 118. 07 1.0 0000000 0.23659894 0.14583018 fb 0.6169665 0.5709246 0.51551030 0.23659894 1.00000000 2506 baiti 0.1950238 0.2435920 0.08829029 0.14583018 0.06782256 1.00000000

Kinyume na matarajio yangu kurudi kubwa zaidi sio kwa idadi ya maoni ya kifungu, lakini kutoka kwa maoni na machapisho kwenye mitandao ya kijamii. Nilidhani pia kuwa idadi ya maoni na maoni itakuwa na uunganisho mkubwa zaidi, lakini uhusiano huo ni wa wastani - hakuna haja ya kuwatenga anuwai yoyote ya kujitegemea.


Sasa mfano halisi yenyewe, tunatumia kazi ya lm.


regmodel<- lm(points ~., data = hist) summary(regmodel) Call: lm(formula = points ~ ., data = hist) Residuals: Min 1Q Median 3Q Max -26.920 -9.517 -0.559 7.276 52.851 Coefficients: Estimate Std. Error t value Pr(>|t|) (Inapokatiza) 1.029e+01 7.198e+00 1.430 0.1608 inasoma 8.832e-05 3.158e-04 0.280 0.7812 comm 1.356e-01 5.2-10 20.218 02 3.492e-02 0.785 0.4374 fb 1.162e-01 4.691e-02 2.476 0.0177 * ka 3.960e-04 4.219e-04 0.939 0.3537 --- Signif. misimbo: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Hitilafu ya kiwango cha mabaki: 16.65 kwenye digrii 39 za uhuru Nyingi za R-mraba: 0.5384, Iliyorekebishwa R-mraba: 0.4792 F-Mraba takwimu: 9.099 kwenye 5 na 39 DF, thamani ya p: 8.476e-06

Katika mstari wa kwanza tunaweka vigezo vya urejeshaji wa mstari. Pointi za mstari ~. inafafanua alama tegemezi za kutofautisha na anuwai zingine zote kama viboreshaji. Unaweza kufafanua kigezo kimoja huru kupitia pointi ~ reads, seti ya vigeu - points ~ reads + comm.


Wacha sasa tuendelee kupambanua matokeo yaliyopatikana.




Unaweza kujaribu kuboresha mtindo kwa kiasi fulani kwa kulainisha mambo yasiyo ya mstari: maoni na machapisho kwenye mitandao ya kijamii. Wacha tubadilishe maadili ya anuwai fb na comm na nguvu zao.


> hist$fb = hist$fb^(4/7) > hist$comm = hist$comm^(2/3)

Wacha tuangalie maadili ya vigezo vya rejista ya mstari.


> regmodel<- lm(points ~., data = hist) >muhtasari(regmodel) Piga simu: lm(formula = pointi ~ ., data = hist) Mabaki: Min 1Q Median 3Q Max -22.972 -11.362 -0.603 7.977 49.549 Coefficients: Kadiria Std. Hitilafu T Thamani PR (> | T |) (Kukatiza) 2.823e+00 7.305e+00 0.387 0.70123 Imesoma -6.278e-05 3.227E-04.195 0.84674 Comm 1.43674 Comm 1.4320. 02 3.421e -02 0.805 0.42585 fb 1.601e+00 5.575e-01 2.872 0.00657 ** byte 2.688e-04 4.108e-04 0.654 0.51677 --- Signif. misimbo: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Hitilafu ya kiwango cha mabaki: 16.21 kwenye digrii 39 za uhuru Nyingi za R-mraba: 0.5624, Iliyorekebishwa R-mraba: 0.5062 F- takwimu: 10.02 kwenye 5 na 39 DF, thamani ya p: 3.186e-06

Kama tunavyoona, kwa ujumla, mwitikio wa mfano umeongezeka, vigezo vimeimarishwa na kuwa laini zaidi, takwimu za F zimeongezeka, pamoja na mgawo uliorekebishwa wa uamuzi.


Wacha tuangalie ikiwa masharti ya utumiaji wa modeli ya rejista ya mstari yamefikiwa? Jaribio la Durbin-Watson hujaribu uunganisho otomatiki wa usumbufu.


> dwtest(hist$points ~., data = hist) Data ya jaribio la Durbin-Watson: hist$points ~ . DW = 1.585, p-thamani = 0.07078 nadharia mbadala: uunganisho wa kweli wa kiotomatiki ni mkubwa kuliko 0

Na hatimaye, kuangalia heterogeneity ya tofauti kwa kutumia mtihani wa Breusch-Pagan.


> bptest(hist$points ~., data = hist) data ya mtihani wa Breusch-Pagan iliyofunzwa: hist$points ~ . BP = 6.5315, df = 5, p-thamani = 0.2579

Hatimaye

Bila shaka, muundo wetu wa urejeshaji wa mstari kwa ukadiriaji wa mada za Habr haukuwa wa mafanikio zaidi. Hatukuweza kueleza si zaidi ya nusu ya tofauti katika data. Mambo yanahitaji kusahihishwa ili kuondoa utawanyiko wa hali ya juu; uhusiano wa kiotomatiki pia hauko wazi. Kwa ujumla, hakuna data ya kutosha kwa tathmini yoyote kubwa.


Lakini kwa upande mwingine, hii ni nzuri. Vinginevyo, chapisho lolote lililoandikwa kwa haraka kwenye Habre lingepokea alama ya juu kiotomatiki, lakini kwa bahati sivyo.

Vifaa vilivyotumika

  1. Kobzar A.I. Hutumika takwimu za hisabati. - M.: Fizmatlit, 2006.
  2. William H. Green Uchambuzi wa Kiuchumi

Lebo: Ongeza vitambulisho