Bumuo ng pairwise regression sa excel. Mga pamamaraan ng matematika sa sikolohiya

Sa mga nakaraang post, ang pagsusuri ay madalas na nakatuon sa isang solong numerical variable, tulad ng pagbabalik ng mutual fund, mga oras ng paglo-load ng Web page, o pagkonsumo ng soft drink. Sa ito at sa kasunod na mga tala, titingnan natin ang mga pamamaraan para sa paghula ng mga halaga ng isang numeric variable depende sa mga halaga ng isa o higit pang mga numeric variable.

Ang materyal ay ilalarawan gamit ang isang cross-cutting na halimbawa. Pagtataya ng dami ng benta sa isang tindahan ng damit. Ang Sunflowers chain ng mga discount na tindahan ng damit ay patuloy na lumalawak sa loob ng 25 taon. Gayunpaman, ang kumpanya ay kasalukuyang walang sistematikong diskarte sa pagpili ng mga bagong outlet. Ang lugar kung saan magbubukas ang kumpanya bagong tindahan, ay tinutukoy batay sa mga pansariling pagsasaalang-alang. Ang mga pamantayan sa pagpili ay ang mga kanais-nais na kondisyon sa pag-upa o ang ideya ng manager ng perpektong lokasyon ng tindahan. Isipin na ikaw ang pinuno ng mga espesyal na proyekto at departamento ng pagpaplano. Ikaw ay naatasang bumuo ng isang estratehikong plano para sa pagbubukas ng mga bagong tindahan. Ang planong ito ay dapat magsama ng pagtataya ng taunang benta para sa mga bagong bukas na tindahan. Naniniwala ka na ang retail space ay direktang nauugnay sa kita at gusto mong isama ito sa iyong proseso ng paggawa ng desisyon. Paano ka bubuo ng istatistikal na modelo upang mahulaan ang mga taunang benta batay sa laki ng isang bagong tindahan?

Karaniwan, ang pagsusuri ng regression ay ginagamit upang mahulaan ang mga halaga ng isang variable. Ang layunin nito ay bumuo ng isang istatistikal na modelo na nagpapahintulot sa isa na mahulaan ang mga halaga ng dependent variable, o tugon, mula sa mga halaga. kahit man lang isang independyente o nagpapaliwanag na variable. Sa post na ito titingnan natin ang simpleng linear regression - istatistikal na paraan, na nagpapahintulot na mahulaan ang mga halaga ng dependent variable Y sa pamamagitan ng mga independiyenteng variable na halaga X. Ang mga kasunod na tala ay maglalarawan ng maraming modelo ng regression na idinisenyo upang mahulaan ang mga halaga ng isang malayang variable Y batay sa mga halaga ng ilang dependent variables ( X 1, X 2, …, X k).

I-download ang tala sa o format, mga halimbawa sa format

Mga uri ng mga modelo ng regression

saan ρ 1 – koepisyent ng autocorrelation; Kung ρ 1 = 0 (walang autocorrelation), D≈ 2; Kung ρ 1 ≈ 1 (positibong autocorrelation), D≈ 0; Kung ρ 1 = -1 (negatibong autocorrelation), D ≈ 4.

Sa pagsasagawa, ang paggamit ng Durbin-Watson criterion ay batay sa paghahambing ng halaga D na may mga kritikal na teoretikal na halaga d L At d U Para sa binigay na numero mga obserbasyon n, bilang ng mga independiyenteng variable ng modelo k(para simple linear regression k= 1) at antas ng kahalagahan α. Kung D< d L , ang hypothesis tungkol sa kalayaan ng mga random na paglihis ay tinanggihan (kaya, mayroong isang positibong autocorrelation); Kung D>dU, ang hypothesis ay hindi tinatanggihan (iyon ay, walang autocorrelation); Kung d L< D < d U , walang sapat na batayan para gumawa ng desisyon. Kapag ang kinakalkula na halaga D lumampas sa 2, pagkatapos ay may d L At d U Hindi ang koepisyent mismo ang inihambing D, at ang expression (4 – D).

Upang kalkulahin ang mga istatistika ng Durbin-Watson sa Excel, buksan natin ang talahanayan sa ibaba sa Fig. 14 Pag-withdraw ng balanse. Ang numerator sa expression (10) ay kinakalkula gamit ang function na =SUMMAR(array1;array2), at ang denominator =SUMMAR(array) (Fig. 16).

kanin. 16. Mga formula para sa pagkalkula ng mga istatistika ng Durbin-Watson

Sa ating halimbawa D= 0.883. Ang pangunahing tanong ay: anong halaga ng istatistika ng Durbin-Watson ang dapat ituring na sapat na maliit upang tapusin na mayroong isang positibong autocorrelation? Kinakailangan na iugnay ang halaga ng D sa mga kritikal na halaga ( d L At d U), depende sa bilang ng mga obserbasyon n at antas ng kahalagahan α (Larawan 17).

kanin. 17. Mga kritikal na halaga ng mga istatistika ng Durbin-Watson (table fragment)

Kaya, sa problema ng dami ng benta sa isang tindahan na naghahatid ng mga kalakal sa bahay, mayroong isang malayang variable ( k= 1), 15 obserbasyon ( n= 15) at antas ng kabuluhan α = 0.05. Kaya naman, d L= 1.08 at dU= 1.36. Since D = 0,883 < d L= 1.08, mayroong isang positibong autocorrelation sa pagitan ng mga residual, hindi maaaring gamitin ang hindi bababa sa mga parisukat na paraan.

Pagsubok ng Hypotheses tungkol sa Slope at Correlation Coefficient

Sa itaas, ang regression ay ginamit lamang para sa pagtataya. Upang matukoy ang mga coefficient ng regression at mahulaan ang halaga ng isang variable Y para sa isang naibigay na variable na halaga X Ginamit ang paraan ng least squares. Bilang karagdagan, sinuri namin ang root mean square error ng pagtatantya at ang mixed correlation coefficient. Kung ang pag-aaral ng mga nalalabi ay nagpapatunay na ang mga kondisyon ng pagkakalapat ng pamamaraan ng hindi bababa sa mga parisukat ay hindi nilalabag, at ang simpleng linear regression na modelo ay sapat, batay sa sample na data, maaari itong maitalo na mayroong pagkakaiba sa pagitan ng mga variable sa populasyon. linear dependence.

Aplikasyont -pamantayan para sa slope. Sa pamamagitan ng pagsubok kung ang slope ng populasyon β 1 ay katumbas ng zero, matutukoy ng isa kung mayroong isang makabuluhang kaugnayan sa istatistika sa pagitan ng mga variable. X At Y. Kung ang hypothesis na ito ay tinanggihan, ito ay maaaring argued na sa pagitan ng mga variable X At Y mayroong isang linear na relasyon. Ang mga null at alternatibong hypotheses ay nabuo tulad ng sumusunod: H 0: β 1 = 0 (walang linear dependence), H1: β 1 ≠ 0 (may linear dependence). Sa pamamagitan ng kahulugan t-statistic ay katumbas ng pagkakaiba sa pagitan ng sample na slope at hypothetical na halaga ng slope ng populasyon, na hinati sa root mean square error ng slope estimate:

(11) t = (b 1 β 1 ) / S b 1

saan b 1 – slope ng direktang regression sa sample na data, β1 – hypothetical slope ng direktang populasyon, , at mga istatistika ng pagsubok t may t-pamamahagi na may n – 2 antas ng kalayaan.

Suriin natin kung may makabuluhang kaugnayan sa istatistika sa pagitan ng laki ng tindahan at taunang benta sa α = 0.05. t-ang criterion ay ipinapakita kasama ng iba pang mga parameter kapag ginamit Pakete ng pagsusuri(pagpipilian Regression). Ang kumpletong resulta ng Package ng Pagsusuri ay ipinapakita sa Fig. 4, fragment na nauugnay sa t-statistics - sa Fig. 18.

kanin. 18. Mga resulta ng aplikasyon t

Dahil sa dami ng mga tindahan n= 14 (tingnan ang Fig. 3), kritikal na halaga t-Ang mga istatistika sa antas ng kahalagahan ng α = 0.05 ay matatagpuan gamit ang formula: t L=STUDENT.ARV(0.025,12) = –2.1788, kung saan ang 0.025 ay kalahati ng antas ng kahalagahan, at 12 = n – 2; t U=ESTUDYANTE.OBR(0.975,12) = +2.1788.

Since t-statistika = 10.64 > t U= 2.1788 (Larawan 19), null hypothesis H 0 tinanggihan. Sa kabilang panig, r-halaga para sa X= 10.6411, na kinakalkula ng formula =1-STUDENT.DIST(D3,12,TRUE), ay tinatayang katumbas ng zero, kaya ang hypothesis H 0 muling tinanggihan. Ang katotohanan na r-Ang halaga ng halos zero ay nangangahulugan na kung walang totoong linear na ugnayan sa pagitan ng mga laki ng tindahan at taunang benta, halos imposible itong matukoy gamit ang linear regression. Samakatuwid, mayroong makabuluhang linear na kaugnayan sa istatistika sa pagitan ng average na taunang benta ng tindahan at laki ng tindahan.

kanin. 19. Pagsubok sa hypothesis tungkol sa slope ng populasyon sa antas ng kahalagahan na 0.05 at 12 degrees ng kalayaan

AplikasyonF -pamantayan para sa slope. Ang isang alternatibong diskarte sa pagsubok ng mga hypotheses tungkol sa slope ng simpleng linear regression ay ang paggamit F-pamantayan. Paalalahanan ka namin F-test ay ginagamit upang subukan ang relasyon sa pagitan ng dalawang mga pagkakaiba-iba (para sa higit pang mga detalye, tingnan). Kapag sinusubukan ang slope hypothesis, ang sukatan ng mga random na error ay ang error variance (ang kabuuan ng mga squared error na hinati sa bilang ng mga degree ng kalayaan), kaya F-criterion ay gumagamit ng ratio ng variance na ipinaliwanag ng regression (i.e. ang value SSR, na hinati sa bilang ng mga independiyenteng variable k), sa pagkakaiba-iba ng error ( MSE = S YX 2 ).

Sa pamamagitan ng kahulugan F-statistic ay katumbas ng mean square of regression (MSR) na hinati sa error variance (MSE): F = MSR/ MSE, Saan MSR=SSR / k, MSE =SSE/(n– k – 1), k– bilang ng mga independiyenteng variable sa modelo ng regression. Mga istatistika ng pagsubok F may F-pamamahagi na may k At n– k – 1 antas ng kalayaan.

Para sa isang naibigay na antas ng kabuluhan α, ang tuntunin ng desisyon ay binabalangkas tulad ng sumusunod: kung F>FU, ang null hypothesis ay tinanggihan; kung hindi, hindi ito tinatanggihan. Ang mga resulta ay ipinakita sa form pivot table Ang pagsusuri ng pagkakaiba-iba ay ipinapakita sa Fig. 20.

kanin. 20. Isang pagsusuri ng talahanayan ng pagkakaiba upang subukan ang hypothesis tungkol sa istatistikal na kahalagahan koepisyent ng regression

Ganun din t-pamantayan F-ang criterion ay ipinapakita sa talahanayan kapag ginamit Pakete ng pagsusuri(pagpipilian Regression). Buong resulta ng trabaho Pakete ng pagsusuri ay ipinapakita sa Fig. 4, fragment na may kaugnayan sa F-mga istatistika - sa Fig. 21.

kanin. 21. Mga resulta ng aplikasyon F-pamantayan na nakuha gamit ang Excel Analysis Package

Ang F-statistic ay 113.23, at r-value na malapit sa zero (cell KahalagahanF). Kung ang antas ng kahalagahan α ay 0.05, tukuyin ang kritikal na halaga F-Ang mga distribusyon na may isa at 12 degrees ng kalayaan ay maaaring makuha gamit ang formula F U=F.OBR(1-0.05;1;12) = 4.7472 (Larawan 22). Since F = 113,23 > F U= 4.7472, at r-value na malapit sa 0< 0,05, нулевая гипотеза H 0 ay tinanggihan, i.e. Ang laki ng isang tindahan ay malapit na nauugnay sa taunang benta nito.

kanin. 22. Pagsubok sa hypothesis ng slope ng populasyon sa antas ng kahalagahan na 0.05 na may isa at 12 degree ng kalayaan

Confidence interval na naglalaman ng slope β 1 . Upang subukan ang hypothesis na mayroong linear na ugnayan sa pagitan ng mga variable, maaari kang bumuo ng isang confidence interval na naglalaman ng slope β 1 at i-verify na ang hypothetical value na β 1 ​​= 0 ay kabilang sa interval na ito. Ang sentro ng agwat ng kumpiyansa na naglalaman ng slope β 1 ay ang sample na slope b 1 , at ang mga hangganan nito ay ang mga dami b 1 ±tn –2 S b 1

Gaya ng ipinapakita sa Fig. 18, b 1 = +1,670, n = 14, S b 1 = 0,157. t 12 =ESTUDYANTE.ARV(0.975,12) = 2.1788. Kaya naman, b 1 ±tn –2 S b 1 = +1.670 ± 2.1788 * 0.157 = +1.670 ± 0.342, o + 1.328 ≤ β 1 ≤ +2.012. Kaya, may posibilidad na 0.95 na ang slope ng populasyon ay nasa pagitan ng +1.328 hanggang +2.012 (ibig sabihin, $1,328,000 hanggang $2,012,000). Dahil ang mga halagang ito ay mas malaki kaysa sa zero, mayroong istatistikal na makabuluhang linear na relasyon sa pagitan ng taunang mga benta at lugar ng tindahan. Kung ang pagitan ng kumpiyansa ay naglalaman ng zero, walang ugnayan sa pagitan ng mga variable. Bilang karagdagan, ang confidence interval ay nangangahulugan na ang bawat pagtaas sa lugar ng tindahan ng 1,000 sq. ft. ay nagreresulta sa pagtaas ng average na dami ng benta na $1,328,000 hanggang $2,012,000.

Paggamitt -pamantayan para sa koepisyent ng ugnayan. ipinakilala ang koepisyent ng ugnayan r, na isang sukatan ng ugnayan sa pagitan ng dalawang numeric na variable. Maaari itong magamit upang matukoy kung mayroong pagkakaiba sa istatistika sa pagitan ng dalawang variable. makabuluhang koneksyon. Tukuyin natin ang koepisyent ng ugnayan sa pagitan ng mga pangkalahatang populasyon ng pareho simbolo ng mga variableρ. Ang mga null at alternatibong hypotheses ay nabuo tulad ng sumusunod: H 0: ρ = 0 (walang ugnayan), H 1: ρ ≠ 0 (may ugnayan). Sinusuri ang pagkakaroon ng isang ugnayan:

saan r = + , Kung b 1 > 0, r = – , Kung b 1 < 0. Тестовая статистика t may t-pamamahagi na may n – 2 antas ng kalayaan.

Sa problema tungkol sa Sunflowers chain ng mga tindahan r 2= 0.904, a b 1- +1.670 (tingnan ang Fig. 4). Since b 1> 0, ang koepisyent ng ugnayan sa pagitan ng taunang benta at laki ng tindahan ay r= +√0.904 = +0.951. Subukan natin ang null hypothesis na walang ugnayan sa pagitan ng mga variable na ito gamit t-mga istatistika:

Sa antas ng kabuluhan na α = 0.05, ang null hypothesis ay dapat tanggihan dahil t= 10.64 > 2.1788. Kaya, maaari itong maitalo na mayroong makabuluhang kaugnayan sa istatistika sa pagitan ng taunang mga benta at laki ng tindahan.

Kapag tinatalakay ang mga hinuha tungkol sa slope ng populasyon, ang mga pagitan ng kumpiyansa at mga pagsubok sa hypothesis ay ginagamit nang magkapalit. Gayunpaman, ang pagkalkula ng agwat ng kumpiyansa na naglalaman ng koepisyent ng ugnayan ay lumalabas na mas mahirap, dahil ang uri ng pamamahagi ng sampling ng istatistika r depende sa totoong correlation coefficient.

Pagtatantya ng inaasahan sa matematika at hula ng mga indibidwal na halaga

Tinatalakay ng seksyong ito ang mga pamamaraan para sa pagtatantya ng inaasahan sa matematika ng isang tugon Y at mga hula ng mga indibidwal na halaga Y para sa mga ibinigay na halaga ng variable X.

Pagbuo ng agwat ng kumpiyansa. Sa halimbawa 2 (tingnan ang seksyon sa itaas Paraan ng least squares) equation ng regression pinahintulutan kaming mahulaan ang halaga ng variable Y X. Sa problema sa pagpili ng lugar para sa punto ng pagbebenta average na taunang dami ng benta sa isang tindahan na may lawak na 4000 sq. feet ay katumbas ng 7.644 million dollars, gayunpaman, ang pagtatantya ng matematikal na inaasahan ng pangkalahatang populasyon ay point-wise. Upang matantya ang mathematical na inaasahan ng populasyon, iminungkahi ang konsepto ng isang agwat ng kumpiyansa. Katulad nito, maaari nating ipakilala ang konsepto agwat ng kumpiyansa para sa mathematical na inaasahan ng tugon sa itakda ang halaga variable X:

saan , = b 0 + b 1 X i– variable ang hinulaang halaga Y sa X = X i, S YX– root mean square error, n- laki ng sample, Xi- tinukoy na halaga ng variable X, µ Y|X = Xi– mathematical na inaasahan ng variable Y sa X = X i, SSX =

Ang pagsusuri ng formula (13) ay nagpapakita na ang lapad ng agwat ng kumpiyansa ay nakasalalay sa ilang mga kadahilanan. Sa isang naibigay na antas ng kahalagahan, ang pagtaas sa amplitude ng mga pagbabago sa paligid ng linya ng regression, na sinusukat gamit ang root mean square error, ay humahantong sa pagtaas ng lapad ng agwat. Sa kabilang banda, tulad ng inaasahan ng isa, ang pagtaas sa laki ng sample ay sinamahan ng pagpapaliit ng pagitan. Bilang karagdagan, ang lapad ng agwat ay nagbabago depende sa mga halaga Xi. Kung ang variable na halaga Y hinulaang para sa dami X, malapit sa average na halaga , ang agwat ng kumpiyansa ay lumalabas na mas makitid kaysa sa paghula ng tugon para sa mga halaga na malayo sa karaniwan.

Sabihin nating kapag pumipili ng lokasyon ng tindahan, gusto naming bumuo ng 95% na agwat ng kumpiyansa para sa average na taunang benta ng lahat ng mga tindahan na ang lawak ay 4000 metro kuwadrado. paa:

Samakatuwid, ang average na taunang dami ng benta sa lahat ng mga tindahan na may lugar na 4,000 sq. talampakan, na may 95% na posibilidad ay nasa hanay mula 6.971 hanggang 8.317 milyong dolyar.

Kalkulahin ang agwat ng kumpiyansa para sa hinulaang halaga. Bilang karagdagan sa agwat ng kumpiyansa para sa inaasahan ng matematika ng tugon para sa isang naibigay na halaga ng variable X, kadalasang kailangang malaman ang agwat ng kumpiyansa para sa hinulaang halaga. Bagama't ang formula para sa pagkalkula ng ganoong agwat ng kumpiyansa ay halos kapareho sa formula (13), ang agwat na ito ay naglalaman ng hinulaang halaga sa halip na ang pagtatantya ng parameter. Interval para sa hinulaang tugon YX = Xi para sa isang tiyak na halaga ng variable Xi tinutukoy ng formula:

Ipagpalagay na, kapag pumipili ng lokasyon para sa isang retail outlet, gusto naming bumuo ng 95% confidence interval para sa hinulaang taunang dami ng benta para sa isang tindahan na ang lugar ay 4000 square meters. paa:

Samakatuwid, ang hinulaang taunang dami ng benta para sa isang tindahan na may lawak na 4000 sq. feet, na may 95% na posibilidad ay nasa saklaw mula 5.433 hanggang 9.854 milyong dolyar Gaya ng nakikita natin, ang agwat ng kumpiyansa para sa hinulaang halaga ng tugon ay mas malawak kaysa sa pagitan ng kumpiyansa para sa inaasahan sa matematika. Ito ay dahil ang pagkakaiba-iba sa paghula ng mga indibidwal na halaga ay mas malaki kaysa sa pagtatantya ng inaasahan sa matematika.

Mga pitfalls at etikal na isyu na nauugnay sa paggamit ng regression

Mga paghihirap na nauugnay sa pagsusuri ng regression:

  • Hindi pinapansin ang mga kundisyon ng pagiging angkop ng pamamaraan ng least squares.
  • Maling pagtatasa ng mga kundisyon para sa applicability ng least squares method.
  • Maling pagpili ng mga alternatibong pamamaraan kapag nilabag ang mga kundisyon ng pagkakalapat ng least squares method.
  • Aplikasyon pagsusuri ng regression walang malalim na kaalaman sa paksa ng pananaliksik.
  • Extrapolating isang regression na lampas sa hanay ng paliwanag na variable.
  • Pagkalito sa pagitan ng istatistikal at sanhi ng mga relasyon.

Laganap mga spreadsheet At software para sa mga istatistikal na kalkulasyon ay inalis ang mga problema sa computational na pumigil sa paggamit ng regression analysis. Gayunpaman, humantong ito sa katotohanan na ang pagsusuri ng regression ay ginamit ng mga user na walang sapat na kwalipikasyon at kaalaman. Paano malalaman ng mga gumagamit ang tungkol sa mga alternatibong pamamaraan kung marami sa kanila ang walang ideya sa lahat tungkol sa mga kondisyon ng pagiging angkop ng pamamaraang least squares at hindi alam kung paano suriin ang kanilang pagpapatupad?

Ang mananaliksik ay hindi dapat madala sa mga crunching number - pagkalkula ng shift, slope at mixed correlation coefficient. Kailangan niya ng mas malalim na kaalaman. Ilarawan natin ito sa isang klasikong halimbawa na kinuha mula sa mga aklat-aralin. Ipinakita ng Anscombe na ang lahat ng apat na set ng data na ipinapakita sa Fig. 23, ay may parehong mga parameter ng regression (Larawan 24).

kanin. 23. Apat na artipisyal na set ng data

kanin. 24. Pagsusuri ng regression ng apat na artipisyal na set ng data; tapos na sa Pakete ng pagsusuri(i-click ang larawan upang palakihin ang larawan)

Kaya, mula sa punto ng view ng pagsusuri ng regression, ang lahat ng mga set ng data na ito ay ganap na magkapareho. Kung doon lang natapos ang pagsusuri, malaki sana ang nawala sa atin kapaki-pakinabang na impormasyon. Ito ay pinatunayan ng mga scatter plot (Larawan 25) at mga natitirang plot (Larawan 26) na binuo para sa mga set ng data na ito.

kanin. 25. Scatter plot para sa apat na data set

Ang mga scatter plot at natitirang plot ay nagpapahiwatig na ang mga data na ito ay naiiba sa bawat isa. Ang tanging set na ibinahagi sa isang tuwid na linya ay nakatakdang A. Ang plot ng mga residual na kinakalkula mula sa set A ay walang anumang pattern. Hindi ito masasabi tungkol sa set B, C at D. Ang scatter plot na naka-plot para sa set B ay nagpapakita ng binibigkas na quadratic pattern. Ang konklusyon na ito ay nakumpirma ng natitirang balangkas, na may parabolic na hugis. Ipinapakita ng scatter plot at residual plot na ang data set B ay naglalaman ng outlier. Sa sitwasyong ito, kinakailangang ibukod ang outlier mula sa set ng data at ulitin ang pagsusuri. Ang isang paraan para sa pag-detect at pag-aalis ng mga outlier sa mga obserbasyon ay tinatawag na influence analysis. Pagkatapos alisin ang outlier, ang resulta ng muling pagtatantya sa modelo ay maaaring ganap na naiiba. Ang scatterplot na naka-plot mula sa data mula sa set G ay naglalarawan ng isang hindi pangkaraniwang sitwasyon kung saan ang empirical na modelo ay lubos na nakadepende sa isang indibidwal na tugon ( X 8 = 19, Y 8 = 12.5). Ang ganitong mga modelo ng regression ay dapat na kalkulahin nang mabuti. Kaya, ang mga scatter at natitirang mga plot ay labis kinakailangang kasangkapan pagsusuri ng regression at dapat maging mahalagang bahagi nito. Kung wala ang mga ito, ang pagsusuri ng regression ay hindi kapani-paniwala.

kanin. 26. Mga natitirang plot para sa apat na set ng data

Paano maiwasan ang mga pitfalls sa regression analysis:

  • Pagsusuri ng mga posibleng ugnayan sa pagitan ng mga variable X At Y laging magsimula sa pamamagitan ng pagguhit ng scatter plot.
  • Bago bigyang-kahulugan ang mga resulta ng pagsusuri ng regression, suriin ang mga kondisyon para sa pagiging angkop nito.
  • I-plot ang mga residual laban sa independent variable. Ito ay magiging posible upang matukoy kung gaano kahusay ang empirical na modelo ay tumutugma sa mga resulta ng obserbasyon at upang matukoy ang isang paglabag sa pagkakaiba-iba.
  • Upang suriin ang palagay tungkol sa normal na pamamahagi mga error, gumamit ng histograms, stem-and-leaf plot, box plot, at normal na distribution plot.
  • Kung hindi natutugunan ang mga kondisyon para sa applicability ng least squares method, gamitin mga alternatibong pamamaraan(halimbawa, quadratic o multiple regression na mga modelo).
  • Kung natutugunan ang mga kundisyon para sa applicability ng least squares method, kinakailangang subukan ang hypothesis tungkol sa statistical significance ng regression coefficients at bumuo ng confidence intervals na naglalaman ng mathematical expectation at ang predicted response value.
  • Iwasan ang paghula ng mga halaga ng dependent variable sa labas ng saklaw ng independent variable.
  • Tandaan mo yan mga dependency sa istatistika ay hindi palaging sanhi-at-bunga. Tandaan na ang ugnayan sa pagitan ng mga variable ay hindi nangangahulugang mayroong sanhi-at-epekto na relasyon sa pagitan ng mga ito.

Ipagpatuloy. Gaya ng ipinapakita sa block diagram (Figure 27), inilalarawan ng tala ang simpleng linear regression na modelo, ang mga kundisyon para sa applicability nito, at kung paano subukan ang mga kundisyong ito. Isinasaalang-alang t-criterion para sa pagsubok sa istatistikal na kahalagahan ng slope ng regression. Ang isang modelo ng regression ay ginamit upang mahulaan ang mga halaga ng dependent variable. Ang isang halimbawa ay isinasaalang-alang na nauugnay sa pagpili ng lokasyon para sa isang retail outlet, kung saan ang pagtitiwala sa taunang dami ng benta sa lugar ng tindahan ay sinusuri. Ang impormasyong nakuha ay nagbibigay-daan sa iyo na mas tumpak na pumili ng isang lokasyon para sa isang tindahan at mahulaan ang taunang dami ng benta nito. Ang mga sumusunod na tala ay magpapatuloy sa pagtalakay sa pagsusuri ng regression at titingnan din ang maramihang mga modelo ng regression.

kanin. 27. Block diagram mga tala

Ginamit ang mga materyales mula sa aklat na Levin et al. – M.: Williams, 2004. – p. 792–872

Kung ang dependent variable ay kategorya, ang logistic regression ay dapat gamitin.

Ang MS Excel package ay nagbibigay-daan sa iyo na gawin ang karamihan sa trabaho nang napakabilis kapag gumagawa ng isang linear regression equation. Mahalagang maunawaan kung paano bigyang-kahulugan ang mga resultang nakuha. Upang bumuo ng isang modelo ng regression, dapat mong piliin ang Tools\Data Analysis\Regression (sa Excel 2007 ang mode na ito ay nasa Data/Data Analysis/Regression block). Pagkatapos ay kopyahin ang mga resulta sa isang bloke para sa pagsusuri.

Paunang data:

Mga resulta ng pagsusuri

Isama sa ulat
Pagkalkula ng mga parameter ng equation ng regression
Teoretikal na materyal
Regression equation sa karaniwang sukat
Multiple Correlation Coefficient (Multiple Correlation Index)
Partial elasticity coefficients
Paghahambing na pagtatasa ng impluwensya ng nasuri na mga kadahilanan sa nagresultang katangian (d - coefficients ng hiwalay na pagpapasiya)

Sinusuri ang kalidad ng itinayong regression equation
Kahalagahan ng mga coefficient ng regression b i (t-statistics. Pagsusulit ng mag-aaral)
Kahalagahan ng equation sa kabuuan (F-statistics. Fisher's test). Koepisyent ng determinasyon
Mga bahagyang F-test

Antas ng kahalagahan 0.005 0.01 0.025 0.05 0.1 0.25 0.4

Paksa: PAGSUSURI NG PAG-UUGNAYAN AT REGRESSION SAEXCEL

GAWAING LABORATORY Blg

1. DETERMINATION OF THE PAIRED CORRELATION COEFFICIENT SA PROGRAMEXCEL

Kaugnayan- ito ay isang hindi kumpleto, probabilistikong relasyon sa pagitan ng mga tagapagpahiwatig, na nagpapakita ng sarili lamang sa masa ng mga obserbasyon.

Pairwise correlation- ito ang koneksyon sa pagitan ng dalawang indicator, ang isa ay factorial at ang isa ay resulta.

Maramihang ugnayan nagmumula sa pakikipag-ugnayan ng ilang mga kadahilanan na may isang epektibong tagapagpahiwatig.

Mga kinakailangang kondisyon para sa paggamit ng pagsusuri ng ugnayan:

1. Ang pagkakaroon ng sapat na malaking bilang ng mga obserbasyon tungkol sa halaga ng pinag-aralan na kadahilanan at mga tagapagpahiwatig ng pagganap.

2. Ang mga salik sa ilalim ng pag-aaral ay dapat na quantitatively na nasusukat at makikita sa ilang mga mapagkukunan ng impormasyon.

Ang paggamit ng pagsusuri ng ugnayan ay nagbibigay-daan sa amin upang malutas ang mga sumusunod na problema:

1. Tukuyin ang pagbabago sa tagapagpahiwatig ng pagganap sa ilalim ng impluwensya ng isa o higit pang mga kadahilanan.

2. Itatag ang kamag-anak na antas ng pag-asa ng tagapagpahiwatig ng pagganap sa bawat salik.

Gawain 1.

Available ang data para sa 20 agricultural holdings. Hanapin koepisyent ng ugnayan sa pagitan ng mga ani ng mga pananim na butil at ang kalidad ng lupa at suriin ang kahalagahan nito. Ang data ay ipinapakita sa talahanayan.

mesa. Pagdepende ng ani ng butil sa kalidad ng lupa

Numero ng bukid

Kalidad ng lupa, puntos x

Produktibo, c/ha

    Upang mahanap ang koepisyent ng ugnayan, gamitin ang function CORREL.

    Ang kahalagahan ng koepisyent ng ugnayan ay sinusuri gamit ang criterion Pagsusulit ng mag-aaral.

Para sa halimbawang isinasaalang-alang, r=0.99, n=18.

Upang mahanap ang dami ng distribusyon ng Mag-aaral, gamitin ang STUDIST function na may mga sumusunod na argumento: Probability –0,05, Degrees kalayaan –18.

Sa pamamagitan ng paghahambing ng halaga ng t-statistic sa dami ng distribusyon ng Mag-aaral, gumawa ng mga konklusyon tungkol sa kahalagahan ng coefficient ng ugnayan ng pares. Kung ang kinakalkula na halaga ng t-statistic ay mas malaki kaysa sa dami ng distribusyon ng Mag-aaral, kung gayon ang halaga ng koepisyent ng ugnayan ay makabuluhan.

PAGBUO NG REGRESSION MODEL NG RELASYON SA PAGITAN NG DALAWANG DAMI

Gawain 2.

Ayon sa gawain 1:

1) bumuo ng isang regression equation (linear model), na nagpapakilala sa linear na relasyon sa pagitan ng kalidad ng lupa at produktibidad;

2). suriin ang kasapatan ng resultang modelo.

1 - ika paraan.

1. Sa isang Excel sheet, pumili ng hanay ng mga libreng cell na binubuo ng limang row at dalawang column.

2. Tawagan ang function LINEST.

3. Tukuyin ang mga sumusunod na argumento para sa function: Izv_value_y Produktibo, c/ha;Izv_value_x- hanay ng mga halaga ng tagapagpahiwatig Kalidad ng lupa, marka; Constant –1, Stat – 1(nagbibigay-daan sa iyong kalkulahin ang mga indicator na ginamit upang suriin ang kasapatan ng modelo. Kung Istatistika – 0, kung gayon ang mga naturang tagapagpahiwatig ay hindi kakalkulahin.

4. Pindutin ang kumbinasyon ng key Ctrl- Paglipat- Pumasok.

Ang mga napiling cell ay nagpapakita ng mga koepisyent ng modelo, pati na rin ang mga tagapagpahiwatig na nagbibigay-daan sa iyong suriin ang modelo para sa kasapatan (Talahanayan 2).

Talahanayan 2

a 1

a 0

S e1

S e0

R 2

S e

Q R

Q e

a 1 , a 0 - mga coefficient ng modelo;

S e 1 S e 0 – karaniwang mga error ng coefficients. Kung mas tumpak ang modelo, mas maliit ang mga halagang ito.

R 2 – koepisyent ng pagpapasiya. Kung mas malaki ito, mas tumpak ang modelo.

F– mga istatistika upang subukan ang kahalagahan ng modelo.

n- k-1 – bilang ng mga antas ng kalayaan (n-sample na laki, k-bilang ng mga variable ng input; sa halimbawang ito n=20, k=1)

Q R– kabuuan ng mga parisukat dahil sa regression;

Q e– kabuuan ng mga squared error.

5. Upang suriin ang kasapatan ng modelo, hanapin ang dami ng pamamahagi ng Fisher F f . gamit ang function FTUKLASIN. Upang gawin ito, ipasok ang function sa anumang libreng cell FTUKLASIN na may mga sumusunod na argumento: Probability – 0,05, Mga antas_ng_kalayaan _1–1, Mga antas_ng_kalayaan _2–18. Kung F> F f , kung gayon ang modelo ay sapat sa orihinal na data

6. Suriin ang kasapatan ng itinayong modelo gamit ang kalkuladong antas ng kahalagahan (P). Ipasok ang function FDIST na may mga sumusunod na argumento: X- halaga ng istatistika F, Mga antas_ng_kalayaan_1–1, Mga antas_ng_kalayaan_2– 18. Kung ang kalkuladong antas ng kahalagahan P<α =0,05, то модель адекватна исходным данным.

2nd paraan.

Pagpapasiya ng mga koepisyent ng modelo sa pagkuha ng mga tagapagpahiwatig upang mapatunayan ang kasapatan nito at ang kahalagahan ng mga koepisyent.

    Pumili ng koponan Serbisyo/Pagsusuri ng Data/Pagbabalik. Sa hanay ng dialog box:Y Interval ng pag-input - mga halaga ng tagapagpahiwatigSa hanay ng dialog box:X Interval ng pag-input Produktibo, c/ha,.

    Kalidad ng lupa, marka Check box Mga tag . Sa lugar Mga Opsyon sa Output piliin ang radio button

Output interval

at ipahiwatig ang cell kung saan magsisimula ang mga resulta. Upang makuha ang mga resulta, i-click ang OK. Interpretasyon ng mga resulta.:

Ang mga kinakailangang coefficient ng modelo ay nasa column

Logro

Para sa halimbawang ito, ang equation ng modelo ay:

Y=2.53+0.5X Sa halimbawang ito, sa pagtaas ng kalidad ng lupa ng isang punto, ang ani ng mga pananim na butil ay tumataas ng average na 0.5 c/ha. KahalagahanF. Sinusuri ang kasapatan ng modelo

isinagawa sa kalkuladong antas ng kahalagahan P na nakasaad sa hanay Kung ang kinakalkula na antas ng kahalagahan ay mas mababa sa tinukoy na antas ng kabuluhan α = 0.05, kung gayon ang modelo ay sapat. Pagsubok para sa istatistikal na kahalagahanAng mga koepisyent ng modelo ay ginagawa gamit ang mga kinakalkula na antas ng kahalagahan P na nakasaad sa hanay P

-ibig sabihinRkoepisyent ng ugnayan. Kung ang kinakalkula na antas ng kabuluhan ay mas mababa sa tinukoy na antas ng kabuluhan α = 0.05, kung gayon ang katumbas na koepisyent ng modelo ay makabuluhan ayon sa istatistika.

R-parisukatkoepisyent ng determinasyon. Nakukuha ito sa pamamagitan ng pag-squaring ng koepisyent ng ugnayan - ​​R 2 = 0.98. Ipinapakita nito na ang 98% ng mga ani ng butil ay nakasalalay sa kalidad ng lupa, na may iba pang mga kadahilanan na nagkakahalaga ng 0.02%.

ika-3 paraan. GRAPIKAL NA PARAAN NG PAGBUO NG MODELO.

Gumawa ng scatter plot sa iyong sarili na nagpapakita ng kaugnayan sa pagitan ng ani at kalidad ng lupa.

Kumuha ng linear na modelo ng pagtitiwala ng ani ng butil sa kalidad ng lupa.

PAGSUSURI NG PAG-UUGNAY AT REGRESSION SAMS EXCEL

1. Gumawa ng source data file sa MS Excel (halimbawa, talahanayan 2)

2. Konstruksyon ng larangan ng ugnayan

Upang bumuo ng isang patlang ng ugnayan sa linya ng command, piliin ang menu Ipasok/Diagram. Sa lalabas na dialog box, piliin ang uri ng chart: Spot; tingnan: Scatter plot, na nagpapahintulot sa iyo na ihambing ang mga pares ng mga halaga (Larawan 22).

Figure 22 – Pagpili ng uri ng tsart


Figure 23– View ng window kapag pumipili ng range at row
Figure 25 – View ng window, hakbang 4

2. Sa menu ng konteksto, piliin ang command Magdagdag ng trend line.

3. Sa dialog box na lalabas, piliin ang uri ng graph (linear sa aming halimbawa) at ang mga parameter ng equation, tulad ng ipinapakita sa Figure 26.


I-click ang OK. Ang resulta ay ipinakita sa Figure 27.

Figure 27 - Larangan ng ugnayan ng pag-asa ng produktibidad ng paggawa sa ratio ng kapital-paggawa

Katulad nito, gumagawa kami ng isang patlang ng ugnayan para sa pagtitiwala sa produktibidad ng paggawa sa ratio ng paglilipat ng kagamitan. (Larawan 28).


Figure 28 – Larangan ng ugnayan ng produktibidad ng paggawa

sa rate ng pagpapalit ng kagamitan

3. Pagbubuo ng correlation matrix.

Upang bumuo ng isang correlation matrix sa menu Serbisyo pumili Pagsusuri ng datos.

Paggamit ng tool sa pagsusuri ng data Regression, bilang karagdagan sa mga resulta ng mga istatistika ng regression, pagsusuri ng pagkakaiba-iba at mga pagitan ng kumpiyansa, maaari kang makakuha ng mga nalalabi at mga graph ng pag-angkop sa linya ng pagbabalik, mga nalalabi at normal na posibilidad. Upang gawin ito, kailangan mong suriin ang access sa package ng pagsusuri. Sa pangunahing menu, piliin Serbisyo/Mga Add-on. Lagyan ng tsek ang kahon Pakete ng pagsusuri(Larawan 29)


Larawan 30 – Dialog box Pagsusuri ng Datos

Pagkatapos i-click ang OK, sa dialog box na lalabas, tukuyin ang input interval (sa aming halimbawa A2:D26), pagpapangkat (sa aming kaso ayon sa mga column) at mga parameter ng output, tulad ng ipinapakita sa Figure 31.


Larawan 31 – Dialog box Kaugnayan

Ang mga resulta ng pagkalkula ay ipinakita sa Talahanayan 4.

Talahanayan 4 – Correlation matrix

Hanay 1

Hanay 2

Hanay 3

Hanay 1

Hanay 2

Hanay 3

SINGLE-FACTOR REGRESSION ANALYSIS

GAMIT ANG REGRESSION TOOL

Upang magsagawa ng pagsusuri ng regression ng pagtitiwala ng produktibidad ng paggawa sa ratio ng kapital-paggawa sa menu Serbisyo pumili Pagsusuri ng Datos at tukuyin ang tool sa pagsusuri Regression(Larawan 32).


Larawan 33 – Dialog box Regression

Ang regression at correlation analysis ay mga istatistikal na pamamaraan ng pananaliksik. Ito ang mga pinakakaraniwang paraan upang ipakita ang pagtitiwala ng isang parameter sa isa o higit pang mga independiyenteng variable.

Sa ibaba, gamit ang mga partikular na praktikal na halimbawa, isasaalang-alang namin ang dalawang napakasikat na pagsusuring ito sa mga ekonomista. Magbibigay din kami ng isang halimbawa ng pagkuha ng mga resulta kapag pinagsama ang mga ito.

Pagsusuri ng Pagbabalik sa Excel

Ipinapakita ang impluwensya ng ilang mga halaga (independiyente, independyente) sa umaasa na variable. Halimbawa, paano nakadepende ang bilang ng aktibong populasyon sa ekonomiya sa bilang ng mga negosyo, sahod at iba pang mga parameter. O: paano nakakaapekto ang mga dayuhang pamumuhunan, presyo ng enerhiya, atbp. sa antas ng GDP.

Ang resulta ng pagsusuri ay nagpapahintulot sa iyo na i-highlight ang mga priyoridad. At batay sa mga pangunahing kadahilanan, hulaan, planuhin ang pagbuo ng mga priyoridad na lugar, at gumawa ng mga desisyon sa pamamahala.

Nangyayari ang pagbabalik:

  • linear (y = a + bx);
  • parabolic (y = a + bx + cx 2);
  • exponential (y = a * exp(bx));
  • kapangyarihan (y = a*x^b);
  • hyperbolic (y = b/x + a);
  • logarithmic (y = b * 1n(x) + a);
  • exponential (y = a * b^x).

Tingnan natin ang isang halimbawa ng pagbuo ng modelo ng regression sa Excel at pagbibigay-kahulugan sa mga resulta. Kunin natin ang linear na uri ng regression.

Gawain. Sa 6 na negosyo, nasuri ang average na buwanang suweldo at ang bilang ng mga humihintong empleyado. Ito ay kinakailangan upang matukoy ang pag-asa ng bilang ng mga humihinto sa mga empleyado sa average na suweldo.

Ang linear regression model ay ganito ang hitsura:

Y = a 0 + a 1 x 1 +…+a k x k.

Kung ang a ay mga coefficient ng regression, ang x ay nakakaimpluwensya sa mga variable, ang k ay ang bilang ng mga salik.

Sa aming halimbawa, ang Y ay ang tagapagpahiwatig ng pagtigil sa mga empleyado. Ang salik na nakakaimpluwensya ay sahod (x).

Ang Excel ay may mga built-in na function na makakatulong sa iyong kalkulahin ang mga parameter ng isang linear regression model. Ngunit gagawin ito ng add-on na "Analysis Package" nang mas mabilis.

Ina-activate namin ang isang malakas na tool sa pagsusuri:

Kapag na-activate na, magiging available ang add-on sa tab na Data.

Ngayon gawin natin ang pagsusuri ng regression mismo.



Una sa lahat, binibigyang pansin natin ang R-squared at coefficients.

Ang R-squared ay ang koepisyent ng determinasyon. Sa aming halimbawa - 0.755, o 75.5%. Nangangahulugan ito na ang mga kinakalkula na parameter ng modelo ay nagpapaliwanag ng 75.5% ng ugnayan sa pagitan ng mga pinag-aralan na parameter. Kung mas mataas ang koepisyent ng pagpapasiya, mas mahusay ang modelo. Mabuti - higit sa 0.8. Masama – mas mababa sa 0.5 (halos hindi maituturing na makatwiran ang naturang pagsusuri). Sa aming halimbawa - "hindi masama".

Ang koepisyent na 64.1428 ay nagpapakita kung ano ang magiging Y kung ang lahat ng mga variable sa modelong isinasaalang-alang ay katumbas ng 0. Ibig sabihin, ang halaga ng nasuri na parameter ay naiimpluwensyahan din ng iba pang mga kadahilanan na hindi inilarawan sa modelo.

Ang koepisyent -0.16285 ay nagpapakita ng bigat ng variable X sa Y. Ibig sabihin, ang average na buwanang suweldo sa loob ng modelong ito ay nakakaapekto sa bilang ng mga umalis na may timbang na -0.16285 (ito ay isang maliit na antas ng impluwensya). Ang sign na "-" ay nagpapahiwatig ng isang negatibong epekto: kung mas mataas ang suweldo, mas kaunting mga tao ang huminto. Alin ang patas.



Pagsusuri ng Kaugnayan sa Excel

Tumutulong ang pagsusuri ng ugnayan na matukoy kung may kaugnayan sa pagitan ng mga tagapagpahiwatig sa isa o dalawang sample. Halimbawa, sa pagitan ng oras ng pagpapatakbo ng isang makina at ang halaga ng pag-aayos, ang presyo ng kagamitan at ang tagal ng operasyon, ang taas at bigat ng mga bata, atbp.

Kung mayroong koneksyon, ang pagtaas sa isang parameter ay humahantong sa pagtaas (positibong ugnayan) o pagbaba (negatibo) ng isa pa. Ang pagsusuri ng ugnayan ay tumutulong sa analyst na matukoy kung ang halaga ng isang tagapagpahiwatig ay maaaring gamitin upang mahulaan ang posibleng halaga ng isa pa.

Ang koepisyent ng ugnayan ay tinutukoy ng r. Nag-iiba mula +1 hanggang -1. Magiiba ang klasipikasyon ng mga ugnayan para sa iba't ibang lugar. Kapag ang coefficient ay 0, walang linear na relasyon sa pagitan ng mga sample.

Tingnan natin kung paano hanapin ang koepisyent ng ugnayan gamit ang Excel.

Upang makahanap ng mga ipinares na coefficient, ginagamit ang CORREL function.

Layunin: Tukuyin kung may kaugnayan sa pagitan ng oras ng pagpapatakbo ng isang lathe at ang halaga ng pagpapanatili nito.

Ilagay ang cursor sa anumang cell at pindutin ang fx button.

  1. Sa kategoryang “Statistical,” piliin ang function na CORREL.
  2. Argumentong "Array 1" - ang unang hanay ng mga halaga - oras ng pagpapatakbo ng makina: A2:A14.
  3. Argumentong "Array 2" - pangalawang hanay ng mga halaga - gastos sa pagkumpuni: B2:B14. I-click ang OK.

Upang matukoy ang uri ng koneksyon, kailangan mong tingnan ang ganap na bilang ng koepisyent (bawat larangan ng aktibidad ay may sariling sukat).

Para sa pagsusuri ng ugnayan ng ilang mga parameter (higit sa 2), mas maginhawang gamitin ang "Pagsusuri ng Data" (ang add-on na "Analysis Package"). Kailangan mong pumili ng ugnayan mula sa listahan at italaga ang array. Lahat.

Ang mga resultang coefficient ay ipapakita sa correlation matrix. ganito:

Pagsusuri ng ugnayan at regression

Sa pagsasagawa, ang dalawang pamamaraan na ito ay madalas na ginagamit nang magkasama.

Halimbawa:


Ngayon ang data ng pagsusuri ng regression ay naging nakikita.