Standard regression analysis sa STATISTICA. Pagsusuri ng regression

Pagtatasa ng kalidad ng isang regression equation gamit ang mga coefficients of determination. Pagsubok sa null hypothesis tungkol sa kahalagahan ng equation at ang mga tagapagpahiwatig ng lakas ng relasyon gamit ang Fisher's F test.

Mga karaniwang error ng coefficients.

Ang equation ng regression ay:

Y	=3378,41	-494.59X 1	-35.00X 2	+75.74X 3	-15.81X 4	+80.10X 5	+59.84X 6 +
	(1304,48)	(226,77)	(10,31)	(277,57)	(287,54)	(35,31)	(150,93)

+127.98X 7	-78.10X 8	-437.57X 9	+451.26X 10	-299.91X 11	-14.93X 12	-369.65X 13	(9)
(22,35)	(31,19)	(97,68)	(331,79)	(127,84)	86,06	(105,08)

Upang punan ang talahanayan na "Mga istatistika ng regression" (Talahanayan 9) makikita namin:

1. Maramihang R– r-correlation coefficient sa pagitan ng y at ŷ.

Upang gawin ito, gamitin ang CORREL function sa pamamagitan ng paglalagay ng arrays y at ŷ.

Ang resultang bilang na 0.99 ay malapit sa 1, na nagpapakita ng napakalakas na ugnayan sa pagitan ng pang-eksperimentong data at ng mga nakalkula.

2. Para sa pagkalkula R-square nakita namin:

Ipinaliwanag na Error 17455259,48,

Hindi maipaliwanag na pagkakamali .

Samakatuwid, ang R-squared ay .

Alinsunod dito, 97% ng pang-eksperimentong data ay maaaring ipaliwanag sa pamamagitan ng resultang equation ng regression.

3. Normalized R-squared hanapin sa pamamagitan ng formula

Ang indicator na ito ay nagsisilbing paghambingin ang iba't ibang modelo ng regression kapag nagbago ang komposisyon ng mga variable na nagpapaliwanag.

4. Karaniwang error– square root ng sample na natitirang variance:

Bilang resulta, nakuha namin ang sumusunod na talahanayan.

Talahanayan 9.

Punan ang talahanayan ng "Pagsusuri ng Variance".

Karamihan sa data ay nakuha na sa itaas. (Ipinaliwanag at hindi maipaliwanag na pagkakamali).

Kalkulahin natin ang t wx:val="Cambria Math"/> 13 = 1342712,27"> .

Susuriin namin ang istatistikal na kahalagahan ng equation ng regression sa kabuuan gamit F- Pamantayan ng mangingisda. Ang multiple regression equation ay makabuluhan (kung hindi man, ang hypothesis H 0 tungkol sa pagkakapantay-pantay ng mga parameter ng modelo ng regression sa zero, ibig sabihin, ay tinanggihan) kung

, (10)

nasaan ang table value ng Fisher's F test.

Aktwal na halaga F- ang criterion ayon sa formula ay:

Upang kalkulahin ang tabular na halaga ng Fisher criterion, ginagamit ang function na FRIST (Figure 4).

Degree ng kalayaan 1: p=13

Degree ng kalayaan 2: n-p-1 = 20-13-1=6

Figure 4. Gamit ang FRIST function sa Excel.

F talahanayan = 3.976< 16,88, следовательно, модель адекватна опытным данным.

Kahalagahan F kinakalkula gamit ang FDIST function. Ibinabalik ng function na ito ang F probability distribution (Fisher distribution) at nagbibigay-daan sa iyong matukoy kung ang dalawang data set ay may magkaibang antas ng dispersion sa kanilang mga resulta.

Figure 5. Gamit ang FDIST function sa Excel.

Kahalagahan F = 0.001.

Sa statistical modeling, ang regression analysis ay isang pag-aaral na ginagamit upang suriin ang relasyon sa pagitan ng mga variable. Kasama sa pamamaraang matematikal na ito ang maraming iba pang mga diskarte para sa pagmomodelo at pagsusuri ng maramihang mga variable kung saan nakatuon ang pansin sa ugnayan sa pagitan ng isang dependent variable at isa o higit pang mga independyente. Higit na partikular, tinutulungan tayo ng pagsusuri ng regression na maunawaan kung paano nagbabago ang karaniwang halaga ng isang dependent variable kung nagbabago ang isa sa mga independent variable habang ang iba pang independent variable ay nananatiling maayos.

Sa lahat ng kaso, ang target na pagtatantya ay isang function ng mga independent variable at tinatawag na regression function. Sa pagsusuri ng regression, interesante ding ilarawan ang pagbabago sa dependent variable bilang isang function ng regression, na maaaring ilarawan gamit ang probability distribution.

Mga Problema sa Pagsusuri ng Pagbabalik

Ang istatistikal na paraan ng pananaliksik na ito ay malawakang ginagamit para sa pagtataya, kung saan ang paggamit nito ay may makabuluhang kalamangan, ngunit kung minsan ay maaari itong humantong sa ilusyon o maling relasyon, kaya inirerekomenda na gamitin ito nang mabuti sa nasabing bagay, dahil, halimbawa, ang ugnayan ay hindi nangangahulugang sanhi.

Ang isang malaking bilang ng mga pamamaraan ay binuo para sa pagsusuri ng regression, tulad ng linear at ordinaryong least squares regression, na parametric. Ang kanilang kakanyahan ay ang regression function ay tinukoy sa mga tuntunin ng isang tiyak na bilang ng mga hindi kilalang parameter na tinatantya mula sa data. Binibigyang-daan ng nonparametric regression ang function nito na nasa loob ng isang partikular na hanay ng mga function, na maaaring infinite-dimensional.

Bilang isang istatistikal na paraan ng pananaliksik, ang pagsusuri ng regression sa pagsasanay ay nakasalalay sa anyo ng proseso ng pagbuo ng data at kung paano ito nauugnay sa diskarte sa regression. Dahil ang tunay na anyo ng proseso ng pagbuo ng data ay karaniwang isang hindi kilalang numero, ang pagsusuri ng regression ng data ay kadalasang nakadepende sa ilang lawak sa mga pagpapalagay tungkol sa proseso. Ang mga pagpapalagay na ito ay minsan nasusubok kung mayroong sapat na data na magagamit. Ang mga modelo ng regression ay kadalasang kapaki-pakinabang kahit na ang mga pagpapalagay ay katamtamang nilalabag, bagama't maaaring hindi gumanap ang mga ito sa pinakamataas na kahusayan.

Sa mas makitid na kahulugan, ang regression ay maaaring partikular na tumutukoy sa pagtatantya ng tuluy-tuloy na mga variable ng pagtugon, kumpara sa mga discrete na variable ng pagtugon na ginagamit sa pag-uuri. Ang tuluy-tuloy na output variable case ay tinatawag ding metric regression upang makilala ito sa mga kaugnay na problema.

Kwento

Ang pinakamaagang anyo ng regression ay ang kilalang paraan ng least squares. Ito ay inilathala ni Legendre noong 1805 at Gauss noong 1809. Inilapat nina Legendre at Gauss ang pamamaraan sa problema ng pagtukoy mula sa astronomical na mga obserbasyon ng mga orbit ng mga katawan sa paligid ng Araw (karamihan ay mga kometa, ngunit kalaunan ay mga bagong natuklasang menor de edad na planeta). Inilathala ni Gauss ang karagdagang pag-unlad ng teorya ng least squares noong 1821, kabilang ang isang bersyon ng Gauss–Markov theorem.

Ang terminong "regression" ay nilikha ni Francis Galton noong ika-19 na siglo upang ilarawan ang isang biological phenomenon. Ang ideya ay ang taas ng mga inapo mula sa kanilang mga ninuno ay may posibilidad na bumababa patungo sa normal na mean. Para kay Galton, ang regression ay mayroon lamang itong biyolohikal na kahulugan, ngunit kalaunan ang kanyang gawain ay ipinagpatuloy nina Udney Yoley at Karl Pearson at dinala sa isang mas pangkalahatang istatistikal na konteksto. Sa gawain ni Yule at Pearson, ang magkasanib na pamamahagi ng tugon at mga paliwanag na variable ay ipinapalagay na Gaussian. Ang palagay na ito ay tinanggihan ni Fischer sa mga papeles ng 1922 at 1925. Iminungkahi ni Fisher na ang conditional distribution ng response variable ay Gaussian, ngunit ang joint distribution ay hindi kailangan. Kaugnay nito, ang panukala ni Fischer ay mas malapit sa pormulasyon ni Gauss noong 1821. Bago ang 1970, minsan umabot ng hanggang 24 na oras upang makuha ang resulta ng pagsusuri ng regression.

Ang mga pamamaraan ng pagsusuri ng regression ay patuloy na isang lugar ng aktibong pananaliksik. Sa nakalipas na mga dekada, ang mga bagong pamamaraan ay binuo para sa matatag na regression; mga regression na kinasasangkutan ng mga nauugnay na tugon; mga paraan ng regression na tumanggap ng iba't ibang uri ng nawawalang data; nonparametric regression; Pamamaraan ng Bayesian regression; regressions kung saan ang mga variable ng predictor ay sinusukat na may error; regression na may mas maraming predictors kaysa sa mga obserbasyon, at cause-and-effect inference na may regression.

Mga modelo ng regression

Kasama sa mga modelo ng pagsusuri ng regression ang mga sumusunod na variable:

Mga hindi kilalang parameter, itinalagang beta, na maaaring isang scalar o isang vector.
Mga Independent Variable, X.
Mga Dependent Variable, Y.

Ang iba't ibang larangan ng agham kung saan ginagamit ang pagsusuri ng regression ay gumagamit ng iba't ibang mga termino bilang kapalit ng mga umaasa at independiyenteng mga variable, ngunit sa lahat ng kaso ang modelo ng regression ay nauugnay ang Y sa isang function ng X at β.

Karaniwang isinusulat ang approximation bilang E(Y | X) = F(X, β). Upang maisagawa ang pagsusuri ng regression, dapat matukoy ang uri ng function f. Hindi gaanong karaniwan, ito ay batay sa kaalaman tungkol sa relasyon sa pagitan ng Y at X, na hindi umaasa sa data. Kung ang naturang kaalaman ay hindi magagamit, pagkatapos ay ang flexible o maginhawang form F ay pipiliin.

Dependent variable Y

Ipagpalagay natin ngayon na ang vector ng hindi kilalang mga parameter β ay may haba k. Upang magsagawa ng pagsusuri ng regression, ang user ay dapat magbigay ng impormasyon tungkol sa dependent variable Y:

Kung ang N data point ng form (Y, X) ay sinusunod, kung saan ang N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.

Kung ang eksaktong N = K ay sinusunod at ang function na F ay linear, ang equation na Y = F(X, β) ay maaaring lutasin nang eksakto sa halip na humigit-kumulang. Ito ay katumbas ng paglutas ng isang set ng N-equation na may N-unknowns (mga elemento β) na may natatanging solusyon hangga't ang X ay linearly independent. Kung ang F ay nonlinear, maaaring walang solusyon, o maraming solusyon ang maaaring umiiral.
Ang pinakakaraniwang sitwasyon ay kung saan ang N > data point ay sinusunod. Sa kasong ito, may sapat na impormasyon sa data upang matantya ang isang natatanging halaga para sa β na pinakaangkop sa data, at isang modelo ng regression kung saan ang application sa data ay maaaring tingnan bilang isang overdetermined system sa β.

Sa huling kaso, ang pagsusuri ng regression ay nagbibigay ng mga tool para sa:

Paghahanap ng solusyon para sa hindi kilalang mga parameter β, na, halimbawa, ay magpapaliit sa distansya sa pagitan ng sinusukat at hinulaang halaga ng Y.
Sa ilalim ng ilang mga istatistikal na pagpapalagay, ang pagsusuri ng regression ay gumagamit ng labis na impormasyon upang magbigay ng istatistikal na impormasyon tungkol sa hindi kilalang mga parameter β at ang mga hinulaang halaga ng dependent variable na Y.

Kinakailangang bilang ng mga independiyenteng sukat

Isaalang-alang ang isang modelo ng regression na may tatlong hindi kilalang mga parameter: β 0, β 1 at β 2. Ipagpalagay na ang eksperimento ay gumawa ng 10 mga sukat sa parehong halaga ng independent variable vector X. Sa kasong ito, ang pagsusuri ng regression ay hindi gumagawa ng isang natatanging hanay ng mga halaga. Ang pinakamahusay na magagawa mo ay tantiyahin ang mean at standard deviation ng dependent variable Y. Katulad nito, sa pamamagitan ng pagsukat ng dalawang magkaibang halaga ng X, maaari kang makakuha ng sapat na data para sa regression na may dalawang hindi alam, ngunit hindi sa tatlo o higit pang mga hindi alam.

Kung ang mga sukat ng eksperimento ay ginawa sa tatlong magkakaibang mga halaga ng independiyenteng variable na vector X, ang pagsusuri ng regression ay magbibigay ng isang natatanging hanay ng mga pagtatantya para sa tatlong hindi kilalang mga parameter sa β.

Sa kaso ng pangkalahatang linear regression, ang pahayag sa itaas ay katumbas ng pangangailangan na ang matrix X T X ay invertible.

Statistical Assumptions

Kapag ang bilang ng mga sukat N ay mas malaki kaysa sa bilang ng mga hindi kilalang parameter k at ang mga error sa pagsukat ε i , kung gayon, bilang panuntunan, ang labis na impormasyon na nakapaloob sa mga sukat ay pagkatapos ay ipinakalat at ginagamit para sa mga hula sa istatistika tungkol sa hindi kilalang mga parameter. Ang labis na impormasyong ito ay tinatawag na regression degree of freedom.

Mga Pangunahing Pagpapalagay

Kasama sa mga klasikong pagpapalagay para sa pagsusuri ng regression ang:

Ang sampling ay kinatawan ng hula ng hinuha.
Ang termino ng error ay isang random na variable na may mean na zero, na may kondisyon sa mga variable na nagpapaliwanag.
Ang mga independiyenteng variable ay sinusukat nang walang mga pagkakamali.
Bilang mga independent variable (predictors), ang mga ito ay linearly independent, iyon ay, hindi posibleng ipahayag ang anumang predictor bilang linear na kumbinasyon ng iba.
Ang mga error ay hindi nauugnay, iyon ay, ang error covariance matrix ng mga diagonal at ang bawat non-zero na elemento ay ang error na pagkakaiba.
Ang pagkakaiba-iba ng error ay pare-pareho sa mga obserbasyon (homoscedasticity). Kung hindi, maaaring gumamit ng mga weighted least square o iba pang mga pamamaraan.

Ang mga sapat na kundisyon para sa pagtatantya ng hindi bababa sa mga parisukat ay may mga kinakailangang katangian, lalo na ang mga pagpapalagay na ito ay nangangahulugan na ang mga pagtatantya ng parameter ay magiging layunin, pare-pareho at mahusay, lalo na kapag isinasaalang-alang sa klase ng mga linear na estimator. Mahalagang tandaan na ang ebidensya ay bihirang nakakatugon sa mga kundisyon. Ibig sabihin, ginagamit ang pamamaraan kahit na hindi tama ang mga pagpapalagay. Maaaring gamitin minsan ang pagkakaiba-iba mula sa mga pagpapalagay bilang sukatan kung gaano kapaki-pakinabang ang modelo. Marami sa mga pagpapalagay na ito ay maaaring maluwag sa mas advanced na mga pamamaraan. Karaniwang kasama sa mga ulat sa pagsusuri ng istatistika ang pagsusuri ng mga pagsubok sa sample na data at pamamaraan para sa pagiging kapaki-pakinabang ng modelo.

Bilang karagdagan, ang mga variable sa ilang mga kaso ay tumutukoy sa mga halaga na sinusukat sa mga lokasyon ng punto. Maaaring may mga spatial na trend at spatial na autocorrelations sa mga variable na lumalabag sa istatistikal na pagpapalagay. Ang geographic weighted regression ay ang tanging paraan na tumatalakay sa naturang data.

Ang isang tampok ng linear regression ay ang dependent variable, na Yi, ay isang linear na kumbinasyon ng mga parameter. Halimbawa, ang simpleng linear regression ay gumagamit ng isang independiyenteng variable, x i, at dalawang parameter, β 0 at β 1, upang magmodelo ng mga n-point.

Sa maramihang linear regression, mayroong maraming independiyenteng variable o function ng mga ito.

Kapag ang isang random na sample ay kinuha mula sa isang populasyon, ang mga parameter nito ay nagpapahintulot sa isa na makakuha ng isang sample na linear regression na modelo.

Sa aspetong ito, ang pinakasikat ay ang paraan ng least squares. Ito ay ginagamit upang makakuha ng mga pagtatantya ng parameter na nagpapaliit sa kabuuan ng mga parisukat na nalalabi. Ang ganitong uri ng pag-minimize (na tipikal ng linear regression) ng function na ito ay humahantong sa isang set ng mga normal na equation at isang set ng mga linear equation na may mga parameter, na nalulutas upang makakuha ng mga pagtatantya ng parameter.

Sa ilalim ng karagdagang pagpapalagay na ang error sa populasyon ay karaniwang pinalaganap, maaaring gamitin ng isang mananaliksik ang mga karaniwang pagtatantya ng error na ito upang lumikha ng mga pagitan ng kumpiyansa at magsagawa ng mga pagsusuri sa hypothesis tungkol sa mga parameter nito.

Pagsusuri ng nonlinear regression

Ang isang halimbawa kung saan ang function ay hindi linear na may paggalang sa mga parameter ay nagpapahiwatig na ang kabuuan ng mga parisukat ay dapat mabawasan gamit ang isang umuulit na pamamaraan. Ito ay nagpapakilala ng maraming komplikasyon na tumutukoy sa mga pagkakaiba sa pagitan ng mga pamamaraan ng linear at nonlinear least squares. Dahil dito, ang mga resulta ng pagsusuri ng regression kapag gumagamit ng isang nonlinear na pamamaraan ay minsan hindi mahuhulaan.

Pagkalkula ng kapangyarihan at laki ng sample

Sa pangkalahatan ay walang pare-parehong pamamaraan hinggil sa bilang ng mga obserbasyon kumpara sa bilang ng mga independyenteng variable sa modelo. Ang unang tuntunin ay iminungkahi nina Dobra at Hardin at mukhang N = t^n, kung saan ang N ay ang laki ng sample, n ang bilang ng mga independiyenteng variable, at ang t ay ang bilang ng mga obserbasyon na kailangan upang makamit ang nais na katumpakan kung ang modelo ay may isang independent variable lamang. Halimbawa, ang isang mananaliksik ay bumuo ng isang linear na modelo ng regression gamit ang isang set ng data na naglalaman ng 1000 mga pasyente (N). Kung nagpasya ang mananaliksik na kailangan ng limang obserbasyon upang tumpak na matukoy ang linya (m), kung gayon ang maximum na bilang ng mga independyenteng variable na maaaring suportahan ng modelo ay 4.

Iba pang mga pamamaraan

Bagama't ang mga parameter ng modelo ng regression ay karaniwang tinatantya gamit ang pinakamababang paraan ng mga parisukat, may iba pang mga pamamaraan na hindi gaanong ginagamit. Halimbawa, ito ang mga sumusunod na pamamaraan:

Mga pamamaraan ng Bayesian (halimbawa, Bayesian linear regression).
Pagbabalik ng porsyento, na ginagamit para sa mga sitwasyon kung saan ang pagbabawas ng mga error sa porsyento ay itinuturing na mas naaangkop.
Pinakamaliit na absolute deviations, na mas matatag sa pagkakaroon ng mga outlier na humahantong sa quantile regression.
Nonparametric regression, na nangangailangan ng malaking bilang ng mga obserbasyon at kalkulasyon.
Isang sukatan sa pag-aaral ng distansya na natutunan upang makahanap ng makabuluhang sukatan ng distansya sa isang ibinigay na espasyo sa pag-input.

Software

Ang lahat ng pangunahing statistical software packages ay nagsasagawa ng hindi bababa sa squares regression analysis. Ang simpleng linear regression at multiple regression analysis ay maaaring gamitin sa ilang spreadsheet application pati na rin sa ilang calculators. Bagama't maraming statistical software packages ang maaaring magsagawa ng iba't ibang uri ng nonparametric at matatag na regression, ang mga pamamaraang ito ay hindi gaanong na-standardize; iba't ibang mga pakete ng software ang nagpapatupad ng iba't ibang pamamaraan. Ang espesyal na software ng regression ay binuo para magamit sa mga lugar tulad ng pagsusuri sa pagsusuri at neuroimaging.

Ang pangunahing layunin ng pagsusuri ng regression ay binubuo sa pagtukoy ng analitikal na anyo ng komunikasyon kung saan ang pagbabago sa epektibong katangian ay dahil sa impluwensya ng isa o higit pang mga katangian ng salik, at ang hanay ng lahat ng iba pang mga salik na nakakaimpluwensya rin sa epektibong katangian ay kinukuha bilang pare-pareho at karaniwang mga halaga.
Mga Problema sa Pagsusuri ng Pagbabalik:
a) Pagtatatag ng anyo ng pagtitiwala. Tungkol sa kalikasan at anyo ng ugnayan sa pagitan ng mga penomena, ang isang pagkakaiba ay ginawa sa pagitan ng positibong linear at nonlinear at negatibong linear at nonlinear na regression.
b) Pagtukoy ng regression function sa anyo ng isang mathematical equation ng isang uri o iba pa at pagtatatag ng impluwensya ng mga paliwanag na variable sa dependent variable.
c) Pagtatantya ng mga hindi kilalang halaga ng dependent variable. Gamit ang pag-andar ng regression, maaari mong kopyahin ang mga halaga ng dependent variable sa loob ng pagitan ng mga tinukoy na halaga ng mga paliwanag na variable (i.e., lutasin ang problema sa interpolation) o suriin ang kurso ng proseso sa labas ng tinukoy na agwat (i.e., lutasin ang problema sa extrapolation). Ang resulta ay isang pagtatantya ng halaga ng dependent variable.

Ang paired regression ay isang equation para sa relasyon sa pagitan ng dalawang variable na y at x: , kung saan ang y ay ang dependent variable (resultative attribute); Ang x ay isang independiyenteng paliwanag na variable (feature-factor).

May mga linear at nonlinear na regression.
Linear regression: y = a + bx + ε
Ang mga nonlinear na regression ay nahahati sa dalawang klase: mga regression na nonlinear na may kinalaman sa mga paliwanag na variable na kasama sa pagsusuri, ngunit linear na may kinalaman sa mga tinantyang parameter, at mga regression na nonlinear na may kinalaman sa mga tinantyang parameter.
Mga regression na nonlinear sa mga variable na nagpapaliwanag:

Mga regression na nonlinear na may kinalaman sa mga tinantyang parameter: Ang pagbuo ng isang regression equation ay bumababa sa pagtatantya ng mga parameter nito. Upang matantya ang mga parameter ng mga regression linear sa mga parameter, ang least squares method (OLS) ay ginagamit. Ang pamamaraan ng hindi bababa sa mga parisukat ay ginagawang posible upang makakuha ng mga pagtatantya ng naturang parameter kung saan ang kabuuan ng mga parisukat na paglihis ng mga aktwal na halaga ng epektibong katangian y mula sa mga teoretikal ay minimal, i.e.

.
Para sa mga linear at nonlinear na equation na mababawasan sa linear na mga equation, ang mga sumusunod na sistema ay nalulutas sa paggalang sa a at b:

Maaari mong gamitin ang mga handa na formula na sumusunod mula sa system na ito:

Ang lapit ng koneksyon sa pagitan ng mga phenomena na pinag-aaralan ay tinasa ng linear coefficient ng ugnayan ng pares para sa linear regression:

at correlation index - para sa nonlinear regression:

Ang kalidad ng itinayong modelo ay susuriin ng koepisyent (index) ng pagpapasiya, pati na rin ang average na error ng approximation.
Average na error sa pagtatantya - average na paglihis ng mga kinakalkula na halaga mula sa mga aktwal:

.
Ang pinahihintulutang limitasyon ng mga halaga ay hindi hihigit sa 8-10%.
Ang average na elasticity coefficient ay nagpapakita sa kung anong porsyento sa average ang resulta y ay magbabago mula sa average na halaga nito kapag ang factor x ay nagbago ng 1% mula sa average na halaga nito:
.

Ang layunin ng pagsusuri ng pagkakaiba-iba ay upang suriin ang pagkakaiba-iba ng umaasang baryabol:
,
saan ang kabuuang kabuuan ng mga squared deviations;
- ang kabuuan ng mga squared deviations dahil sa regression ("ipinaliwanag" o "factorial");
- natitirang kabuuan ng mga squared deviations.
Ang bahagi ng pagkakaiba-iba na ipinaliwanag ng regression sa kabuuang pagkakaiba ng nagresultang katangian y ay nailalarawan sa pamamagitan ng koepisyent (index) ng pagpapasiya R2:

Ang coefficient of determination ay ang parisukat ng coefficient o correlation index.

Ang F-test - pagtatasa ng kalidad ng regression equation - ay binubuo ng pagsubok sa hypothesis No tungkol sa statistical insignificance ng regression equation at ang indicator ng lapit ng relasyon. Upang gawin ito, ang isang paghahambing ay ginawa sa pagitan ng aktwal na F fact at ang kritikal (tabular) F na mga halaga ng talahanayan ng Fisher F-criterion. Ang F fact ay tinutukoy mula sa ratio ng mga halaga ng kadahilanan at natitirang mga pagkakaiba-iba na kinakalkula para sa isang antas ng kalayaan:
,
kung saan ang n ay ang bilang ng mga yunit ng populasyon; m ay ang bilang ng mga parameter para sa mga variable x.
Ang F table ay ang pinakamataas na posibleng halaga ng criterion sa ilalim ng impluwensya ng mga random na salik sa ibinigay na antas ng kalayaan at antas ng kahalagahan a. Ang antas ng kahalagahan a ay ang posibilidad na tanggihan ang tamang hypothesis, dahil ito ay totoo. Karaniwan ang a ay kinukuha na katumbas ng 0.05 o 0.01.
Kung F talahanayan< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F katotohanan, pagkatapos ay ang hypothesis H o ay hindi tinanggihan at ang istatistika insignificance at hindi mapagkakatiwalaan ng regression equation ay kinikilala.
Upang masuri ang statistical significance ng regression at correlation coefficients, kinakalkula ang t-test at confidence interval ng Mag-aaral para sa bawat indicator. Ang isang hypothesis ay iniharap tungkol sa random na katangian ng mga tagapagpahiwatig, i.e. tungkol sa kanilang hindi gaanong pagkakaiba mula sa zero. Ang pagtatasa ng kahalagahan ng regression at correlation coefficients gamit ang Student's t-test ay isinasagawa sa pamamagitan ng paghahambing ng kanilang mga halaga sa magnitude ng random error:
; ; .
Ang mga random na error ng linear regression na mga parameter at ang correlation coefficient ay tinutukoy ng mga formula:

Paghahambing ng aktwal at kritikal (tabular) na mga halaga ng t-statistics - t table at t fact - tinatanggap o tinatanggihan namin ang hypothesis H o.
Ang relasyon sa pagitan ng Fisher F-test at ng Student t-statistic ay ipinahayag ng pagkakapantay-pantay

Kung t talahanayan< t факт то H o отклоняется, т.е. a, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t ay isang katotohanan na ang hypothesis H o ay hindi tinatanggihan at ang random na katangian ng pagbuo ng a, b o ay kinikilala.
Upang kalkulahin ang agwat ng kumpiyansa, tinutukoy namin ang maximum na error D para sa bawat tagapagpahiwatig:
, .
Ang mga formula para sa pagkalkula ng mga agwat ng kumpiyansa ay ang mga sumusunod:
; ;
; ;
Kung ang zero ay nasa loob ng agwat ng kumpiyansa, i.e. Kung negatibo ang mababang limitasyon at positibo ang pinakamataas na limitasyon, ang tinantyang parameter ay ituturing na zero, dahil hindi ito maaaring sabay na kumuha ng parehong positibo at negatibong mga halaga.
Ang halaga ng pagtataya ay tinutukoy sa pamamagitan ng pagpapalit ng katumbas na (pagtataya) na halaga sa equation ng regression. Ang average na karaniwang error ng forecast ay kinakalkula:
,
saan
at isang agwat ng kumpiyansa para sa hula ay binuo:
; ;
saan .

Halimbawang solusyon

Gawain Blg. 1. Para sa pitong teritoryo ng rehiyon ng Ural noong 199X, ang mga halaga ng dalawang katangian ay kilala.
Talahanayan 1.
Kinakailangan: 1. Upang makilala ang dependence ng y sa x, kalkulahin ang mga parameter ng mga sumusunod na function:
a) linear;
b) kapangyarihan (kailangan mo munang isagawa ang pamamaraan ng linearization ng mga variable sa pamamagitan ng pagkuha ng logarithm ng parehong bahagi);
c) nagpapakita;
d) isang equilateral hyperbola (kailangan mo ring malaman kung paano i-pre-linearize ang modelong ito).
2. Suriin ang bawat modelo gamit ang average na error ng approximation at Fisher's F test.

Solusyon (Option No. 1)

Upang kalkulahin ang mga parameter a at b ng linear regression (maaaring gawin ang pagkalkula gamit ang isang calculator).
lutasin ang isang sistema ng mga normal na equation para sa A At b:

Batay sa paunang data, kinakalkula namin

	y	x	yx	x 2	y 2			A i
l	68,8	45,1	3102,88	2034,01	4733,44	61,3	7,5	10,9
2	61,2	59,0	3610,80	3481,00	3745,44	56,5	4,7	7,7
3	59,9	57,2	3426,28	3271,84	3588,01	57,1	2,8	4,7
4	56,7	61,8	3504,06	3819,24	3214,89	55,5	1,2	2,1
5	55,0	58,8	3234,00	3457,44	3025,00	56,5	-1,5	2,7
6	54,3	47,2	2562,96	2227,84	2948,49	60,5	-6,2	11,4
7	49,3	55,2	2721,36	3047,04	2430,49	57,8	-8,5	17,2
Kabuuan	405,2	384,3	22162,34	21338,41	23685,76	405,2	0,0	56,7
Wed. ibig sabihin (Kabuuan/n)	57,89	54,90	3166,05	3048,34	3383,68	X	X	8,1
s	5,74	5,86	X	X	X	X	X	X
s 2	32,92	34,34	X	X	X	X	X	X

Regression equation: y = 76,88 - 0,35X. Sa isang pagtaas sa average na pang-araw-araw na sahod ng 1 kuskusin. ang bahagi ng mga gastos para sa pagbili ng mga produktong pagkain ay bumababa ng isang average na 0.35 porsyento na puntos.
Kalkulahin natin ang linear pair correlation coefficient:

Ang koneksyon ay katamtaman, kabaligtaran.
Tukuyin natin ang koepisyent ng determinasyon:

Ang 12.7% variation sa resulta ay ipinaliwanag ng variation sa x factor. Ang pagpapalit ng mga aktwal na halaga sa equation ng regression X, tukuyin natin ang teoretikal (kinakalkula) na mga halaga . Hanapin natin ang halaga ng average na error sa pagtatantya:

Sa karaniwan, ang mga kinakalkula na halaga ay lumihis mula sa aktwal na mga halaga ng 8.1%.
Kalkulahin natin ang F-criterion:

mula noong 1< F < ¥ , dapat isaalang-alang F -1 .
Ang resultang halaga ay nagpapahiwatig ng pangangailangang tanggapin ang hypothesis Pero oh ang random na kalikasan ng natukoy na pag-asa at ang hindi gaanong kahalagahan ng istatistika ng mga parameter ng equation at ang tagapagpahiwatig ng pagiging malapit ng koneksyon.
1b. Ang pagtatayo ng isang modelo ng kapangyarihan ay nauuna sa pamamaraan ng linearization ng mga variable. Sa halimbawa, ang linearization ay isinasagawa sa pamamagitan ng pagkuha ng logarithms ng magkabilang panig ng equation:

saanY=lg(y), X=lg(x), C=lg(a).

Para sa mga kalkulasyon ginagamit namin ang data sa talahanayan. 1.3.

Talahanayan 1.3

	Y	X	YX	Y2	X 2				A i
1	1,8376	1,6542	3,0398	3,3768	2,7364	61,0	7,8	60,8	11,3
2	1,7868	1,7709	3,1642	3,1927	3,1361	56,3	4,9	24,0	8,0
3	1,7774	1,7574	3,1236	3,1592	3,0885	56,8	3,1	9,6	5,2
4	1,7536	1,7910	3,1407	3,0751	3,2077	55,5	1,2	1,4	2,1
5	1,7404	1,7694	3,0795	3,0290	3,1308	56,3	-1,3	1,7	2,4
6	1,7348	1,6739	2,9039	3,0095	2,8019	60,2	-5,9	34,8	10,9
7	1,6928	1,7419	2,9487	2,8656	3,0342	57,4	-8,1	65,6	16,4
Kabuuan	12,3234	12,1587	21,4003	21,7078	21,1355	403,5	1,7	197,9	56,3
Average na halaga	1,7605	1,7370	3,0572	3,1011	3,0194	X	X	28,27	8,0
σ	0,0425	0,0484	X	X	X	X	X	X	X
σ 2	0,0018	0,0023	X	X	X	X	X	X	X

Kalkulahin natin ang C at b:

Kumuha kami ng linear equation: .
Nang maisagawa ang potentiation nito, nakukuha natin:

Ang pagpapalit ng mga aktwal na halaga sa equation na ito X, nakakakuha kami ng mga teoretikal na halaga ng resulta. Gamit ang mga ito, kakalkulahin namin ang mga tagapagpahiwatig: higpit ng koneksyon - index ng ugnayan at average na error sa pagtatantya

Ang mga katangian ng modelo ng kapangyarihan-batas ay nagpapahiwatig na inilalarawan nito ang relasyon na medyo mas mahusay kaysa sa linear function.

1c. Pagbuo ng equation ng isang exponential curve

na unahan ng isang pamamaraan para sa linearizing variable sa pamamagitan ng pagkuha ng logarithms ng magkabilang panig ng equation:

Para sa mga kalkulasyon ginagamit namin ang data ng talahanayan.

	Y	x	Yx	Y2	x 2				A i
1	1,8376	45,1	82,8758	3,3768	2034,01	60,7	8,1	65,61	11,8
2	1,7868	59,0	105,4212	3,1927	3481,00	56,4	4,8	23,04	7,8
3	1,7774	57,2	101,6673	3,1592	3271,84	56,9	3,0	9,00	5,0
4	1,7536	61,8	108,3725	3,0751	3819,24	55,5	1,2	1,44	2,1
5	1,7404	58,8	102,3355	3,0290	3457,44	56,4	-1,4	1,96	2,5
6	1,7348	47,2	81,8826	3,0095	2227,84	60,0	-5,7	32,49	10,5
7	1,6928	55,2	93,4426	2,8656	3047,04	57,5	-8,2	67,24	16,6
Kabuuan	12,3234	384,3	675,9974	21,7078	21338,41	403,4	-1,8	200,78	56,3
Wed. zn.	1,7605	54,9	96,5711	3,1011	3048,34	X	X	28,68	8,0
σ	0,0425	5,86	X	X	X	X	X	X	X
σ 2	0,0018	34,339	X	X	X	X	X	X	X

Mga halaga ng mga parameter ng regression A at SA ay umabot sa:

Ang resultang linear equation ay: . Gawin nating potentiate ang resultang equation at isulat ito sa karaniwang anyo:

Susuriin namin ang pagiging malapit ng koneksyon sa pamamagitan ng index ng ugnayan:

y=f(x), kapag ang bawat halaga ng independent variable x tumutugma sa isang tiyak na halaga ng dami y, na may regression na koneksyon sa parehong halaga x maaaring tumutugma depende sa kaso sa iba't ibang mga halaga ng dami y. Kung para sa bawat halaga x=x i sinusunod n i mga halaga y i 1 …y sa 1 magnitude y, pagkatapos ay ang dependence ng arithmetic ay nangangahulugan =( y i 1 +…+y sa 1)/n i mula sa x=x i at ito ay isang regression sa istatistikal na kahulugan ng termino.

Ang terminong ito sa istatistika ay unang ginamit ni Francis Galton (1886) na may kaugnayan sa pag-aaral ng pamana ng mga pisikal na katangian ng tao. Ang taas ng tao ay kinuha bilang isa sa mga katangian; ito ay natagpuan na, sa pangkalahatan, ang mga anak na lalaki ng matatangkad na ama, hindi nakakagulat, ay naging mas matangkad kaysa sa mga anak ng maiikling ama. Ang mas kawili-wili ay ang pagkakaiba-iba sa taas ng mga anak na lalaki ay mas maliit kaysa sa pagkakaiba-iba sa taas ng mga ama. Ito ay kung paano ipinakita ang ugali ng mga taas ng mga anak na lalaki na bumalik sa karaniwan ( regression to mediocrity), iyon ay, "regression". Ang katotohanang ito ay ipinakita sa pamamagitan ng pagkalkula ng average na taas ng mga anak ng mga ama na ang taas ay 56 pulgada, sa pamamagitan ng pagkalkula ng average na taas ng mga anak ng mga ama na 58 pulgada ang taas, atbp. Ang mga resulta ay pagkatapos ay naka-plot sa isang eroplano, kasama ang ordinate kung saan ang average na taas ng mga anak ay naka-plot , at sa x-axis - ang mga halaga ng average na taas ng mga ama. Ang mga punto (humigit-kumulang) ay nasa isang tuwid na linya na may positibong anggulo ng pagkahilig na mas mababa sa 45°; mahalaga na linear ang regression.

Kaya, sabihin nating mayroon tayong sample mula sa isang bivariate distribution ng isang pares ng random variables ( X, Y). Tuwid na linya sa eroplano ( x, y) ay isang pumipili na analogue ng function

Sa halimbawang ito, regression Y sa X ay isang linear function. Kung regression Y sa X ay iba sa linear, kung gayon ang mga ibinigay na equation ay isang linear approximation ng totoong regression equation.

Sa pangkalahatan, ang pagbabalik ng isang random na variable sa isa pa ay hindi kinakailangang linear. Hindi rin kailangang limitahan ang iyong sarili sa ilang random na variable. Ang mga problema sa statistic regression ay kinabibilangan ng pagtukoy sa pangkalahatang anyo ng regression equation, pagbuo ng mga pagtatantya ng mga hindi kilalang parameter na kasama sa regression equation, at pagsubok ng statistical hypotheses tungkol sa regression. Ang mga problemang ito ay tinutugunan sa loob ng balangkas ng pagsusuri ng regression.

Isang simpleng halimbawa ng regression Y Sa pamamagitan ng X ay ang relasyon sa pagitan ng Y At X, na ipinapahayag ng kaugnayan: Y=u(X)+ε, saan u(x)=E(Y | X=x), at mga random na variable X at ε ay malaya. Kapaki-pakinabang ang representasyong ito kapag nagdidisenyo ng eksperimento upang pag-aralan ang functional connectivity y=u(x) sa pagitan ng mga hindi random na dami y At x. Sa pagsasagawa, kadalasan ang mga coefficient ng regression sa Eq. y=u(x) ay hindi alam at tinatantya mula sa pang-eksperimentong data.

Linear regression (propaedeutics)

Isipin natin ang pagtitiwala y mula sa x sa anyo ng isang unang order na linear na modelo:

Ipagpalagay namin na ang mga halaga x ay tinutukoy nang walang error, ang β 0 at β 1 ay ang mga parameter ng modelo, at ang ε ay ang error, ang pamamahagi nito ay sumusunod sa normal na batas na may zero mean na halaga at pare-pareho ang paglihis σ 2. Ang mga halaga ng mga parameter β ay hindi alam nang maaga at dapat na matukoy mula sa isang hanay ng mga pang-eksperimentong halaga ( x i, y i), i=1, …, n. Kaya maaari nating isulat:

kung saan nangangahulugang ang halaga na hinulaang ng modelo y binigay x, b 0 at b 1 - mga sample na pagtatantya ng mga parameter ng modelo, at - mga halaga ng mga error sa pagtatantya.

Ang paraan ng least squares ay nagbibigay ng mga sumusunod na formula para sa pagkalkula ng mga parameter ng isang ibinigay na modelo at ang kanilang mga paglihis:

dito ang mga average na halaga ay tinutukoy gaya ng dati: , at s e Ang 2 ay nagsasaad ng regression residual, na isang pagtatantya ng variance σ 2 kung ang modelo ay tama.

Ang mga karaniwang error ng mga coefficient ng regression ay ginagamit katulad ng karaniwang error ng mean - upang mahanap ang mga pagitan ng kumpiyansa at pagsubok ng mga hypotheses. Ginagamit namin, halimbawa, ang pagsusulit ng Estudyante upang subukan ang hypothesis na ang coefficient ng regression ay katumbas ng zero, iyon ay, na ito ay hindi gaanong mahalaga para sa modelo. Mga istatistika ng mag-aaral: t=b/s b. Kung ang posibilidad para sa nakuhang halaga at n−2 degrees ng kalayaan ay medyo maliit, halimbawa,<0,05 - гипотеза отвергается. Напротив, если нет оснований отвергнуть гипотезу о равенстве нулю, скажем b 1 - may dahilan upang isipin ang pagkakaroon ng nais na regression, hindi bababa sa form na ito, o tungkol sa pagkolekta ng mga karagdagang obserbasyon. Kung ang libreng termino ay katumbas ng zero b 0, pagkatapos ay ang tuwid na linya ay dumadaan sa pinagmulan at ang pagtatantya ng slope ay katumbas ng

at ang karaniwang error nito

Karaniwan ang mga tunay na halaga ng mga coefficient ng regression β 0 at β 1 ay hindi alam. Tanging ang kanilang mga pagtatantya ang nalalaman b 0 at b 1. Sa madaling salita, ang totoong linya ng regression ay maaaring gumana nang iba kaysa sa ginawa mula sa sample na data. Maaari mong kalkulahin ang rehiyon ng kumpiyansa para sa linya ng regression. Para sa anumang halaga x kaukulang halaga y karaniwang ipinamamahagi. Ang ibig sabihin ay ang halaga ng equation ng regression. Ang kawalan ng katiyakan ng pagtatantya nito ay nailalarawan ng karaniwang error sa pagbabalik:

Ngayon ay maaari nating kalkulahin ang 100(1−α/2) porsyento na agwat ng kumpiyansa para sa halaga ng equation ng regression sa punto x:

saan t(1−α/2, n−2) - t-halaga ng pamamahagi ng Mag-aaral. Ang figure ay nagpapakita ng isang regression line na ginawa gamit ang 10 puntos (solid tuldok), pati na rin ang 95% confidence region ng regression line, na nililimitahan ng mga tuldok na linya. Sa 95% na posibilidad ay masasabi nating ang totoong linya ay matatagpuan sa isang lugar sa loob ng lugar na ito. O kung hindi, kung mangolekta kami ng mga katulad na set ng data (ipinahiwatig ng mga lupon) at bumuo ng mga linya ng regression sa mga ito (ipinahiwatig sa asul), pagkatapos ay sa 95 na mga kaso sa 100 mga tuwid na linya na ito ay hindi aalis sa rehiyon ng kumpiyansa. (I-click ang larawan upang mailarawan) Pakitandaan na ang ilang mga punto ay nasa labas ng rehiyon ng kumpiyansa. Ito ay ganap na natural, dahil pinag-uusapan natin ang rehiyon ng kumpiyansa ng linya ng regression, at hindi ang mga halaga mismo. Ang pagkalat ng mga halaga ay binubuo ng pagkalat ng mga halaga sa paligid ng linya ng regression at ang kawalan ng katiyakan ng posisyon ng linyang ito mismo, lalo na:

Dito m- dalas ng pagsukat y binigay x. At isang 100(1−α/2) porsyento na agwat ng kumpiyansa (pagtataya ng pagitan) para sa mean ng m mga halaga y ay:

Sa figure, itong 95% confidence region sa m Ang =1 ay nililimitahan ng mga solidong linya. 95% ng lahat ng posibleng halaga ng dami ay nahuhulog sa lugar na ito y sa pinag-aralan na hanay ng mga halaga x.

Panitikan

Mga link

(Ingles)

Wikimedia Foundation.

2010.

Tingnan kung ano ang "Regression (matematika)" sa iba pang mga diksyunaryo:

Ang Wiktionary ay may artikulo sa "regression." Ang regression (lat. regressio "reverse movement, return") ay may maraming kahulugan ... Wikipedia

Tungkol sa function, tingnan ang: Interpolant. Ang interpolation, interpolation sa computational mathematics ay isang paraan ng paghahanap ng mga intermediate na halaga ng isang dami mula sa isang umiiral na discrete set ng mga kilalang halaga. Marami sa mga nakatagpo ng siyentipiko at... ... Wikipedia

Ang terminong ito ay may iba pang mga kahulugan, tingnan ang average na kahulugan. Sa matematika at istatistika, ang arithmetic mean ay isa sa mga pinakakaraniwang sukat ng central tendency, na kumakatawan sa kabuuan ng lahat ng naobserbahang values na hinati sa kanilang ... ... Wikipedia

Para sa mga nagsisimula · Komunidad · Mga Portal · Mga Gantimpala · Mga Proyekto · Mga Kahilingan · Pagtatasa Heograpiya · Kasaysayan · Lipunan · Mga personalidad · Relihiyon · Palakasan · Teknolohiya · Agham · Sining · Pilosopiya ... Wikipedia

REGRESSION AT CORRELATION ANALYSIS- REGRESSION AT CORRELATION ANALYSISР.а. ay isang pagkalkula batay sa istatistikal na impormasyon upang matantya sa matematika ang average na relasyon sa pagitan ng isang dependent variable at ilang independent variable o variable. Simple...... Encyclopedia of Banking and Finance

Uri ng Logo Mathematical modeling program Developer ... Wikipedia

Tutorial

Nakatanggap kamakailan ang mga istatistika ng malakas na suporta sa PR mula sa mas bago at mas maingay na mga disiplina - Machine Learning At Malaking Data. Kailangang makipagkaibigan sa mga gustong sumakay sa alon na ito mga equation ng regression. Ito ay ipinapayong hindi lamang upang matuto ng 2-3 mga trick at pumasa sa pagsusulit, ngunit din upang malutas ang mga problema mula sa pang-araw-araw na buhay: hanapin ang relasyon sa pagitan ng mga variable, at sa isip, magagawang makilala ang signal mula sa ingay.

Para sa layuning ito gagamit kami ng programming language at development environment R, na ganap na angkop sa gayong mga gawain. Kasabay nito, tingnan natin kung ano ang tumutukoy sa rating ng Habrapost batay sa mga istatistika ng sarili nitong mga artikulo.

Panimula sa Pagsusuri ng Pagbabalik

Kung mayroong isang ugnayan sa pagitan ng mga variable na y at x, mayroong pangangailangan upang matukoy ang functional na relasyon sa pagitan ng dalawang dami. Ang pag-asa ng average na halaga ay tinatawag regression ng y sa x.

Ang batayan ng pagsusuri ng regression ay pamamaraan ng least squares (LSM), ayon sa kung saan ang regression equation ay itinuturing na isang function na ang kabuuan ng mga parisukat ng mga pagkakaiba ay minimal.

Natuklasan ni Carl Gauss, o sa halip, muling nilikha, ang MNC sa edad na 18, ngunit ang mga resulta ay unang inilathala ng Legendre noong 1805. Ayon sa hindi na-verify na data, ang pamamaraan ay kilala sa sinaunang Tsina, mula sa kung saan ito lumipat sa Japan at pagkatapos ay dumating sa Europa. Ang mga Europeo ay hindi gumawa ng lihim tungkol dito at matagumpay na inilunsad ang produksyon, gamit ito upang matuklasan ang tilapon ng dwarf planetang Ceres noong 1801.

Ang anyo ng pag-andar ay, bilang isang panuntunan, tinutukoy nang maaga, at ang pinakamainam na mga halaga ng hindi kilalang mga parameter ay pinili gamit ang hindi bababa sa mga parisukat. Ang sukatan para sa pagpapakalat ng mga halaga sa paligid ng isang regression ay pagkakaiba-iba.

k ay ang bilang ng mga coefficient sa sistema ng mga equation ng regression.

Kadalasan, ginagamit ang isang linear na modelo ng regression, at ang lahat ng mga nonlinear na dependency ay binabawasan sa isang linear na anyo sa tulong ng mga algebraic trick at iba't ibang pagbabago ng mga variable na y at x.

Linear regression

Ang mga linear regression equation ay maaaring isulat bilang

Sa matrix form ito ang magiging hitsura

y - dependent variable;
x - malayang variable;
β - mga coefficient na kailangang matagpuan gamit ang hindi bababa sa mga parisukat;
ε - error, hindi maipaliwanag na error at paglihis mula sa linear dependence;

Ang isang random na variable ay maaaring bigyang-kahulugan bilang isang kabuuan ng dalawang termino:

Ang isa pang pangunahing konsepto ay ang koepisyent ng ugnayan R 2 .

Mga Limitasyon ng Linear Regression

Upang magamit ang isang linear na regression na modelo, ang ilang mga pagpapalagay ay kinakailangan tungkol sa pamamahagi at mga katangian ng mga variable.

Paano malalaman na ang mga kundisyon sa itaas ay hindi natutugunan? Buweno, una, madalas itong nakikita ng mata sa tsart.

Heterogenity ng dispersion

Habang tumataas ang pagkakaiba sa independiyenteng variable, mayroon kaming graph na hugis funnel.

Sa ilang mga kaso, ang nonlinear regression ay makikita rin nang malinaw sa graph.

Gayunpaman, may mga medyo mahigpit na pormal na paraan upang matukoy kung ang mga kondisyon ng linear regression ay natutugunan o nilabag.

Sa formula na ito - ang koepisyent ng mutual na pagpapasiya sa pagitan at iba pang mga kadahilanan. Kung hindi bababa sa isa sa mga VIF ay > 10, medyo makatwirang ipalagay ang pagkakaroon ng multicollinearity.

Bakit napakahalaga para sa atin na sumunod sa lahat ng mga kundisyon sa itaas? Ito ay tungkol sa lahat Gauss-Markov theorem, ayon sa kung saan ang pagtatantya ng OLS ay tumpak at mahusay lamang kung ang mga paghihigpit na ito ay natutugunan.

Paano malalampasan ang mga limitasyong ito

Ang paglabag sa isa o higit pang mga paghihigpit ay hindi isang parusang kamatayan.

Ang nonlinearity ng regression ay maaaring pagtagumpayan sa pamamagitan ng pagbabago ng mga variable, halimbawa sa pamamagitan ng natural logarithm function ln.
Sa parehong paraan, posibleng malutas ang problema ng heterogenous variance, gamit ang ln, o sqrt transformations ng dependent variable, o gamit ang weighted OLS.
Upang maalis ang problema ng multicollinearity, ginagamit ang paraan ng pag-aalis ng mga variable. Ang kakanyahan nito ay iyon ang mataas na pagkakaugnay na mga variable na nagpapaliwanag ay inalis mula sa regression, at ito ay muling sinusuri. Ang criterion para sa pagpili ng mga variable na ibubukod ay ang coefficient ng ugnayan. May isa pang paraan upang malutas ang problemang ito, na pinapalitan ang mga variable na likas na multicollinear ng kanilang linear na kumbinasyon. Ang listahang ito ay hindi kumpleto, marami pa stepwise regression at iba pang pamamaraan.

Sa kasamaang palad, hindi lahat ng mga paglabag sa kundisyon at mga depekto ng linear regression ay maaaring alisin gamit ang natural na logarithm. Kung meron autocorrelation ng mga kaguluhan halimbawa, ito ay mas mahusay na kumuha ng isang hakbang pabalik at bumuo ng isang bago at mas mahusay na modelo.

Linear regression ng mga pakinabang sa Habré

Kaya, sapat na teoretikal na bagahe at maaari kang bumuo ng modelo mismo.
Matagal na akong nag-usisa tungkol sa kung ano ang nakasalalay sa maliit na berdeng numero na iyon, na nagpapahiwatig ng rating ng isang post sa Habré. Nang makolekta ang lahat ng magagamit na istatistika ng sarili kong mga post, nagpasya akong patakbuhin ito sa pamamagitan ng isang linear na modelo ng regression.

Naglo-load ng data mula sa isang tsv file.

> kasaysayan<- read.table("~/habr_hist.txt", header=TRUE) >hist
points reads comm faves fb bytes 31 11937 29 19 13 10265 93 34122 71 98 74 14995 32 12153 12 147 17 22476 30 16867 30 16867 3 1 2 5 4 6 18824 12 16571 44 149 35 9972 18 9651 16 86 49 11370 59 29610 82 29 333 10131 26 8605 25 65 11 13050 20 11266 14 48 8 9884 ...

puntos- Rating ng artikulo
nagbabasa- Bilang ng mga view.
comm- Bilang ng mga komento.
mga paborito- Idinagdag sa mga bookmark.
fb- Ibinahagi sa mga social network (fb + vk).
byte- Haba sa bytes.

Multicollinearity check.

> Ang mga puntos ng COR (HIST) ay nagbabasa ng mga puntos ng FB bytes 1.0000000 0.5641858 0.61489369 0.24104452 0.61696653 0.19502379 Nabasa ang 0.5641858 1.0000000 0.54785197 0.574511 1 65 0.5709246 0.51551030 0.23659894 1.00000000 0.06782256 byte 0.1950238 0.2435920 0.08829029 0.14583018 0.06782256 1.00000000

Taliwas sa inaasahan ko pinakamalaking pagbabalik hindi sa bilang ng mga view ng artikulo, ngunit mula sa mga komento at post sa mga social network. Naisip ko rin na ang bilang ng mga view at komento ay magkakaroon ng mas malakas na ugnayan, ngunit ang relasyon ay medyo katamtaman - hindi na kailangang ibukod ang alinman sa mga independiyenteng variable.

Ngayon ang aktwal na modelo mismo, ginagamit namin ang lm function.

regmodel<- lm(points ~., data = hist) summary(regmodel) Call: lm(formula = points ~ ., data = hist) Residuals: Min 1Q Median 3Q Max -26.920 -9.517 -0.559 7.276 52.851 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.029e+01 7.198e+00 1.430 0.1608 reads 8.832e-05 3.158e-04 0.280 0.7812 comm 1.356e-01 5.218e -02 3.492e-02 0.785 0.4374 fb 1.162e-01 4.691e-02 2.476 0.0177 * bytes 3.960e-04 4.219e-04 0.939 0.3537 --- Signif. mga code: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Natirang karaniwang error: 16.65 sa 39 degrees ng kalayaan Maramihang R-squared: 0.5384, Inayos na R-squared: 0.4792 F- istatistika: 9.099 sa 5 at 39 DF, p-value: 8.476e-06

Sa unang linya itinakda namin ang mga parameter ng linear regression. Mga punto ng linya ~. Tinutukoy ang mga dependent variable point at lahat ng iba pang variable bilang regressors. Maaari mong tukuyin ang isang solong independiyenteng variable sa pamamagitan ng mga puntos ~ reads, isang set ng mga variable - puntos ~ reads + comm.

Magpatuloy tayo ngayon sa pag-decipher ng mga resultang nakuha.

Maaari mong subukang pahusayin ang modelo sa pamamagitan ng pagpapakinis ng mga hindi linear na salik: mga komento at post sa mga social network. Palitan natin ang mga halaga ng mga variable na fb at comm ng kanilang mga kapangyarihan.

> hist$fb = hist$fb^(4/7) > hist$comm = hist$comm^(2/3)

Suriin natin ang mga halaga ng mga parameter ng linear regression.

>regmodel<- lm(points ~., data = hist) >summary(regmodel) Tawag: lm(formula = points ~ ., data = hist) Mga nalalabi: Min 1Q Median 3Q Max -22.972 -11.362 -0.603 7.977 49.549 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.823e+00 7.305e+00 0.387 0.70123 reads -6.278e-05 3.227e-04 -0.195 0.84674 comm 1.010e comm 1.010e 2 ** f aves 2.753e-02 3.421e-02 0.805 0.42585 fb 1.601e+00 5.575e-01 2.872 0.00657 ** bytes 2.688e-04 4.108e-04 7. ---Lagdaan mga code: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Natitirang karaniwang error: 16.21 sa 39 degrees ng kalayaan Maramihang R-squared: 0.5624, Inayos na R-squared: 0.5062 F- istatistika: 10.02 sa 5 at 39 DF, p-value: 3.186e-06

Tulad ng nakikita natin, sa pangkalahatan, ang pagtugon ng modelo ay tumaas, ang mga parameter ay humihigpit at naging mas malasutla, ang F-statistics ay tumaas, pati na rin ang nababagay na koepisyent ng pagpapasiya.

Suriin natin kung natutugunan ang mga kundisyon para sa applicability ng linear regression model? Ang pagsubok ng Durbin-Watson ay sumusubok para sa autocorrelation ng mga kaguluhan.

> dwtest(hist$points ~., data = hist) Durbin-Watson test data: hist$points ~ . DW = 1.585, p-value = 0.07078 alternatibong hypothesis: ang tunay na autocorrelation ay mas malaki sa 0

At sa wakas, sinusuri ang heterogeneity ng pagkakaiba-iba gamit ang Breusch-Pagan test.

> bptest(hist$points ~., data = hist) studentized Breusch-Pagan test data: hist$points ~ . BP = 6.5315, df = 5, p-value = 0.2579

Sa konklusyon

Siyempre, ang aming linear regression na modelo ng mga rating ng Habra-topics ay hindi ang pinakamatagumpay. Naipaliwanag namin ang hindi hihigit sa kalahati ng pagkakaiba-iba sa data. Ang mga salik ay kailangang itama upang maalis ang heterogenous na pagpapakalat ay hindi rin malinaw. Sa pangkalahatan, walang sapat na data para sa anumang seryosong pagtatasa.

Ngunit sa kabilang banda, ito ay mabuti. Kung hindi, ang anumang mabilis na nakasulat na troll post sa Habré ay awtomatikong makakatanggap ng mataas na rating, ngunit sa kabutihang palad hindi ito ang kaso.