Analisis regresi standard dalam STATISTICA. Analisis regresi

Menilai kualiti persamaan regresi menggunakan pekali penentuan. Menguji hipotesis nol tentang kepentingan persamaan dan penunjuk kekuatan hubungan menggunakan ujian Fisher's F.

Ralat piawai pekali.

Persamaan regresi ialah:

Y =3378,41 -494.59X 1 -35.00X 2 +75.74X 3 -15.81X 4 +80.10X 5 +59.84X 6 +
(1304,48) (226,77) (10,31) (277,57) (287,54) (35,31) (150,93)
+127.98X 7 -78.10X 8 -437.57X 9 +451.26X 10 -299.91X 11 -14.93X 12 -369.65X 13 (9)
(22,35) (31,19) (97,68) (331,79) (127,84) 86,06 (105,08)

Untuk mengisi jadual "Statistik regresi" (Jadual 9) kami dapati:

1. Jamak R– pekali korelasi r antara y dan ŷ.

Untuk melakukan ini, gunakan fungsi CORREL dengan memasukkan tatasusunan y dan ŷ.

Nombor 0.99 yang terhasil adalah hampir 1, yang menunjukkan hubungan yang sangat kuat antara data eksperimen dan data yang dikira.

2. Untuk pengiraan R-segi empat kita dapati:

Kesilapan yang Diterangkan 17455259,48,

Ralat yang tidak dapat dijelaskan .

Oleh itu, kuasa dua R adalah sama dengan .

Sehubungan itu, 97% daripada data eksperimen boleh dijelaskan oleh persamaan regresi yang terhasil.

3. Biasa R-kuasa dua cari dengan formula

Penunjuk ini berfungsi untuk membandingkan model regresi yang berbeza apabila komposisi pembolehubah penjelasan berubah.

4. Kesalahan biasa– punca kuasa dua varians baki sampel:

Hasilnya, kami mendapat jadual berikut.

Jadual 9.

Mengisi jadual "Analisis Varians".

Kebanyakan data telah pun diperolehi di atas. (Kesilapan yang dijelaskan dan tidak dapat dijelaskan).

Mari kita hitung t wx:val="Cambria Math"/> 13 = 1342712,27"> .



Kami akan menilai kepentingan statistik persamaan regresi secara keseluruhan menggunakan F-Kriteria nelayan. Persamaan regresi berganda adalah signifikan (jika tidak, hipotesis H 0 tentang kesamaan parameter model regresi kepada sifar, iaitu ditolak) jika

, (10)

di manakah nilai jadual ujian F Fisher.

Nilai sebenar F- kriteria mengikut formula ialah:

Untuk mengira nilai jadual bagi kriteria Fisher, fungsi FRIST digunakan (Rajah 4).

Darjah kebebasan 1: p=13

Darjah kebebasan 2: n-p-1 = 20-13-1=6

Rajah 4. Menggunakan fungsi FRIST dalam Excel.

Jadual F = 3.976< 16,88, следовательно, модель адекватна опытным данным.

Kepentingan F dikira menggunakan fungsi FDIST. Fungsi ini mengembalikan taburan kebarangkalian F (Taburan Fisher) dan membolehkan anda menentukan sama ada dua set data mempunyai darjah serakan yang berbeza dalam keputusannya.

Rajah 5. Menggunakan fungsi FDIST dalam Excel.

Kepentingan F = 0.001.

Dalam pemodelan statistik, analisis regresi adalah kajian yang digunakan untuk menilai hubungan antara pembolehubah. Kaedah matematik ini merangkumi banyak kaedah lain untuk memodelkan dan menganalisis berbilang pembolehubah di mana tumpuan adalah pada hubungan antara pembolehubah bersandar dan satu atau lebih pembolehubah tidak bersandar. Lebih khusus lagi, analisis regresi membantu kita memahami bagaimana nilai tipikal pembolehubah bersandar berubah jika salah satu pembolehubah bebas berubah manakala pembolehubah bebas yang lain kekal tetap.

Dalam semua kes, anggaran sasaran adalah fungsi pembolehubah bebas dan dipanggil fungsi regresi. Dalam analisis regresi, adalah juga menarik untuk mencirikan perubahan dalam pembolehubah bersandar sebagai fungsi regresi, yang boleh diterangkan menggunakan taburan kebarangkalian.

Masalah Analisis Regresi

Kaedah penyelidikan statistik ini digunakan secara meluas untuk peramalan, di mana penggunaannya mempunyai kelebihan yang ketara, tetapi kadangkala ia boleh membawa kepada ilusi atau hubungan palsu, jadi disyorkan untuk menggunakannya dengan berhati-hati dalam perkara tersebut, kerana, sebagai contoh, korelasi tidak bermakna sebab musabab.

Sebilangan besar kaedah telah dibangunkan untuk analisis regresi, seperti regresi kuasa dua terkecil linear dan biasa, yang berparametrik. Intipatinya ialah fungsi regresi ditakrifkan dari segi bilangan terhingga parameter yang tidak diketahui yang dianggarkan daripada data. Regresi bukan parametrik membenarkan fungsinya terletak dalam set fungsi tertentu, yang boleh menjadi dimensi tak terhingga.

Sebagai kaedah penyelidikan statistik, analisis regresi dalam amalan bergantung kepada bentuk proses penjanaan data dan bagaimana ia berkaitan dengan pendekatan regresi. Oleh kerana bentuk sebenar penjanaan proses data biasanya merupakan nombor yang tidak diketahui, analisis regresi data sering bergantung sedikit sebanyak pada andaian tentang proses tersebut. Andaian ini kadangkala boleh diuji jika terdapat data yang mencukupi. Model regresi selalunya berguna walaupun andaian dilanggar secara sederhana, walaupun ia mungkin tidak berfungsi pada kecekapan puncak.

Dalam erti kata yang lebih sempit, regresi mungkin merujuk secara khusus kepada anggaran pembolehubah tindak balas berterusan, berbanding dengan pembolehubah tindak balas diskret yang digunakan dalam pengelasan. Kes pembolehubah keluaran berterusan juga dipanggil regresi metrik untuk membezakannya daripada masalah yang berkaitan.

cerita

Bentuk regresi terawal ialah kaedah kuasa dua terkecil yang terkenal. Ia telah diterbitkan oleh Legendre pada tahun 1805 dan Gauss pada tahun 1809. Legendre dan Gauss menggunakan kaedah tersebut untuk masalah menentukan daripada pemerhatian astronomi tentang orbit badan mengelilingi Matahari (terutamanya komet, tetapi kemudiannya juga planet kecil yang baru ditemui). Gauss menerbitkan perkembangan lanjut teori kuasa dua terkecil pada tahun 1821, termasuk versi teorem Gauss-Markov.

Istilah "regresi" dicipta oleh Francis Galton pada abad ke-19 untuk menggambarkan fenomena biologi. Ideanya ialah ketinggian keturunan daripada nenek moyang mereka cenderung menurun ke bawah ke arah min biasa. Bagi Galton, regresi hanya mempunyai makna biologi ini, tetapi kemudiannya karyanya diteruskan oleh Udney Yoley dan Karl Pearson dan dibawa ke dalam konteks statistik yang lebih umum. Dalam karya Yule dan Pearson, taburan bersama pembolehubah tindak balas dan penjelasan diandaikan sebagai Gaussian. Andaian ini telah ditolak oleh Fischer dalam kertas tahun 1922 dan 1925. Fisher mencadangkan bahawa taburan bersyarat bagi pembolehubah tindak balas adalah Gaussian, tetapi taburan bersama tidak semestinya. Dalam hal ini, cadangan Fischer lebih dekat dengan perumusan Gauss pada tahun 1821. Sebelum tahun 1970, kadangkala mengambil masa sehingga 24 jam untuk mendapatkan hasil analisis regresi.

Kaedah analisis regresi terus menjadi bidang penyelidikan aktif. Dalam dekad kebelakangan ini, kaedah baru telah dibangunkan untuk regresi yang teguh; regresi yang melibatkan tindak balas berkorelasi; kaedah regresi yang menampung pelbagai jenis data yang hilang; regresi bukan parametrik; Kaedah regresi Bayesian; regresi di mana pembolehubah peramal diukur dengan ralat; regresi dengan lebih banyak peramal daripada pemerhatian, dan inferens sebab-akibat dengan regresi.

Model regresi

Model analisis regresi termasuk pembolehubah berikut:

  • Parameter tidak diketahui, beta yang ditetapkan, yang boleh menjadi skalar atau vektor.
  • Pembolehubah Bebas, X.
  • Pembolehubah Bersandar, Y.

Bidang sains yang berbeza di mana analisis regresi digunakan menggunakan istilah yang berbeza sebagai ganti pembolehubah bersandar dan bebas, tetapi dalam semua kes model regresi mengaitkan Y dengan fungsi X dan β.

Anggaran biasanya ditulis sebagai E(Y | X) = F(X, β). Untuk menjalankan analisis regresi, jenis fungsi f mesti ditentukan. Kurang biasa, ia berdasarkan pengetahuan tentang hubungan antara Y dan X, yang tidak bergantung pada data. Jika pengetahuan sedemikian tidak tersedia, maka bentuk F yang fleksibel atau mudah dipilih.

Pembolehubah bersandar Y

Sekarang mari kita anggap bahawa vektor parameter yang tidak diketahui β mempunyai panjang k. Untuk melakukan analisis regresi, pengguna mesti memberikan maklumat tentang pembolehubah bersandar Y:

  • Jika N titik data dalam bentuk (Y, X) diperhatikan, di mana N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Jika betul-betul N = K diperhatikan dan fungsi F adalah linear, maka persamaan Y = F(X, β) boleh diselesaikan dengan tepat dan bukannya lebih kurang. Ini sama dengan menyelesaikan satu set persamaan N dengan N-tidak diketahui (elemen β) yang mempunyai penyelesaian unik selagi X bebas linear. Jika F adalah tak linear, mungkin tiada penyelesaian, atau banyak penyelesaian mungkin wujud.
  • Situasi yang paling biasa ialah di mana N > titik data diperhatikan. Dalam kes ini, terdapat maklumat yang mencukupi dalam data untuk menganggarkan nilai unik untuk β yang paling sesuai dengan data, dan model regresi yang mana aplikasi kepada data boleh dilihat sebagai sistem yang terlebih ditentukan dalam β.

Dalam kes kedua, analisis regresi menyediakan alat untuk:

  • Mencari penyelesaian untuk parameter yang tidak diketahui β, yang akan, sebagai contoh, meminimumkan jarak antara nilai yang diukur dan diramalkan bagi Y.
  • Di bawah andaian statistik tertentu, analisis regresi menggunakan lebihan maklumat untuk menyediakan maklumat statistik tentang parameter yang tidak diketahui β dan nilai ramalan pembolehubah bersandar Y.

Bilangan ukuran bebas yang diperlukan

Pertimbangkan model regresi yang mempunyai tiga parameter yang tidak diketahui: β 0 , β 1 dan β 2 . Katakan penguji membuat 10 ukuran pada nilai yang sama bagi vektor pembolehubah bebas X. Dalam kes ini, analisis regresi tidak menghasilkan set nilai yang unik. Perkara terbaik yang boleh anda lakukan ialah menganggarkan min dan sisihan piawai pembolehubah bersandar Y. Begitu juga, dengan mengukur dua nilai X yang berbeza, anda boleh memperoleh data yang mencukupi untuk regresi dengan dua yang tidak diketahui, tetapi bukan dengan tiga atau lebih yang tidak diketahui.

Jika pengukuran penguji dibuat pada tiga nilai berbeza bagi vektor pembolehubah bebas X, maka analisis regresi akan menyediakan satu set anggaran yang unik untuk tiga parameter yang tidak diketahui dalam β.

Dalam kes regresi linear am, pernyataan di atas adalah bersamaan dengan keperluan bahawa matriks X T X boleh terbalik.

Andaian Statistik

Apabila bilangan ukuran N lebih besar daripada bilangan parameter yang tidak diketahui k dan ralat pengukuran ε i , maka, sebagai peraturan, lebihan maklumat yang terkandung dalam pengukuran kemudiannya disebarkan dan digunakan untuk ramalan statistik mengenai parameter yang tidak diketahui. Maklumat yang berlebihan ini dipanggil darjah kebebasan regresi.

Andaian Asas

Andaian klasik untuk analisis regresi termasuk:

  • Persampelan mewakili ramalan inferens.
  • Istilah ralat ialah pembolehubah rawak dengan min sifar, yang bersyarat pada pembolehubah penjelasan.
  • Pembolehubah bebas diukur tanpa ralat.
  • Sebagai pembolehubah tidak bersandar (peramal), ia adalah bebas secara linear, iaitu, tidak mungkin untuk menyatakan sebarang peramal sebagai gabungan linear yang lain.
  • Ralat tidak berkorelasi, iaitu matriks kovarians ralat pepenjuru dan setiap unsur bukan sifar ialah varians ralat.
  • Varians ralat adalah malar merentasi pemerhatian (homoskedastisitas). Jika tidak, maka kuasa dua terkecil berwajaran atau kaedah lain boleh digunakan.

Keadaan yang mencukupi untuk anggaran kuasa dua terkecil ini mempunyai sifat yang diperlukan, khususnya andaian ini bermakna anggaran parameter akan objektif, konsisten dan cekap, terutamanya apabila diambil kira dalam kelas penganggar linear. Adalah penting untuk ambil perhatian bahawa bukti jarang memenuhi syarat. Maksudnya, kaedah itu digunakan walaupun andaian itu tidak betul. Variasi daripada andaian kadangkala boleh digunakan sebagai ukuran sejauh mana model itu berguna. Banyak andaian ini boleh dilonggarkan dalam kaedah yang lebih maju. Laporan analisis statistik biasanya termasuk analisis ujian pada data sampel dan metodologi untuk kegunaan model.

Selain itu, pembolehubah dalam sesetengah kes merujuk kepada nilai yang diukur pada lokasi titik. Mungkin terdapat trend spatial dan autokorelasi spatial dalam pembolehubah yang melanggar andaian statistik. Regresi berwajaran geografi adalah satu-satunya kaedah yang menangani data sedemikian.

Satu ciri regresi linear ialah pembolehubah bersandar, iaitu Yi, ialah gabungan linear parameter. Sebagai contoh, regresi linear mudah menggunakan satu pembolehubah tidak bersandar, x i, dan dua parameter, β 0 dan β 1, untuk memodelkan titik-n.

Dalam regresi linear berganda, terdapat berbilang pembolehubah atau fungsi bebas daripadanya.

Apabila sampel rawak diambil daripada populasi, parameternya membolehkan seseorang memperoleh model regresi linear sampel.

Dalam aspek ini, yang paling popular ialah kaedah kuasa dua terkecil. Ia digunakan untuk mendapatkan anggaran parameter yang meminimumkan jumlah sisa kuasa dua. Pengecilan jenis ini (yang tipikal regresi linear) fungsi ini membawa kepada satu set persamaan normal dan satu set persamaan linear dengan parameter, yang diselesaikan untuk mendapatkan anggaran parameter.

Di bawah andaian selanjutnya bahawa ralat populasi secara amnya disebarkan, penyelidik boleh menggunakan anggaran ralat piawai ini untuk mencipta selang keyakinan dan menjalankan ujian hipotesis tentang parameternya.

Analisis regresi bukan linear

Contoh di mana fungsi tidak linear berkenaan dengan parameter menunjukkan bahawa jumlah kuasa dua harus diminimumkan menggunakan prosedur berulang. Ini memperkenalkan banyak komplikasi yang mentakrifkan perbezaan antara kaedah kuasa dua terkecil linear dan tak linear. Akibatnya, keputusan analisis regresi apabila menggunakan kaedah tak linear kadangkala tidak dapat diramalkan.

Pengiraan kuasa dan saiz sampel

Secara amnya tiada kaedah yang konsisten mengenai bilangan pemerhatian berbanding bilangan pembolehubah bebas dalam model. Peraturan pertama telah dicadangkan oleh Dobra dan Hardin dan kelihatan seperti N = t^n, di mana N ialah saiz sampel, n ialah bilangan pembolehubah tidak bersandar, dan t ialah bilangan pemerhatian yang diperlukan untuk mencapai ketepatan yang diingini jika model mempunyai hanya satu pembolehubah bebas. Sebagai contoh, seorang penyelidik membina model regresi linear menggunakan set data yang mengandungi 1000 pesakit (N). Jika penyelidik memutuskan bahawa lima pemerhatian diperlukan untuk menentukan garis (m) dengan tepat, maka bilangan maksimum pembolehubah bebas yang boleh disokong oleh model ialah 4.

Kaedah lain

Walaupun parameter model regresi biasanya dianggarkan menggunakan kaedah kuasa dua terkecil, terdapat kaedah lain yang digunakan lebih kurang kerap. Sebagai contoh, ini adalah kaedah berikut:

  • Kaedah Bayesian (contohnya, regresi linear Bayesian).
  • Regresi peratusan, digunakan untuk situasi di mana mengurangkan peratusan ralat dianggap lebih sesuai.
  • Sisihan mutlak terkecil, yang lebih teguh dengan kehadiran outlier yang membawa kepada regresi kuantil.
  • Regresi bukan parametrik, yang memerlukan sejumlah besar pemerhatian dan pengiraan.
  • Metrik pembelajaran jarak jauh yang dipelajari untuk mencari metrik jarak yang bermakna dalam ruang input yang diberikan.

Perisian

Semua pakej perisian statistik utama melakukan analisis regresi kuasa dua terkecil. Regresi linear mudah dan analisis regresi berbilang boleh digunakan dalam beberapa aplikasi hamparan serta beberapa kalkulator. Walaupun banyak pakej perisian statistik boleh melakukan pelbagai jenis regresi bukan parametrik dan teguh, kaedah ini kurang piawai; pakej perisian yang berbeza melaksanakan kaedah yang berbeza. Perisian regresi khusus telah dibangunkan untuk digunakan dalam bidang seperti analisis peperiksaan dan pengimejan neuro.

Tujuan utama analisis regresi terdiri daripada menentukan bentuk komunikasi analitikal di mana perubahan dalam ciri berkesan adalah disebabkan oleh pengaruh satu atau lebih ciri faktor, dan set semua faktor lain yang turut mempengaruhi ciri berkesan diambil sebagai nilai malar dan purata.
Masalah Analisis Regresi:
a) Mewujudkan bentuk pergantungan. Mengenai sifat dan bentuk hubungan antara fenomena, perbezaan dibuat antara regresi linear positif dan bukan linear dan negatif linear dan bukan linear.
b) Menentukan fungsi regresi dalam bentuk persamaan matematik satu jenis atau yang lain dan mewujudkan pengaruh pembolehubah penerang ke atas pembolehubah bersandar.
c) Anggaran nilai yang tidak diketahui bagi pembolehubah bersandar. Menggunakan fungsi regresi, anda boleh mengeluarkan semula nilai pembolehubah bersandar dalam selang nilai tertentu bagi pembolehubah penjelasan (iaitu, menyelesaikan masalah interpolasi) atau menilai perjalanan proses di luar selang yang ditentukan (iaitu, menyelesaikan masalah ekstrapolasi). Hasilnya ialah anggaran nilai pembolehubah bersandar.

Regresi berpasangan ialah persamaan untuk hubungan antara dua pembolehubah y dan x: , di mana y ialah pembolehubah bersandar (atribut terhasil); x ialah pembolehubah penjelasan bebas (faktor ciri).

Terdapat regresi linear dan bukan linear.
Regresi linear: y = a + bx + ε
Regresi tak linear dibahagikan kepada dua kelas: regresi yang tidak linear berkenaan dengan pembolehubah penjelasan yang termasuk dalam analisis, tetapi linear berkenaan dengan parameter anggaran, dan regresi yang tidak linear berkenaan dengan parameter anggaran.
Regresi yang tidak linear dalam pembolehubah penjelasan:

Regresi yang tidak linear berkenaan dengan parameter anggaran: Pembinaan persamaan regresi turun kepada menganggarkan parameternya. Untuk menganggarkan parameter regresi linear dalam parameter, kaedah kuasa dua terkecil (OLS) digunakan. Kaedah kuasa dua terkecil memungkinkan untuk mendapatkan anggaran parameter sedemikian di mana jumlah sisihan kuasa dua bagi nilai sebenar ciri terhasil y daripada yang teoretikal adalah minimum, i.e.
.
Untuk persamaan linear dan tak linear boleh dikurangkan kepada persamaan linear, sistem berikut diselesaikan untuk a dan b:

Anda boleh menggunakan formula sedia yang mengikuti daripada sistem ini:

Keakraban hubungan antara fenomena yang dikaji dinilai oleh pekali linear korelasi pasangan untuk regresi linear:

dan indeks korelasi - untuk regresi tak linear:

Kualiti model yang dibina akan dinilai oleh pekali (indeks) penentuan, serta ralat purata penghampiran.
Ralat anggaran purata - sisihan purata nilai yang dikira daripada nilai sebenar:
.
Had nilai yang dibenarkan tidak lebih daripada 8-10%.
Pekali keanjalan purata menunjukkan dengan berapa peratus secara purata hasil y akan berubah daripada nilai puratanya apabila faktor x berubah sebanyak 1% daripada nilai puratanya:
.

Tujuan analisis varians adalah untuk menganalisis varians bagi pembolehubah bersandar:
,
di manakah jumlah sisihan kuasa dua;
- jumlah sisihan kuasa dua disebabkan oleh regresi (“dijelaskan” atau “faktorial”);
- jumlah baki sisihan kuasa dua.
Bahagian varians yang dijelaskan oleh regresi dalam jumlah varians bagi ciri paduan y dicirikan oleh pekali (indeks) penentuan R2:

Pekali penentuan ialah kuasa dua bagi pekali atau indeks korelasi.

Ujian-F - menilai kualiti persamaan regresi - terdiri daripada menguji hipotesis Tidak tentang ketidaksignifikan statistik persamaan regresi dan penunjuk keakraban hubungan. Untuk melakukan ini, perbandingan dibuat antara fakta F sebenar dan nilai jadual F kritikal (jadual) bagi kriteria Fisher F. Fakta F ditentukan daripada nisbah nilai faktor dan varians baki yang dikira setiap darjah kebebasan:
,
di mana n ialah bilangan unit populasi; m ialah bilangan parameter bagi pembolehubah x.
Jadual F ialah nilai maksimum yang mungkin bagi kriteria di bawah pengaruh faktor rawak pada darjah kebebasan dan tahap keertian tertentu a. Aras keertian a ialah kebarangkalian untuk menolak hipotesis yang betul, memandangkan ia adalah benar. Biasanya a diambil bersamaan dengan 0.05 atau 0.01.
Jika F jadual< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F fakta, maka hipotesis H o tidak ditolak dan ketidaksignifikan statistik dan ketidakbolehpercayaan persamaan regresi diiktiraf.
Untuk menilai kepentingan statistik bagi regresi dan pekali korelasi, ujian-t dan selang keyakinan pelajar untuk setiap penunjuk dikira. Hipotesis dikemukakan tentang sifat rawak penunjuk, i.e. tentang perbezaan mereka yang tidak ketara daripada sifar. Menilai kepentingan regresi dan pekali korelasi menggunakan ujian-t Pelajar dijalankan dengan membandingkan nilainya dengan magnitud ralat rawak:
; ; .
Ralat rawak parameter regresi linear dan pekali korelasi ditentukan oleh formula:



Membandingkan nilai sebenar dan kritikal (jadual) t-statistik - t jadual dan t fakta - kami menerima atau menolak hipotesis H o.
Hubungan antara ujian-F Fisher dan statistik-t Pelajar dinyatakan oleh kesamaan

Jika t jadual< t факт то H o отклоняется, т.е. a, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t ialah fakta bahawa hipotesis H o tidak ditolak dan sifat rawak pembentukan a, b atau diiktiraf.
Untuk mengira selang keyakinan, kami menentukan ralat maksimum D untuk setiap penunjuk:
, .
Formula untuk mengira selang keyakinan adalah seperti berikut:
; ;
; ;
Jika sifar jatuh dalam selang keyakinan, i.e. Jika had bawah adalah negatif dan had atas adalah positif, maka parameter anggaran diambil sebagai sifar, kerana ia tidak boleh mengambil kedua-dua nilai positif dan negatif secara serentak.
Nilai ramalan ditentukan dengan menggantikan nilai (ramalan) yang sepadan ke dalam persamaan regresi. Ralat piawai purata ramalan dikira:
,
di mana
dan selang keyakinan untuk ramalan dibina:
; ;
di mana .

Contoh penyelesaian

Tugasan No 1. Untuk tujuh wilayah wilayah Ural pada tahun 199X, nilai dua ciri diketahui.
Jadual 1.
Diperlukan: 1. Untuk mencirikan pergantungan y pada x, hitung parameter bagi fungsi berikut:
a) linear;
b) kuasa (anda mesti terlebih dahulu melakukan prosedur linearisasi pembolehubah dengan mengambil logaritma kedua-dua bahagian);
c) demonstratif;
d) hiperbola sama sisi (anda juga perlu memikirkan cara untuk membuat pra-linear model ini).
2. Nilaikan setiap model menggunakan ralat purata penghampiran dan ujian Fisher's F.

Penyelesaian (Pilihan No. 1)

Untuk mengira parameter a dan b regresi linear (pengiraan boleh dilakukan menggunakan kalkulator).
menyelesaikan sistem persamaan normal untuk A Dan b:
Berdasarkan data awal, kami mengira :
y x yx x 2 y 2 A i
l 68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Jumlah 405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
Rabu. maksudnya (Jumlah/n) 57,89 54,90 3166,05 3048,34 3383,68 X X 8,1
s 5,74 5,86 X X X X X X
s 2 32,92 34,34 X X X X X X


Persamaan regresi: y = 76,88 - 0,35X. Dengan peningkatan dalam purata gaji harian sebanyak 1 gosok. bahagian perbelanjaan untuk pembelian produk makanan berkurangan secara purata sebanyak 0.35 mata peratusan.
Mari kita hitung pekali korelasi pasangan linear:

Sambungan adalah sederhana, songsang.
Mari kita tentukan pekali penentuan:

Variasi 12.7% dalam keputusan dijelaskan oleh variasi dalam faktor x. Menggantikan nilai sebenar ke dalam persamaan regresi X, mari tentukan nilai teori (dikira). . Mari cari nilai ralat anggaran purata:

Secara purata, nilai yang dikira menyimpang daripada nilai sebenar sebanyak 8.1%.
Mari kita hitung kriteria F:

sejak 1< F < ¥ , harus dipertimbangkan F -1 .
Nilai yang terhasil menunjukkan keperluan untuk menerima hipotesis Tetapi oh sifat rawak pergantungan yang dikenal pasti dan tidak signifikan statistik parameter persamaan dan penunjuk keakraban sambungan.
1b. Pembinaan model kuasa didahului dengan prosedur linearisasi pembolehubah. Dalam contoh, linearisasi dilakukan dengan mengambil logaritma kedua-dua belah persamaan:


di manaY=lg(y), X=lg(x), C=lg(a).

Untuk pengiraan kami menggunakan data dalam jadual. 1.3.

Jadual 1.3

Y X YX Y2 X 2 A i
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Jumlah 12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Nilai purata 1,7605 1,7370 3,0572 3,1011 3,0194 X X 28,27 8,0
σ 0,0425 0,0484 X X X X X X X
σ 2 0,0018 0,0023 X X X X X X X

Mari kita hitung C dan b:


Kami mendapat persamaan linear: .
Setelah melakukan potensiasinya, kami mendapat:

Menggantikan nilai sebenar ke dalam persamaan ini X, kami memperoleh nilai teoritis hasil. Menggunakannya, kami akan mengira penunjuk: ketat sambungan - indeks korelasi dan ralat anggaran purata

Ciri-ciri model undang-undang kuasa menunjukkan bahawa ia menggambarkan hubungan yang agak lebih baik daripada fungsi linear.

1c. Membina persamaan lengkung eksponen

didahului dengan prosedur untuk melinearkan pembolehubah dengan mengambil logaritma kedua-dua belah persamaan:

Untuk pengiraan kami menggunakan data jadual.

Y x Yx Y2 x 2 A i
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Jumlah 12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
Rabu. zn. 1,7605 54,9 96,5711 3,1011 3048,34 X X 28,68 8,0
σ 0,0425 5,86 X X X X X X X
σ 2 0,0018 34,339 X X X X X X X

Nilai parameter regresi A dan DALAM berjumlah:


Persamaan linear yang terhasil ialah: . Marilah kita mempotensikan persamaan yang terhasil dan menulisnya dalam bentuk biasa:

Kami akan menilai keakraban sambungan melalui indeks korelasi:

y=f(x), apabila setiap nilai pembolehubah bebas x sepadan dengan satu nilai kuantiti tertentu y, dengan sambungan regresi kepada nilai yang sama x mungkin sepadan bergantung pada kes kepada nilai kuantiti yang berbeza y. Jika bagi setiap nilai x=x i diperhatikan n i nilai y i 1 …y dalam 1 magnitud y, maka pergantungan bermakna aritmetik =( y i 1 +…+y dalam 1)/n i daripada x=x i dan merupakan regresi dalam pengertian statistik istilah.

Istilah dalam statistik ini pertama kali digunakan oleh Francis Galton (1886) berkaitan dengan kajian pewarisan ciri fizikal manusia. Ketinggian manusia diambil sebagai salah satu ciri; didapati bahawa, secara amnya, anak lelaki kepada bapa yang tinggi, tidak menghairankan, ternyata lebih tinggi daripada anak lelaki bapa yang pendek. Apa yang lebih menarik ialah variasi ketinggian anak lelaki adalah lebih kecil daripada variasi ketinggian bapa. Ini adalah bagaimana kecenderungan ketinggian anak lelaki untuk kembali kepada purata ditunjukkan ( regresi kepada biasa-biasa sahaja), iaitu, "regresi". Fakta ini ditunjukkan dengan mengira ketinggian purata anak lelaki bapa yang tingginya ialah 56 inci, dengan mengira ketinggian purata anak lelaki bapa yang tingginya 58 inci, dsb. Hasilnya kemudian diplot pada satah, di sepanjang ordinat paksi yang mana ketinggian purata anak lelaki diplot. , dan pada paksi-x - nilai ketinggian purata bapa. Titik (kira-kira) terletak pada garis lurus dengan sudut kecondongan positif kurang daripada 45°; adalah penting bahawa regresi adalah linear.

Jadi, katakan kita mempunyai sampel daripada taburan bivariat sepasang pembolehubah rawak ( X, Y). Garis lurus dalam satah ( x, y) ialah analog terpilih bagi fungsi tersebut

Dalam contoh ini, regresi Y pada X ialah fungsi linear. Jika regresi Y pada X adalah berbeza daripada linear, maka persamaan yang diberikan adalah penghampiran linear bagi persamaan regresi sebenar.

Secara umum, regresi satu pembolehubah rawak pada yang lain tidak semestinya linear. Ia juga tidak perlu mengehadkan diri anda kepada beberapa pembolehubah rawak. Masalah regresi statistik melibatkan penentuan bentuk umum persamaan regresi, membina anggaran parameter yang tidak diketahui termasuk dalam persamaan regresi, dan menguji hipotesis statistik tentang regresi. Masalah-masalah ini ditangani dalam rangka kerja analisis regresi.

Contoh mudah regresi Y Oleh X ialah hubungan antara Y Dan X, yang dinyatakan oleh hubungan: Y=u(X)+ε, di mana u(x)=E(Y | X=x), dan pembolehubah rawak X dan ε adalah bebas. Perwakilan ini berguna apabila mereka bentuk eksperimen untuk mengkaji ketersambungan berfungsi y=u(x) antara kuantiti bukan rawak y Dan x. Dalam amalan, biasanya pekali regresi dalam Pers. y=u(x) tidak diketahui dan dianggarkan daripada data eksperimen.

Regresi linear (propaedeutik)

Mari kita bayangkan pergantungan itu y daripada x dalam bentuk model linear tertib pertama:

Kami akan menganggap bahawa nilai x ditentukan tanpa ralat, β 0 dan β 1 ialah parameter model, dan ε ialah ralat, taburannya mematuhi hukum normal dengan nilai min sifar dan sisihan malar σ 2. Nilai parameter β tidak diketahui terlebih dahulu dan mesti ditentukan daripada satu set nilai eksperimen ( x i, y i), i=1, …, n. Oleh itu kita boleh menulis:

di mana bermaksud nilai yang diramalkan oleh model y diberi x, b 0 dan b 1 - anggaran sampel parameter model, dan - nilai ralat penghampiran.

Kaedah kuasa dua terkecil memberikan formula berikut untuk mengira parameter model tertentu dan sisihan mereka:

di sini nilai purata ditentukan seperti biasa: , dan s e 2 menandakan baki regresi, yang merupakan anggaran varians σ 2 jika model itu betul.

Ralat piawai pekali regresi digunakan sama dengan ralat piawai min - untuk mencari selang keyakinan dan menguji hipotesis. Kami menggunakan, sebagai contoh, ujian Pelajar untuk menguji hipotesis bahawa pekali regresi adalah sama dengan sifar, iaitu, ia tidak penting untuk model. Statistik pelajar: t=b/s b. Jika kebarangkalian bagi nilai yang diperoleh dan n−2 darjah kebebasan agak kecil, contohnya,<0,05 - гипотеза отвергается. Напротив, если нет оснований отвергнуть гипотезу о равенстве нулю, скажем b 1 - ada sebab untuk memikirkan kewujudan regresi yang dikehendaki, sekurang-kurangnya dalam bentuk ini, atau tentang mengumpul pemerhatian tambahan. Jika sebutan bebas adalah sama dengan sifar b 0, maka garis lurus melalui asalan dan anggaran cerun adalah sama dengan

,

dan ralat piawainya

Biasanya nilai sebenar pekali regresi β 0 dan β 1 tidak diketahui. Hanya anggaran mereka yang diketahui b 0 dan b 1 . Dalam erti kata lain, garis regresi sebenar mungkin berfungsi secara berbeza daripada yang dibina daripada data sampel. Anda boleh mengira kawasan keyakinan untuk garis regresi. Untuk sebarang nilai x nilai yang sepadan y diedarkan secara normal. Min ialah nilai persamaan regresi. Ketidakpastian anggarannya dicirikan oleh ralat regresi standard:

Sekarang kita boleh mengira selang keyakinan 100(1−α/2) peratus untuk nilai persamaan regresi pada titik x:

,

di mana t(1−α/2, n−2) - t-nilai taburan Pelajar. Rajah menunjukkan garis regresi yang dibina menggunakan 10 titik (titik pepejal), serta kawasan keyakinan 95% garis regresi, yang dihadkan oleh garis putus-putus. Dengan kebarangkalian 95% kita boleh mengatakan bahawa garisan sebenar terletak di suatu tempat di dalam kawasan ini. Atau sebaliknya, jika kami mengumpul set data yang serupa (ditunjukkan oleh kalangan) dan membina garis regresi padanya (ditunjukkan dengan warna biru), maka dalam 95 kes daripada 100 garis lurus ini tidak akan meninggalkan kawasan keyakinan. (Klik pada imej untuk menggambarkan) Sila ambil perhatian bahawa beberapa mata berada di luar kawasan keyakinan. Ini adalah semula jadi, kerana kita bercakap tentang kawasan keyakinan garis regresi, dan bukan nilai itu sendiri. Penyebaran nilai terdiri daripada sebaran nilai di sekitar garis regresi dan ketidakpastian kedudukan garis ini sendiri, iaitu:

Di sini m- kekerapan pengukuran y diberi x. Dan selang keyakinan 100(1−α/2) peratus (selang ramalan) untuk min m nilai y akan:

.

Dalam rajah, kawasan keyakinan 95% ini di m=1 dihadkan oleh garis pepejal. 95% daripada semua kemungkinan nilai kuantiti jatuh ke dalam kawasan ini y dalam julat nilai yang dikaji x.

kesusasteraan

Pautan

  • (Bahasa Inggeris)

Yayasan Wikimedia. 2010.

Lihat apa "Regression (matematik)" dalam kamus lain:

    Wiktionary mempunyai rencana mengenai "regresi." Regresi (lat. regressio "pergerakan terbalik, kembali") mempunyai banyak makna ... Wikipedia

    Mengenai fungsi, lihat: Interpolan. Interpolasi, interpolasi dalam matematik pengiraan ialah kaedah mencari nilai perantaraan kuantiti daripada set diskret sedia ada nilai yang diketahui. Ramai daripada mereka yang menghadapi saintifik dan... ... Wikipedia

    Istilah ini mempunyai makna lain, lihat makna purata. Dalam matematik dan statistik, min aritmetik ialah salah satu ukuran kecenderungan memusat yang paling biasa, mewakili jumlah semua nilai yang diperhatikan dibahagikan dengan ... ... Wikipedia

    Tidak boleh dikelirukan dengan candlestick Jepun. Graf 1. Keputusan eksperimen Michelson Morley ... Wikipedia

    Untuk pemula · Komuniti · Portal · Anugerah · Projek · Permintaan · Geografi Penilaian · Sejarah · Masyarakat · Personaliti · Agama · Sukan · Teknologi · Sains · Seni · Falsafah ... Wikipedia

    REGRESI DAN ANALISIS KORELASI- ANALISIS REGRESI DAN KORELASIР.а. ialah pengiraan berdasarkan maklumat statistik untuk menganggar secara matematik purata hubungan antara pembolehubah bersandar dan beberapa pembolehubah atau pembolehubah tidak bersandar. Mudah... ... Ensiklopedia Perbankan dan Kewangan

    Jenis Logo Program pemodelan matematik Pembangun ... Wikipedia

  • Tutorial

Statistik baru-baru ini menerima sokongan PR yang kuat daripada disiplin yang lebih baru dan lebih bising - Pembelajaran Mesin Dan Data besar. Mereka yang ingin menaiki ombak ini perlu berkawan persamaan regresi. Adalah dinasihatkan bukan sahaja untuk mempelajari 2-3 helah dan lulus peperiksaan, tetapi juga untuk dapat menyelesaikan masalah dari kehidupan seharian: mencari hubungan antara pembolehubah, dan idealnya, dapat membezakan isyarat daripada bunyi.



Untuk tujuan ini kami akan menggunakan bahasa pengaturcaraan dan persekitaran pembangunan R, yang sangat sesuai untuk tugasan tersebut. Pada masa yang sama, mari kita semak perkara yang menentukan penilaian Habrapost berdasarkan statistik artikelnya sendiri.

Pengenalan kepada Analisis Regresi

Sekiranya terdapat korelasi antara pembolehubah y dan x, terdapat keperluan untuk menentukan hubungan fungsi antara dua kuantiti. Pergantungan nilai purata dipanggil regresi y pada x.


Asas analisis regresi ialah kaedah kuasa dua terkecil (LSM), mengikut mana persamaan regresi diambil sebagai fungsi sedemikian sehingga jumlah kuasa dua perbezaan adalah minimum.



Carl Gauss menemui, atau lebih tepat mencipta semula, MNC pada usia 18 tahun, tetapi hasilnya pertama kali diterbitkan oleh Legendre pada tahun 1805. Menurut data yang tidak disahkan, kaedah itu diketahui di China purba, dari mana ia berhijrah ke Jepun dan kemudiannya sampai ke Eropah. Orang Eropah tidak merahsiakan perkara ini dan berjaya memasukkannya ke dalam pengeluaran, menggunakannya untuk menemui trajektori planet kerdil Ceres pada tahun 1801.


Jenis fungsi, sebagai peraturan, ditentukan terlebih dahulu, dan nilai optimum parameter yang tidak diketahui dipilih menggunakan kuasa dua terkecil. Metrik untuk penyebaran nilai di sekitar regresi ialah varians.


  • k ialah bilangan pekali dalam sistem persamaan regresi.

Selalunya, model regresi linear digunakan, dan semua kebergantungan tak linear dikurangkan kepada bentuk linear dengan bantuan helah algebra dan pelbagai transformasi pembolehubah y dan x.

Regresi linear

Persamaan regresi linear boleh ditulis sebagai



Dalam bentuk matriks ini akan kelihatan seperti


  • y - pembolehubah bersandar;
  • x - pembolehubah bebas;
  • β - pekali yang perlu dicari menggunakan kuasa dua terkecil;
  • ε - ralat, ralat yang tidak dapat dijelaskan dan sisihan daripada pergantungan linear;


Pembolehubah rawak boleh ditafsirkan sebagai hasil tambah dua sebutan:



Satu lagi konsep utama ialah pekali korelasi R 2 .


Had Regresi Linear

Untuk menggunakan model regresi linear, beberapa andaian diperlukan mengenai taburan dan sifat pembolehubah.



Bagaimana untuk mengesan bahawa syarat di atas tidak dipenuhi? Pertama sekali, selalunya perkara ini boleh dilihat dengan mata kasar pada carta.


Keheterogenan penyebaran


Apabila varians bertambah dengan pembolehubah bebas, kita mempunyai graf berbentuk corong.



Dalam sesetengah kes, regresi tak linear juga boleh dilihat dengan jelas pada graf.


Namun begitu, terdapat cara formal yang agak ketat untuk menentukan sama ada syarat regresi linear dipenuhi atau dilanggar.




Dalam formula ini - pekali penentuan bersama antara dan faktor lain. Jika sekurang-kurangnya satu daripada VIF ialah > 10, adalah agak munasabah untuk mengandaikan kehadiran multikolineariti.


Mengapakah sangat penting bagi kita untuk mematuhi semua syarat di atas? Ini semua tentang Teorem Gauss-Markov, mengikut anggaran OLS yang tepat dan cekap hanya jika sekatan ini dipenuhi.

Bagaimana untuk mengatasi batasan ini

Melanggar satu atau lebih sekatan bukanlah hukuman mati.

  1. Ketaklinieran regresi boleh diatasi dengan mengubah pembolehubah, contohnya melalui fungsi logaritma asli ln.
  2. Dengan cara yang sama, adalah mungkin untuk menyelesaikan masalah varians heterogen, menggunakan ln, atau sqrt transformasi pembolehubah bersandar, atau menggunakan OLS berwajaran.
  3. Untuk menghapuskan masalah multikolineariti, kaedah menghapuskan pembolehubah digunakan. Intipatinya ialah pembolehubah penjelasan yang sangat berkorelasi dihapuskan daripada regresi, dan ia dinilai semula. Kriteria untuk memilih pembolehubah untuk dikecualikan ialah pekali korelasi. Terdapat satu lagi cara untuk menyelesaikan masalah ini, iaitu dengan menggantikan pembolehubah yang sememangnya multikolinear dengan gabungan linearnya. Senarai ini tidak lengkap, ada lagi regresi berperingkat dan kaedah lain.

Malangnya, tidak semua pelanggaran syarat dan kecacatan regresi linear boleh dihapuskan menggunakan logaritma asli. Jika ada autokorelasi gangguan sebagai contoh, adalah lebih baik untuk mengambil langkah ke belakang dan membina model baharu dan lebih baik.

Regresi linear kelebihan pada Habré

Jadi, bagasi teori yang mencukupi dan anda boleh membina model itu sendiri.
Saya telah lama ingin tahu tentang apa yang bergantung pada nombor hijau kecil itu, yang menunjukkan penarafan siaran di Habré. Setelah mengumpulkan semua statistik yang tersedia untuk siaran saya sendiri, saya memutuskan untuk menjalankannya melalui model regresi linear.


Memuatkan data daripada fail tsv.


>sejarah<- read.table("~/habr_hist.txt", header=TRUE) >sejarah
mata membaca comm faves fb bait 31 11937 29 19 13 10265 93 34122 71 98 74 14995 32 12153 12 147 17 22476 30 16867 30 16867 3 25 16867 3 25 46 18824 12 16571 44 149 35 9972 18 9651 16 86 49 11370 59 29610 82 29 333 10131 26 8605 25 65 11 13050 20 11266 14 48 8 9884 ...
  • mata- Penilaian artikel
  • membaca- Bilangan tontonan.
  • kom- Bilangan komen.
  • kegemaran- Ditambah pada penanda halaman.
  • fb- Dikongsi di rangkaian sosial (fb + vk).
  • bait- Panjang dalam bait.

Pemeriksaan multikolineariti.


> mata cor(sejarah) membaca comm faves fb bait mata 1.0000000 0.5641858 0.61489369 0.24104452 0.61696653 0.19502379 bacaan 0.5641858 407.5641808 407.5641808 18 9 0.57092464 0.24359202 comm 0.6148937 0.5478520 1.00000000 -0.01511207 0.51551030 0.08829029 0.08829029 40.08829029 faves 408829029 7 1.0 0000000 0.23659894 0.14583018 fb 0.6169665 0.5709246 0.51551030 0.23659894 1.00000000 20.5670 bait 0.1950238 0.2435920 0.08829029 0.14583018 0.06782256 1.00000000

Bertentangan dengan jangkaan saya pulangan terhebat bukan pada jumlah paparan artikel, tetapi daripada komen dan siaran di rangkaian sosial. Saya juga berpendapat bahawa bilangan pandangan dan ulasan akan mempunyai korelasi yang lebih kuat, tetapi hubungannya agak sederhana - tidak perlu mengecualikan mana-mana pembolehubah bebas.


Sekarang model sebenar itu sendiri, kita menggunakan fungsi lm.


regmodel<- lm(points ~., data = hist) summary(regmodel) Call: lm(formula = points ~ ., data = hist) Residuals: Min 1Q Median 3Q Max -26.920 -9.517 -0.559 7.276 52.851 Coefficients: Estimate Std. Error t value Pr(>|t|) (Pemintas) 1.029e+01 7.198e+00 1.430 0.1608 dibaca 8.832e-05 3.158e-04 0.280 0.7812 comm 1.356e-01 5.208e 5.218e 02 3.492e-02 0.785 0.4374 fb 1.162e-01 4.691e-02 2.476 0.0177 * bait 3.960e-04 4.219e-04 0.939 0.3537 --- Signif. kod: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Ralat piawai baki: 16.65 pada 39 darjah kebebasan Berbilang R-kuasa dua: 0.5384, R-kuasa dua terlaras: 0.4792 F- statistik: 9.099 pada 5 dan 39 DF, nilai p: 8.476e-06

Dalam baris pertama kami menetapkan parameter regresi linear. Titik garisan ~. mentakrifkan titik pembolehubah bersandar dan semua pembolehubah lain sebagai regressor. Anda boleh menentukan satu pembolehubah tidak bersandar melalui titik ~ bacaan, satu set pembolehubah - mata ~ bacaan + kom.


Sekarang mari kita beralih kepada mentafsir keputusan yang diperolehi.




Anda boleh cuba untuk menambah baik model itu dengan melicinkan faktor tak linear: ulasan dan siaran di rangkaian sosial. Mari gantikan nilai pembolehubah fb dan comm dengan kuasa mereka.


> hist$fb = hist$fb^(4/7) > hist$comm = hist$comm^(2/3)

Mari kita semak nilai parameter regresi linear.


>regmodel<- lm(points ~., data = hist) >ringkasan(model reg) Panggilan: lm(formula = mata ~ ., data = sejarah) Baki: Min 1Q Median 3Q Maks -22.972 -11.362 -0.603 7.977 49.549 Pekali: Anggaran Std. Ralat T Nilai PR (> | T |) (pintasan) 2.823E+00 7.305e+00 0.387 0.70123 Bacaan -6.278e-05 3.227E-04.195 0.84674 Comm 1.436E-01 2.436E-01 2.436E-38 ** .421e -02 0.805 0.42585 fb 1.601e+00 5.575e-01 2.872 0.00657 ** bait 2.688e-04 4.108e-04 0.654 0.51677 --- Signif. kod: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Ralat piawai baki: 16.21 pada 39 darjah kebebasan Berbilang R-kuasa dua: 0.5624, R-kuadrat terlaras: 0.5062 F- statistik: 10.02 pada 5 dan 39 DF, nilai p: 3.186e-06

Seperti yang dapat kita lihat, secara amnya, tindak balas model telah meningkat, parameter telah mengetatkan dan menjadi lebih sutera, statistik F telah meningkat, serta pekali penentuan terlaras.


Mari kita semak sama ada syarat untuk kebolehgunaan model regresi linear dipenuhi? Ujian Durbin-Watson menguji autokorelasi gangguan.


> dwtest(hist$points ~., data = hist) Data ujian Durbin-Watson: hist$points ~ . DW = 1.585, nilai-p = 0.07078 hipotesis alternatif: autokorelasi benar lebih besar daripada 0

Dan akhirnya, menyemak heterogeniti varians menggunakan ujian Breusch-Pagan.


> bptest(hist$points ~., data = hist) pelajar data ujian Breusch-Pagan: hist$points ~ . BP = 6.5315, df = 5, nilai-p = 0.2579

Akhirnya

Sudah tentu, model regresi linear kami untuk penilaian topik Habr bukanlah yang paling berjaya. Kami dapat menerangkan tidak lebih daripada separuh daripada kebolehubahan dalam data. Faktor perlu diperbetulkan untuk menyingkirkan penyebaran heterogen; autokorelasi juga tidak jelas. Secara umum, tidak ada data yang mencukupi untuk sebarang penilaian serius.


Tetapi sebaliknya, ini bagus. Jika tidak, mana-mana siaran troll yang ditulis secara tergesa-gesa di Habré akan menerima penarafan tinggi secara automatik, tetapi mujurlah ini tidak berlaku.

Bahan terpakai

  1. Kobzar A. I. Statistik matematik gunaan. - M.: Fizmatlit, 2006.
  2. William H. Green Analisis Ekonometrik

Tag: Tambah tag