Membina regresi berpasangan dalam excel. Kaedah matematik dalam psikologi

Dalam catatan sebelumnya, analisis sering memfokuskan pada pembolehubah berangka tunggal, seperti pulangan dana bersama, masa memuatkan halaman web atau penggunaan minuman ringan. Dalam nota ini dan seterusnya, kita akan melihat kaedah untuk meramalkan nilai pembolehubah berangka bergantung pada nilai satu atau lebih pembolehubah berangka lain.

Bahan tersebut akan diilustrasikan dengan contoh potong silang. Meramalkan jumlah jualan di kedai pakaian. Rangkaian kedai pakaian diskaun Sunflowers sentiasa berkembang selama 25 tahun. Bagaimanapun, syarikat pada masa ini tidak mempunyai pendekatan sistematik untuk memilih cawangan baharu. Tempat di mana syarikat akan dibuka kedai baru, ditentukan berdasarkan pertimbangan subjektif. Kriteria pemilihan adalah keadaan sewa yang menggalakkan atau idea pengurus tentang lokasi kedai yang ideal. Bayangkan anda adalah ketua jabatan projek dan perancangan khas. Anda telah ditugaskan untuk membangunkan pelan strategik untuk membuka kedai baharu. Pelan ini harus termasuk ramalan jualan tahunan untuk kedai yang baru dibuka. Anda percaya bahawa ruang runcit berkaitan secara langsung dengan hasil dan ingin memasukkan perkara ini ke dalam proses membuat keputusan anda. Bagaimanakah anda membangunkan model statistik untuk meramalkan jualan tahunan berdasarkan saiz kedai baharu?

Biasanya, analisis regresi digunakan untuk meramalkan nilai pembolehubah. Matlamatnya adalah untuk membangunkan model statistik yang membolehkan seseorang meramalkan nilai pembolehubah bersandar, atau tindak balas, daripada nilai sekurang-kurangnya satu pembolehubah bebas atau penjelasan. Dalam siaran ini kita akan melihat regresi linear mudah - kaedah statistik, membolehkan untuk meramalkan nilai pembolehubah bersandar Y dengan nilai pembolehubah bebas X. Nota seterusnya akan menerangkan model regresi berganda yang direka untuk meramalkan nilai pembolehubah bebas Y berdasarkan nilai beberapa pembolehubah bersandar ( X 1, X 2, …, X k).

Muat turun nota dalam atau format, contoh dalam format

Jenis model regresi

di mana ρ 1 – pekali autokorelasi; Jika ρ 1 = 0 (tiada autokorelasi), D≈ 2; Jika ρ 1 ≈ 1 (autokorelasi positif), D≈ 0; Jika ρ 1 = -1 (autokorelasi negatif), D ≈ 4.

Dalam amalan, penggunaan kriteria Durbin-Watson adalah berdasarkan perbandingan nilai D dengan nilai teori kritikal d L Dan d U Untuk nombor yang diberi pemerhatian n, bilangan pembolehubah bebas model k(untuk mudah regresi linear k= 1) dan aras keertian α. Jika D< d L , hipotesis tentang kebebasan sisihan rawak ditolak (oleh itu, terdapat autokorelasi positif); Jika D>dU, hipotesis tidak ditolak (iaitu, tiada autokorelasi); Jika d L< D < d U , tiada alasan yang mencukupi untuk membuat keputusan. Apabila nilai yang dikira D melebihi 2, kemudian dengan d L Dan d U Ia bukan pekali itu sendiri yang dibandingkan D, dan ungkapan (4 – D).

Untuk mengira statistik Durbin-Watson dalam Excel, mari kita beralih ke jadual bawah dalam Rajah. 14 Pengeluaran baki. Pengangka dalam ungkapan (10) dikira menggunakan fungsi =SUMMAR(array1;array2), dan penyebut =SUMMAR(array) (Rajah 16).

nasi. 16. Formula untuk mengira statistik Durbin-Watson

Dalam contoh kita D= 0.883. Persoalan utama ialah: apakah nilai statistik Durbin-Watson yang harus dianggap cukup kecil untuk membuat kesimpulan bahawa autokorelasi positif wujud? Adalah perlu untuk mengaitkan nilai D dengan nilai kritikal ( d L Dan d U), bergantung kepada bilangan pemerhatian n dan aras keertian α (Rajah 17).

nasi. 17. Nilai kritikal statistik Durbin-Watson (serpihan jadual)

Oleh itu, dalam masalah jumlah jualan di kedai menghantar barang ke rumah, terdapat satu pembolehubah bebas ( k= 1), 15 pemerhatian ( n= 15) dan aras keertian α = 0.05. Oleh itu, d L= 1.08 dan dU= 1.36. Kerana ia D = 0,883 < d L= 1.08, terdapat autokorelasi positif antara baki, kaedah kuasa dua terkecil tidak boleh digunakan.

Menguji Hipotesis tentang Kecerunan dan Pekali Korelasi

Di atas, regresi digunakan semata-mata untuk peramalan. Untuk menentukan pekali regresi dan meramalkan nilai pembolehubah Y untuk nilai pembolehubah yang diberikan X Kaedah kuasa dua terkecil digunakan. Di samping itu, kami meneliti ralat purata kuasa dua bagi anggaran dan pekali korelasi bercampur. Jika analisis sisa mengesahkan bahawa syarat kebolehgunaan kaedah kuasa dua terkecil tidak dilanggar, dan model regresi linear mudah adalah mencukupi, berdasarkan data sampel, boleh dikatakan bahawa terdapat perbezaan antara pembolehubah dalam populasi. pergantungan linear.

Permohonant -kriteria untuk cerun. Dengan menguji sama ada cerun populasi β 1 sama dengan sifar, anda boleh menentukan sama ada terdapat hubungan yang signifikan secara statistik antara pembolehubah X Dan Y. Jika hipotesis ini ditolak, boleh dikatakan bahawa antara pembolehubah X Dan Y terdapat hubungan linear. Hipotesis nol dan alternatif dirumuskan seperti berikut: H 0: β 1 = 0 (tiada pergantungan linear), H1: β 1 ≠ 0 (terdapat pergantungan linear). A-priory t-statistik adalah sama dengan perbezaan antara cerun sampel dan nilai hipotesis cerun populasi, dibahagikan dengan ralat purata kuasa dua punca anggaran cerun:

(11) t = (b 1 β 1 ) / S b 1

di mana b 1 – cerun regresi langsung pada data sampel, β1 – cerun hipotesis populasi langsung, , dan statistik ujian t Ia ada t-edaran dengan n – 2 darjah kebebasan.

Mari kita semak sama ada terdapat hubungan yang signifikan secara statistik antara saiz kedai dan jualan tahunan pada α = 0.05. t-kriteria dipaparkan bersama parameter lain apabila digunakan Pakej analisis(pilihan Regresi). Keputusan lengkap Pakej Analisis ditunjukkan dalam Rajah. 4, serpihan yang berkaitan dengan t-statistik - dalam Rajah. 18.

nasi. 18. Keputusan permohonan t

Sejak bilangan kedai n= 14 (lihat Rajah 3), nilai kritikal t-statistik pada aras keertian α = 0.05 boleh didapati menggunakan formula: tL=STUDENT.ARV(0.025,12) = –2.1788, di mana 0.025 ialah separuh aras keertian, dan 12 = n – 2; t U=PELAJAR.OBR(0.975,12) = +2.1788.

Kerana ia t-statistik = 10.64 > t U= 2.1788 (Rajah 19), hipotesis nol H 0 ditolak. Di sebelah sana, R-nilai untuk X= 10.6411, dikira dengan formula =1-STUDENT.DIST(D3,12,TRUE), adalah lebih kurang sama dengan sifar, jadi hipotesis H 0 sekali lagi ditolak. Hakikat bahawa R-nilai hampir sifar bermakna jika tiada hubungan linear sebenar antara saiz kedai dan jualan tahunan, hampir mustahil untuk mengesannya menggunakan regresi linear. Oleh itu, terdapat hubungan linear yang signifikan secara statistik antara purata jualan kedai tahunan dan saiz kedai.

nasi. 19. Menguji hipotesis tentang kecerunan penduduk pada aras keertian 0.05 dan 12 darjah kebebasan

PermohonanF -kriteria untuk cerun. Pendekatan alternatif untuk menguji hipotesis tentang kecerunan regresi linear mudah adalah dengan menggunakan F-kriteria. Mari kita ingat semula F-ujian digunakan untuk menguji hubungan antara dua varians (untuk butiran lanjut, lihat). Apabila menguji hipotesis cerun, ukuran ralat rawak ialah varians ralat (jumlah ralat kuasa dua dibahagikan dengan bilangan darjah kebebasan), jadi F-kriteria menggunakan nisbah varians yang dijelaskan oleh regresi (iaitu nilai SSR, dibahagikan dengan bilangan pembolehubah bebas k), kepada varians ralat ( MSE = S YX 2 ).

A-priory F-statistik adalah sama dengan purata kuasa dua regresi (MSR) dibahagikan dengan varians ralat (MSE): F = MSR/ MSE, Di mana MSR=SSR / k, MSE =SSE/(n– k – 1), k– bilangan pembolehubah bebas dalam model regresi. Statistik ujian F Ia ada F-edaran dengan k Dan n– k – 1 darjah kebebasan.

Untuk tahap keertian α tertentu, peraturan keputusan dirumuskan seperti berikut: jika F>FU, hipotesis nol ditolak; jika tidak ia tidak ditolak. Keputusan dibentangkan dalam borang jadual pangsi analisis varians ditunjukkan dalam Rajah. 20.

nasi. 20. Analisis jadual varians untuk menguji hipotesis tentang kepentingan statistik pekali regresi

Begitu juga t-kriteria F-kriteria dipaparkan dalam jadual apabila digunakan Pakej analisis(pilihan Regresi). Hasil kerja penuh Pakej analisis ditunjukkan dalam Rajah. 4, serpihan yang berkaitan dengan F-statistik – dalam Rajah. 21.

nasi. 21. Keputusan permohonan F-kriteria yang diperolehi menggunakan Pakej Analisis Excel

Statistik F ialah 113.23, dan R-nilai hampir sifar (sel KepentinganF). Jika aras keertian α ialah 0.05, tentukan nilai kritikal F-taburan dengan satu dan 12 darjah kebebasan boleh diperolehi menggunakan formula F U=F.OBR(1-0.05;1;12) = 4.7472 (Rajah 22). Kerana ia F = 113,23 > F U= 4.7472, dan R-nilai hampir 0< 0,05, нулевая гипотеза H 0 ditolak, iaitu. Saiz kedai berkait rapat dengan jualan tahunannya.

nasi. 22. Menguji hipotesis cerun populasi pada aras keertian 0.05 dengan satu dan 12 darjah kebebasan

Selang keyakinan yang mengandungi cerun β 1 . Untuk menguji hipotesis bahawa terdapat hubungan linear antara pembolehubah, anda boleh membina selang keyakinan yang mengandungi cerun β 1 dan mengesahkan bahawa nilai hipotetikal β 1 = 0 tergolong dalam selang ini. Pusat selang keyakinan yang mengandungi cerun β 1 ialah cerun sampel b 1 , dan sempadannya ialah kuantiti b 1 ±tn –2 S b 1

Seperti yang ditunjukkan dalam Rajah. 18, b 1 = +1,670, n = 14, S b 1 = 0,157. t 12 =PELAJAR.ARV(0.975,12) = 2.1788. Oleh itu, b 1 ±tn –2 S b 1 = +1.670 ± 2.1788 * 0.157 = +1.670 ± 0.342, atau + 1.328 ≤ β 1 ≤ +2.012. Oleh itu, terdapat kebarangkalian 0.95 bahawa cerun populasi terletak di antara +1.328 dan +2.012 (iaitu, $1,328,000 hingga $2,012,000). Oleh kerana nilai ini lebih besar daripada sifar, terdapat hubungan linear yang signifikan secara statistik antara jualan tahunan dan kawasan kedai. Jika selang keyakinan mengandungi sifar, tidak akan ada hubungan antara pembolehubah. Di samping itu, selang keyakinan bermakna setiap peningkatan dalam kawasan stor sebanyak 1,000 kaki persegi. kaki menghasilkan peningkatan dalam purata volum jualan antara $1,328,000 dan $2,012,000.

Penggunaant -kriteria untuk pekali korelasi. pekali korelasi diperkenalkan r, yang merupakan ukuran hubungan antara dua pembolehubah berangka. Ia boleh digunakan untuk menentukan sama ada terdapat perbezaan statistik antara dua pembolehubah. sambungan yang bermakna. Mari kita nyatakan pekali korelasi antara populasi umum kedua-duanya simbol pembolehubahρ. Hipotesis nol dan alternatif dirumuskan seperti berikut: H 0: ρ = 0 (tiada korelasi), H 1: ρ ≠ 0 (ada korelasi). Menyemak kewujudan korelasi:

di mana r = + , Jika b 1 > 0, r = – , Jika b 1 < 0. Тестовая статистика t Ia ada t-edaran dengan n – 2 darjah kebebasan.

Dalam masalah mengenai rangkaian kedai Bunga Matahari r 2= 0.904, a b 1- +1.670 (lihat Rajah 4). Kerana ia b 1> 0, pekali korelasi antara jualan tahunan dan saiz kedai ialah r= +√0.904 = +0.951. Mari kita uji hipotesis nol bahawa tiada korelasi antara pembolehubah ini menggunakan t-statistik:

Pada aras keertian α = 0.05, hipotesis nol harus ditolak kerana t= 10.64 > 2.1788. Oleh itu, boleh dikatakan bahawa terdapat hubungan yang signifikan secara statistik antara jualan tahunan dan saiz kedai.

Apabila membincangkan inferens mengenai kecerunan populasi, selang keyakinan dan ujian hipotesis digunakan secara bergantian. Walau bagaimanapun, mengira selang keyakinan yang mengandungi pekali korelasi ternyata lebih sukar, kerana jenis taburan pensampelan statistik r bergantung kepada pekali korelasi sebenar.

Anggaran jangkaan matematik dan ramalan nilai individu

Bahagian ini membincangkan kaedah untuk menganggar jangkaan matematik sesuatu tindak balas Y dan ramalan nilai individu Y untuk nilai pembolehubah yang diberikan X.

Membina selang keyakinan. Dalam contoh 2 (lihat bahagian di atas Kaedah kuasa dua terkecil) persamaan regresi membolehkan kami meramalkan nilai pembolehubah Y X. Dalam masalah memilih tempat untuk tempat jualan purata volum jualan tahunan di kedai dengan keluasan 4000 kaki persegi. kaki adalah bersamaan dengan 7.644 juta dolar.Walau bagaimanapun, anggaran jangkaan matematik penduduk umum ini adalah tepat. Untuk menganggar jangkaan matematik populasi, konsep selang keyakinan telah dicadangkan. Begitu juga, kita boleh memperkenalkan konsep selang keyakinan untuk jangkaan matematik bagi tindak balas di tetapkan nilai pembolehubah X:

di mana , = b 0 + b 1 X i– nilai ramalan adalah berubah-ubah Y di X = X i, S YX– punca ralat purata kuasa dua, n- saiz sampel, Xi- nilai pembolehubah yang ditentukan X, µ Y|X = Xi– jangkaan matematik pembolehubah Y di X = Xi, SSX =

Analisis formula (13) menunjukkan bahawa lebar selang keyakinan bergantung kepada beberapa faktor. Pada tahap kepentingan tertentu, peningkatan dalam amplitud turun naik di sekitar garis regresi, diukur menggunakan ralat purata kuasa dua punca, membawa kepada peningkatan lebar selang. Sebaliknya, seperti yang dijangkakan, peningkatan dalam saiz sampel disertai dengan penyempitan selang. Di samping itu, lebar selang berubah bergantung pada nilai Xi. Jika nilai pembolehubah Y diramalkan untuk kuantiti X, hampir dengan nilai purata , selang keyakinan ternyata lebih sempit berbanding semasa meramalkan tindak balas untuk nilai yang jauh daripada purata.

Katakan apabila memilih lokasi kedai, kami ingin membina selang keyakinan 95% untuk purata jualan tahunan semua kedai yang mempunyai keluasan 4000 meter persegi. kaki:

Oleh itu, purata volum jualan tahunan di semua kedai dengan keluasan 4,000 kaki persegi. kaki, dengan kebarangkalian 95% terletak dalam julat dari 6.971 hingga 8.317 juta dolar.

Kira selang keyakinan untuk nilai yang diramalkan. Sebagai tambahan kepada selang keyakinan untuk jangkaan matematik tindak balas untuk nilai tertentu pembolehubah X, selalunya perlu mengetahui selang keyakinan untuk nilai yang diramalkan. Walaupun formula untuk mengira selang keyakinan sedemikian hampir sama dengan formula (13), selang ini mengandungi nilai ramalan dan bukannya anggaran parameter. Selang untuk tindak balas yang diramalkan YX = Xi untuk nilai pembolehubah tertentu Xi ditentukan oleh formula:

Katakan, apabila memilih lokasi untuk kedai runcit, kami ingin membina selang keyakinan 95% untuk jumlah jualan tahunan yang diramalkan untuk kedai yang keluasannya 4000 meter persegi. kaki:

Oleh itu, jumlah jualan tahunan yang diramalkan untuk kedai dengan keluasan 4000 kaki persegi. kaki, dengan kebarangkalian 95% terletak dalam julat dari 5.433 hingga 9.854 juta dolar. Seperti yang kita dapat lihat, selang keyakinan untuk nilai tindak balas yang diramalkan adalah jauh lebih luas daripada selang keyakinan untuk jangkaan matematiknya. Ini kerana kebolehubahan dalam meramalkan nilai individu adalah lebih besar daripada dalam menganggar jangkaan matematik.

Perangkap dan isu etika yang berkaitan dengan penggunaan regresi

Kesukaran yang berkaitan dengan analisis regresi:

  • Mengabaikan syarat kebolehgunaan kaedah kuasa dua terkecil.
  • Penilaian yang salah tentang syarat untuk kebolehgunaan kaedah kuasa dua terkecil.
  • Pilihan kaedah alternatif yang salah apabila syarat kebolehgunaan kaedah kuasa dua terkecil dilanggar.
  • Permohonan analisis regresi tanpa pengetahuan mendalam tentang subjek penyelidikan.
  • Mengekstrapolasi regresi di luar julat pembolehubah penjelasan.
  • Kekeliruan antara hubungan statistik dan sebab.

Penggunaan meluas hamparan Dan perisian untuk pengiraan statistik menghapuskan masalah pengiraan yang menghalang penggunaan analisis regresi. Walau bagaimanapun, ini membawa kepada fakta bahawa analisis regresi digunakan oleh pengguna yang tidak mempunyai kelayakan dan pengetahuan yang mencukupi. Bagaimanakah pengguna boleh mengetahui kaedah alternatif jika ramai daripada mereka tidak tahu sama sekali tentang syarat kebolehgunaan kaedah kuasa dua terkecil dan tidak tahu cara menyemak pelaksanaannya?

Pengkaji tidak boleh terbawa-bawa dengan nombor yang berdetak - mengira anjakan, cerun dan pekali korelasi bercampur. Dia perlukan ilmu yang lebih mendalam. Mari kita gambarkan ini dengan contoh klasik yang diambil dari buku teks. Anscombe menunjukkan bahawa keempat-empat set data ditunjukkan dalam Rajah. 23, mempunyai parameter regresi yang sama (Rajah 24).

nasi. 23. Empat set data buatan

nasi. 24. Analisis regresi empat set data buatan; selesai dengan Pakej analisis(klik pada gambar untuk besarkan imej)

Jadi, dari sudut pandangan analisis regresi, semua set data ini adalah sama sepenuhnya. Jika analisis telah berakhir di sana, kita akan kehilangan banyak informasi berguna. Ini dibuktikan oleh plot serakan (Rajah 25) dan plot baki (Rajah 26) yang dibina untuk set data ini.

nasi. 25. Plot taburan untuk empat set data

Plot serakan dan plot baki menunjukkan bahawa data ini berbeza antara satu sama lain. Satu-satunya set yang diedarkan sepanjang garis lurus ialah set A. Plot baki yang dikira daripada set A tidak mempunyai sebarang corak. Ini tidak boleh dikatakan tentang set B, C dan D. Plot serakan yang diplot untuk set B menunjukkan corak kuadratik yang jelas. Kesimpulan ini disahkan oleh plot sisa, yang mempunyai bentuk parabola. Plot serakan dan plot baki menunjukkan set data B mengandungi outlier. Dalam keadaan ini, adalah perlu untuk mengecualikan outlier daripada set data dan mengulangi analisis. Kaedah untuk mengesan dan menghapuskan outlier dalam pemerhatian dipanggil analisis pengaruh. Selepas menghapuskan outlier, hasil anggaran semula model mungkin berbeza sama sekali. Plot serakan yang diplotkan daripada data daripada set G menggambarkan situasi luar biasa di mana model empirikal amat bergantung pada tindak balas individu ( X 8 = 19, Y 8 = 12.5). Model regresi sedemikian mesti dikira terutamanya dengan teliti. Jadi, plot taburan dan sisa adalah sangat alat yang diperlukan analisis regresi dan harus menjadi sebahagian daripadanya. Tanpa mereka, analisis regresi tidak boleh dipercayai.

nasi. 26. Plot baki untuk empat set data

Bagaimana untuk mengelakkan perangkap dalam analisis regresi:

  • Analisis kemungkinan hubungan antara pembolehubah X Dan Y sentiasa bermula dengan melukis plot berselerak.
  • Sebelum mentafsir keputusan analisis regresi, semak syarat untuk kebolehgunaannya.
  • Plotkan baki berbanding pembolehubah bebas. Ini akan membolehkan untuk menentukan sejauh mana model empirikal sepadan dengan keputusan pemerhatian dan untuk mengesan pelanggaran ketekalan varians.
  • Untuk menyemak andaian tentang taburan normal ralat, gunakan histogram, plot batang dan daun, plot kotak dan plot taburan normal.
  • Jika syarat untuk kebolehgunaan kaedah kuasa dua terkecil tidak dipenuhi, gunakan kaedah alternatif(contohnya, model regresi kuadratik atau berbilang).
  • Jika syarat untuk kebolehgunaan kaedah kuasa dua terkecil dipenuhi, adalah perlu untuk menguji hipotesis tentang kepentingan statistik bagi pekali regresi dan membina selang keyakinan yang mengandungi jangkaan matematik dan nilai tindak balas yang diramalkan.
  • Elakkan meramalkan nilai pembolehubah bersandar di luar julat pembolehubah tidak bersandar.
  • Perlu diingat bahawa kebergantungan statistik tidak selalu sebab-akibat. Ingat bahawa korelasi antara pembolehubah tidak bermakna terdapat hubungan sebab-akibat antara mereka.

Ringkasan. Seperti yang ditunjukkan dalam rajah blok (Rajah 27), nota itu menerangkan model regresi linear mudah, syarat untuk kebolehgunaannya, dan cara menguji keadaan ini. Dipertimbangkan t-kriteria untuk menguji kepentingan statistik cerun regresi. Model regresi digunakan untuk meramalkan nilai pembolehubah bersandar. Satu contoh dianggap berkaitan dengan pilihan lokasi untuk kedai runcit, di mana pergantungan volum jualan tahunan pada kawasan kedai diperiksa. Maklumat yang diperoleh membolehkan anda memilih lokasi untuk kedai dengan lebih tepat dan meramalkan volum jualan tahunannya. Nota berikut akan meneruskan perbincangan analisis regresi dan juga melihat model regresi berganda.

nasi. 27. Skim struktur nota

Bahan daripada buku Levin et al. Statistik untuk Pengurus digunakan. – M.: Williams, 2004. – hlm. 792–872

Jika pembolehubah bersandar adalah kategori, regresi logistik mesti digunakan.

Pakej MS Excel membolehkan anda melakukan kebanyakan kerja dengan cepat apabila membina persamaan regresi linear. Adalah penting untuk memahami cara mentafsir keputusan yang diperolehi. Untuk membina model regresi, anda mesti memilih Tools\Data Analysis\Regression (dalam Excel 2007 mod ini berada dalam blok Data/Data Analysis/Regression). Kemudian salin keputusan ke dalam blok untuk analisis.

Data awal:

Keputusan analisis

Sertakan dalam laporan
Pengiraan parameter persamaan regresi
Bahan teori
Persamaan regresi pada skala piawai
Pekali Korelasi Berbilang (Indeks Korelasi Berbilang)
Pekali keanjalan separa
Penilaian perbandingan pengaruh faktor yang dianalisis pada ciri yang terhasil (d - pekali penentuan berasingan)

Menyemak kualiti persamaan regresi yang dibina
Kepentingan pekali regresi b i (statistik-t. Ujian pelajar)
Kepentingan persamaan secara keseluruhan (F-statistik. Ujian Fisher). Pekali penentuan
Ujian-F separa

Tahap keertian 0.005 0.01 0.025 0.05 0.1 0.25 0.4

Topik: ANALISIS KORELASI DAN REGRESI DALAMEXCEL

KERJA MAKMAL No 1

1. PENENTUAN KOEFISIEN KORELASI BERPASANGAN DALAM PROGRAMEXCEL

Korelasi- ini adalah hubungan kebarangkalian yang tidak lengkap antara penunjuk, yang menunjukkan dirinya hanya dalam jisim pemerhatian.

Kolerasi berpasangan- ini ialah hubungan antara dua penunjuk, satu daripadanya adalah faktorial dan satu lagi adalah paduan.

Kolerasi berbilang timbul daripada interaksi beberapa faktor dengan penunjuk yang berkesan.

Syarat yang diperlukan untuk menggunakan analisis korelasi:

1. Kehadiran bilangan pemerhatian yang cukup besar tentang nilai faktor yang dikaji dan penunjuk prestasi.

2. Faktor-faktor yang dikaji mesti diukur secara kuantitatif dan dicerminkan dalam sumber maklumat tertentu.

Penggunaan analisis korelasi membolehkan kita menyelesaikan masalah berikut:

1. Tentukan perubahan dalam penunjuk prestasi di bawah pengaruh satu atau lebih faktor.

2. Wujudkan tahap pergantungan relatif penunjuk prestasi pada setiap faktor.

Latihan 1.

Data tersedia untuk 20 pegangan pertanian. Cari pekali korelasi antara hasil tanaman bijirin dan kualiti tanah dan menilai kepentingannya. Data ditunjukkan dalam jadual.

Jadual. Kebergantungan hasil bijirin pada kualiti tanah

Nombor ladang

Kualiti tanah, skor x

Produktiviti, c/ha

    Untuk mencari pekali korelasi, gunakan fungsi CORREL.

    Kepentingan pekali korelasi disemak menggunakan kriteria Ujian pelajar.

Untuk contoh yang sedang dipertimbangkan, r=0.99, n=18.

Untuk mencari kuantiti taburan Pelajar, gunakan fungsi STUDISCOVER dengan hujah berikut: Kebarangkalian –0,05, Darjah kebebasan –18.

Dengan membandingkan nilai statistik-t dengan kuantiti taburan Pelajar, buat kesimpulan tentang kepentingan pekali korelasi pasangan. Jika nilai pengiraan statistik-t lebih besar daripada kuantiti taburan Pelajar, maka nilai pekali korelasi adalah signifikan.

MEMBINA MODEL REGRESI PERHUBUNGAN ANTARA DUA KUANTITI

Tugasan 2.

Mengikut tugasan 1:

1) membina persamaan regresi (model linear), yang mencirikan hubungan linear antara kualiti tanah dan produktiviti;

2). semak kecukupan model yang dihasilkan.

1 - cara ke.

1. Pada helaian Excel, pilih tatasusunan sel bebas yang terdiri daripada lima baris dan dua lajur.

2. Panggil fungsi LINEST.

3. Nyatakan argumen berikut untuk fungsi: Izv_value_y Produktiviti, c/ha;Izv_value_x- lajur nilai penunjuk Kualiti tanah, skor; Malar –1, Stat – 1(membolehkan anda mengira penunjuk yang digunakan untuk menyemak kecukupan model. Jika Statistik – 0, maka penunjuk tersebut tidak akan dikira.

4. Tekan kombinasi kekunci Ctrl- Beralih- Masuk.

Sel yang dipilih memaparkan pekali model, serta penunjuk yang membolehkan anda menyemak model untuk kecukupan (Jadual 2).

Jadual 2

a 1

a 0

S e1

S e0

R 2

S e

Q R

Q e

a 1 , a 0 – pekali model;

S e 1 S e 0 – ralat piawai pekali. Lebih tepat model, lebih kecil nilai ini.

R 2 – pekali penentuan. Lebih besar ia, lebih tepat model.

F– statistik untuk menguji kepentingan model.

n- k-1 – bilangan darjah kebebasan (saiz n-sampel, k-bilangan pembolehubah input; dalam contoh ini n=20, k=1)

Q R– jumlah kuasa dua disebabkan oleh regresi;

Q e– jumlah ralat kuasa dua.

5. Untuk menyemak kecukupan model, cari kuantiti taburan Fisher F f . menggunakan fungsi tersebut FTEMUKAN. Untuk melakukan ini, masukkan fungsi dalam mana-mana sel bebas FTEMUKAN dengan dalil-dalil berikut: Kebarangkalian – 0,05, Darjah kebebasan _1–1, Darjah kebebasan _2–18. Jika F> F f , maka model itu memadai dengan data asal

6. Semak kecukupan model yang dibina menggunakan aras keertian terkira (P). Masukkan fungsi FDIST dengan dalil-dalil berikut: X– nilai statistik F, Darjah_kebebasan_1–1, Darjah_kebebasan_2– 18. Jika aras keertian yang dikira P<α =0,05, то модель адекватна исходным данным.

kaedah ke-2.

Penentuan pekali model dengan mendapatkan penunjuk untuk mengesahkan kecukupannya dan kepentingan pekali.

    Pilih pasukan Perkhidmatan/Analisis Data/Regresi. Dalam set kotak dialog: Selang inputY– nilai penunjuk Produktiviti, c/ha,Selang inputX– nilai penunjuk Kualiti tanah, skor.

    Kotak semak Tag. Di kawasan Pilihan Output pilih butang radio Selang keluaran dan tunjukkan sel dari mana keputusan akan bermula. Untuk mendapatkan keputusan, klik OK.

Tafsiran keputusan.

Pekali model yang diperlukan adalah dalam lajur Kemungkinan:

Untuk contoh ini, persamaan model ialah:

Y=2.53+0.5X

Dalam contoh ini, dengan peningkatan kualiti tanah sebanyak satu mata, hasil tanaman bijirin meningkat secara purata 0.5 c/ha.

Menyemak kecukupan model dilakukan pada aras keertian terkira P yang ditunjukkan dalam lajur KepentinganF. Jika aras keertian yang dikira adalah kurang daripada aras keertian yang ditentukan α = 0.05, maka model tersebut adalah memadai.

Ujian untuk kepentingan statistik pekali model dilakukan menggunakan aras keertian terkira P yang ditunjukkan dalam lajur P-maksudnya. Jika aras keertian yang dikira adalah kurang daripada aras keertian yang ditentukan α = 0.05, maka pekali model yang sepadan adalah signifikan secara statistik.

PelbagaiRpekali korelasi. Semakin hampir nilainya kepada 1, semakin rapat hubungan antara penunjuk yang dikaji. Untuk contoh ini, R= 0.99. Ini membolehkan kita membuat kesimpulan bahawa kualiti tanah adalah salah satu faktor utama yang bergantung kepada hasil tanaman bijirin.

R-persegipekali penentuan. Ia diperoleh dengan menduakan pekali korelasi - R 2 =0.98. Ia menunjukkan bahawa 98% hasil bijirin bergantung kepada kualiti tanah, dengan faktor lain menyumbang 0.02%.

kaedah ke-3. KAEDAH GRAFIK MEMBINA MODEL.

Bina sendiri plot taburan yang menunjukkan hubungan antara hasil dan kualiti tanah.

Dapatkan model linear pergantungan hasil bijirin pada kualiti tanah.

ANALISIS KORELASI DAN REGRESI DALAMCIK EXCEL

1. Cipta fail data sumber dalam MS Excel (contohnya, jadual 2)

2. Pembinaan bidang korelasi

Untuk membina medan korelasi dalam baris arahan, pilih menu Sisipkan/Rajah. Dalam kotak dialog yang muncul, pilih jenis carta: Spot; pandangan: Plot bersepah, membolehkan anda membandingkan pasangan nilai (Gamb. 22).

Rajah 22 – Memilih jenis carta


Rajah 23– Paparan tetingkap apabila memilih julat dan baris
Rajah 25 – Pandangan tetingkap, langkah 4

2. Dalam menu konteks, pilih arahan Tambah garis arah aliran.

3. Dalam kotak dialog yang muncul, pilih jenis graf (linear dalam contoh kami) dan parameter persamaan, seperti yang ditunjukkan dalam Rajah 26.


Klik OK. Hasilnya ditunjukkan dalam Rajah 27.

Rajah 27 – Bidang korelasi pergantungan produktiviti buruh pada nisbah modal-buruh

Begitu juga, kami membina medan korelasi untuk pergantungan produktiviti buruh pada nisbah anjakan peralatan. (Rajah 28).


Rajah 28 – Bidang korelasi produktiviti buruh

pada kadar penggantian peralatan

3. Pembinaan matriks korelasi.

Untuk membina matriks korelasi dalam menu Perkhidmatan pilih Analisis data.

Menggunakan alat analisis data Regresi, sebagai tambahan kepada keputusan statistik regresi, analisis varians dan selang keyakinan, anda boleh mendapatkan baki dan graf padanan garis regresi, baki dan kebarangkalian normal. Untuk melakukan ini, anda perlu menyemak akses kepada pakej analisis. Dalam menu utama, pilih Perkhidmatan/Tambahan. Semak kotak Pakej analisis(Rajah 29)


Rajah 30 – Kotak dialog Analisis data

Selepas mengklik OK, dalam kotak dialog yang muncul, nyatakan selang input (dalam contoh kami A2:D26), kumpulan (dalam kes kami mengikut lajur) dan parameter output, seperti yang ditunjukkan dalam Rajah 31.


Rajah 31 – Kotak dialog Korelasi

Keputusan pengiraan dibentangkan dalam Jadual 4.

Jadual 4 – Matriks korelasi

Lajur 1

Lajur 2

Lajur 3

Lajur 1

Lajur 2

Lajur 3

ANALISIS REGRESI FAKTOR TUNGGAL

MENGGUNAKAN ALAT REGRESI

Untuk menjalankan analisis regresi pergantungan produktiviti buruh pada nisbah modal-buruh dalam menu Perkhidmatan pilih Analisis data dan nyatakan alat analisis Regresi(Rajah 32).


Rajah 33 – Kotak dialog Regresi

Analisis regresi dan korelasi adalah kaedah penyelidikan statistik. Ini adalah cara yang paling biasa untuk menunjukkan pergantungan parameter pada satu atau lebih pembolehubah bebas.

Di bawah, menggunakan contoh praktikal khusus, kami akan mempertimbangkan dua analisis yang sangat popular ini di kalangan ahli ekonomi. Kami juga akan memberikan contoh mendapatkan hasil apabila menggabungkannya.

Analisis Regresi dalam Excel

Menunjukkan pengaruh beberapa nilai (bebas, bebas) ke atas pembolehubah bersandar. Sebagai contoh, bagaimanakah bilangan penduduk yang aktif dari segi ekonomi bergantung kepada bilangan perusahaan, gaji dan parameter lain. Atau: bagaimanakah pelaburan asing, harga tenaga, dsb. mempengaruhi tahap KDNK.

Hasil analisis membolehkan anda menyerlahkan keutamaan. Dan berdasarkan faktor utama, ramalkan, rancang pembangunan bidang keutamaan, dan buat keputusan pengurusan.

Regresi berlaku:

  • linear (y = a + bx);
  • parabola (y = a + bx + cx 2);
  • eksponen (y = a * exp(bx));
  • kuasa (y = a*x^b);
  • hiperbolik (y = b/x + a);
  • logaritma (y = b * 1n(x) + a);
  • eksponen (y = a * b^x).

Mari lihat contoh membina model regresi dalam Excel dan mentafsirkan hasilnya. Mari kita ambil jenis regresi linear.

Tugasan. Di 6 perusahaan, purata gaji bulanan dan bilangan pekerja yang berhenti dianalisis. Adalah perlu untuk menentukan pergantungan bilangan pekerja yang berhenti pada gaji purata.

Model regresi linear kelihatan seperti ini:

Y = a 0 + a 1 x 1 +…+a k x k.

Di mana a ialah pekali regresi, x ialah pembolehubah yang mempengaruhi, k ialah bilangan faktor.

Dalam contoh kami, Y ialah penunjuk berhenti pekerja. Faktor yang mempengaruhi ialah upah (x).

Excel mempunyai fungsi terbina dalam yang boleh membantu anda mengira parameter model regresi linear. Tetapi alat tambah "Pakej Analisis" akan melakukan ini dengan lebih pantas.

Kami mengaktifkan alat analisis yang berkuasa:

Setelah diaktifkan, alat tambah akan tersedia dalam tab Data.

Sekarang mari kita lakukan analisis regresi itu sendiri.



Pertama sekali, kami memberi perhatian kepada R-kuadrat dan pekali.

R-kuasa dua ialah pekali penentuan. Dalam contoh kami - 0.755, atau 75.5%. Ini bermakna bahawa parameter pengiraan model menerangkan 75.5% hubungan antara parameter yang dikaji. Lebih tinggi pekali penentuan, lebih baik model. Baik - melebihi 0.8. Buruk – kurang daripada 0.5 (analisis sedemikian hampir tidak boleh dianggap munasabah). Dalam contoh kami - "tidak buruk".

Pekali 64.1428 menunjukkan apakah Y akan menjadi jika semua pembolehubah dalam model yang dipertimbangkan adalah sama dengan 0. Iaitu, nilai parameter yang dianalisis juga dipengaruhi oleh faktor lain yang tidak diterangkan dalam model.

Pekali -0.16285 menunjukkan berat pembolehubah X pada Y. Iaitu, purata gaji bulanan dalam model ini mempengaruhi bilangan berhenti dengan berat -0.16285 (ini adalah pengaruh yang kecil). Tanda "-" menunjukkan kesan negatif: semakin tinggi gaji, semakin sedikit orang yang berhenti. Yang adil.



Analisis Korelasi dalam Excel

Analisis korelasi membantu menentukan sama ada terdapat hubungan antara penunjuk dalam satu atau dua sampel. Contohnya, antara masa operasi mesin dan kos pembaikan, harga peralatan dan tempoh operasi, ketinggian dan berat kanak-kanak, dsb.

Sekiranya terdapat sambungan, maka adakah peningkatan dalam satu parameter membawa kepada peningkatan (korelasi positif) atau penurunan (negatif) yang lain. Analisis korelasi membantu penganalisis menentukan sama ada nilai satu penunjuk boleh digunakan untuk meramalkan kemungkinan nilai yang lain.

Pekali korelasi dilambangkan dengan r. Berbeza dari +1 hingga -1. Klasifikasi korelasi untuk kawasan yang berbeza akan berbeza. Apabila pekali ialah 0, tiada hubungan linear antara sampel.

Mari lihat bagaimana untuk mencari pekali korelasi menggunakan Excel.

Untuk mencari pekali berpasangan, fungsi CORREL digunakan.

Objektif: Tentukan sama ada terdapat hubungan antara masa operasi mesin pelarik dan kos penyelenggaraannya.

Letakkan kursor dalam mana-mana sel dan tekan butang fx.

  1. Dalam kategori "Statistik", pilih fungsi CORREL.
  2. Argumen “Array 1” - julat pertama nilai – masa operasi mesin: A2:A14.
  3. Argumen “Array 2” - julat kedua nilai – kos pembaikan: B2:B14. Klik OK.

Untuk menentukan jenis sambungan, anda perlu melihat nombor mutlak pekali (setiap bidang aktiviti mempunyai skala sendiri).

Untuk analisis korelasi beberapa parameter (lebih daripada 2), adalah lebih mudah untuk menggunakan "Analisis Data" (tambahan "Pakej Analisis"). Anda perlu memilih korelasi daripada senarai dan menetapkan tatasusunan. Semua.

Pekali yang terhasil akan dipaparkan dalam matriks korelasi. seperti ini:

Analisis korelasi dan regresi

Dalam amalan, kedua-dua teknik ini sering digunakan bersama.

Contoh:


Kini data analisis regresi telah kelihatan.