首頁 > 人教版 > 高中 > 數(shù)學(xué) > 選修1 > 正文

高中數(shù)學(xué)第一章1.1《回歸分析的基本思想及其初步應(yīng)用》(選修1-2)

點(diǎn)贊 收藏 評(píng)價(jià) 測速
課堂提問

課程內(nèi)容

《回歸分析的基本思想及其初步應(yīng)用》
在現(xiàn)實(shí)中,我們經(jīng)常會(huì)遇到類似下面的問題:
肺癌是嚴(yán)重威脅人類生命的一種疾病,吸煙與患肺癌有關(guān)系嗎?肥胖是影響人類健康的一個(gè)重要因素,身高和體重之間是否存在線性相關(guān)關(guān)系?等等。
為了回答這些問題,必須明確問題涉及的對(duì)象(總體)是什么?用怎么的量來描述要解決的問題,并確定獲取變量值(數(shù)據(jù))的方法,然后用恰當(dāng)?shù)姆椒ǚ治鰯?shù)據(jù),以得到最可靠的結(jié)論。
在必修模塊中,我們學(xué)習(xí)過關(guān)于抽樣、用樣本估計(jì)總體、線性回歸基本知識(shí),本章中,我們
將在此基礎(chǔ)上,通過對(duì)典型例安的討論,進(jìn)一步討論線性回歸分析方法及其應(yīng)用,并初步了解獨(dú)立性檢驗(yàn)的基本思想,認(rèn)識(shí)統(tǒng)計(jì)方法在決策中的作用。
我們知道,函數(shù)關(guān)系是一種確定性關(guān)系,而相關(guān)關(guān)系是一種非確定關(guān)系,回歸分析(regression analysis)是對(duì)具有相關(guān)關(guān)系的兩個(gè)變量進(jìn)行統(tǒng)計(jì)分析的一種常用方法。在《數(shù)學(xué)3》中,我兩個(gè)具有線性相關(guān)關(guān)系的變量利用回歸分析的方法進(jìn)行了研究,其步驟為畫散點(diǎn)圖,求回歸直線方程,并用回歸直線方程進(jìn)行預(yù)報(bào)。
探究:對(duì)于一組具有線性相關(guān)關(guān)系的數(shù)據(jù)(X1,Y1),(X2,Y2),…,(Xn,Yn),我們知道其回歸方程的截距和斜率的最小二乘估計(jì)公式分為:
^a=(-,y)-^b(-,x)(1)
^b=(nΣi=1){(xi-(-,x))(yi-(-,y))/(nΣi=1)(xi-(-,x))2,(2)
其中(-,x)=1/n (nΣi=1)xi,(-,y)=(nΣi=1)yi.((-,x)(-,y))稱為樣本點(diǎn)的中心。
回歸直線過樣本的中心。
例1:從某大學(xué)中隨機(jī)選取8名女大學(xué)生,其身高和體重?cái)?shù)據(jù)如表3-1所示。

 編號(hào)  1
 身高(cm)  165 165  157  170  175  165  155  170 
 體重(kg)  48 57   50 54 64 61  43  59 


求根據(jù)一名女大學(xué)生的身高預(yù)報(bào)她的體重的回歸方程,并預(yù)報(bào)一名身高為172cm的女大學(xué)生的體重。
解:由于問題中要求根據(jù)身高預(yù)報(bào)體重,因此選取身高為自變量x,真實(shí)體重為因變量y,作散點(diǎn)圖。
從圖中可以看出,樣本點(diǎn)呈條狀分布,身高和體重比較好的線性相關(guān)關(guān)系,因此可以用紀(jì)律性回歸方程刻畫它們之間的關(guān)系。
根據(jù)探究中的公式(1)和(2),可以得到
^a=-85.712,^b=0.849。
于是得到回歸方程^y=0.849-85.712。
所以,對(duì)身高為172cm的女大學(xué)生,由回歸方程可以預(yù)報(bào)其體重為
y=0.849×172-85.712=60.316(kg)。
b=0.849是斜率的估計(jì)身高x每單位時(shí),體重y就增加0.849個(gè)單位,這表明體重與身高具有正的線性相關(guān)關(guān)系,如何描述它們之間線性相關(guān)關(guān)系的強(qiáng)弱?
在必修3中,我們介紹了用相關(guān)系數(shù)r來衡量兩個(gè)變量之間線性相關(guān)關(guān)系的方法,樣本相關(guān)系數(shù)的具體計(jì)算公式為:
r=(nΣi=1){(xi-(-,x))(yi-(-,y))/√{(nΣi=1)(xi-(-,x))2(nΣi=1)(xi-(-,x))2 }。
當(dāng)r
﹥0時(shí),表明兩個(gè)變量正相關(guān),當(dāng)r<0時(shí),表明兩個(gè)變量負(fù)相關(guān)r的絕對(duì)值越接近1,表明兩個(gè)變量的線性相關(guān)性超強(qiáng);r越接近于0時(shí),表明兩個(gè)變量之間幾乎不存在線性相關(guān)的關(guān)系,通常,當(dāng)r大于0.75時(shí),認(rèn)為兩個(gè)變量有很強(qiáng)的線性相關(guān)關(guān)系。
在本人例中,可以計(jì)算的線性r=0.798,這表明體重與身高有很強(qiáng)的線性相關(guān)關(guān)系,從而也表明我們建立的回歸模型是有意義的。
探究:身高172cm的女大學(xué)生的體重一定是60.316kg嗎?如果不是,其原因是什么?
顯然,身高172cm的女大學(xué)生的體重不一定是60.316kg但一般可以認(rèn)為她的體重接近于60.316kg,圖3.1-2中的樣本點(diǎn)和回歸直線的相互位置說明了這一點(diǎn)。
由于所有的樣本點(diǎn)不共線,而只是散布在某一條直線的附近,所以身高和體重的關(guān)系,可以用下面的線性回歸模型來表示:y=bx+a+e,(3)
與函數(shù)相關(guān)不同,在回歸模型中,y的值由x和隨機(jī)因素e共同確定,即x只能解釋部分y的變化,因此我們把x稱為解釋變量,把y稱為預(yù)報(bào)變量。
我們可以用下面的線性回歸模型來表示:
y=bx+a+e,
其中a和b為模型的未知參數(shù),e稱為隨機(jī)誤差。
值^y與真實(shí)值y之間的誤差的原因之一,其大小取決于隨機(jī)誤差。
別一方面,由于公式(1)和(2)中的^a和^b為截距和斜率的估計(jì)值,它們與真實(shí)值a和b之間的也存在誤差,這種誤差是引起預(yù)報(bào)值^y與真實(shí)值y之間誤差的另一個(gè)原因。
思考 產(chǎn)生隨機(jī)誤差項(xiàng)e的原因是什么?
實(shí)際上,一個(gè)人的體重除了受身高的影響外,還受許多其他因素的影響,例如飲食習(xí)慣、是否喜歡運(yùn)動(dòng),度量誤差等,另外,我們選用的線性模型往往只是一種近似的模型,所有這些因素都會(huì)導(dǎo)致隨機(jī)誤差項(xiàng)e的產(chǎn)生。
探究 在線性回歸模型中e是用(-,y)預(yù)報(bào)真實(shí)值y的誤差,它是一個(gè)不可觀測的量,那么應(yīng)該怎么樣研究隨機(jī)誤差?如何衡量預(yù)報(bào)的精度?
解決問題有途徑是通過樣本的估計(jì)來研究。
根據(jù)截距和斜率的估計(jì)公式(1)和(2),可以建立回歸方程^y=^bx+^a,
因此^y是(5)中~y的估計(jì)值,由于隨機(jī)誤差e=y-~y,
所以^e=y-^y是e的估計(jì)量。
對(duì)于樣本點(diǎn)(X1,Y1),(X2,Y2),…,(Xn,Yn),
而言,相應(yīng)它們的隨機(jī)誤差為
e1=y1-~y1=y1-^bx1-a,i=1,2,…,n。
其估計(jì)值為
e1=y1-~y1=y1-^bx1-a,i=1,2,…,n。
在研究兩個(gè)變量的關(guān)系時(shí),首先要根據(jù)散點(diǎn)圖來粗略判斷它們是否相線性相關(guān),是否可以用線性回歸模型來擬合數(shù)據(jù),然后,可以通過殘差^e1,^e2,…,^en。來判斷模型擬合的效果,判斷原始數(shù)據(jù)中是否存在可疑數(shù)據(jù),這方面的分析工作稱為殘差分析。

 編號(hào)  1
 身高/cm  165 165  157  170  175  165  155  170 
 體重/kg  48 57  50  54  64  61  43  59
 殘差^e  -6.373 2.627  2.419  -4.618  1.137  6.627  -2.883  0.382 

我們可以利用圖形來分析殘差特性,作圖時(shí)縱坐標(biāo)為殘差,橫坐標(biāo)可選為樣本編號(hào),或身高數(shù)據(jù),或體重估計(jì)值等,這樣作出的圖形為殘差圖。圖3.1-3是以樣本編號(hào)為橫坐標(biāo)的殘差圖。
從圖3.1-3中可以看出,第1個(gè)樣本點(diǎn)和第6個(gè)樣本點(diǎn)的殘差比較大,需要確認(rèn)在采集這兩個(gè)樣本過程中是否有人為的錯(cuò)誤,如果數(shù)據(jù)采集有錯(cuò)誤,就予以糾正,然后再重新利用線性回歸模型擬合數(shù)據(jù);如果數(shù)據(jù)數(shù)據(jù)采集沒有錯(cuò)誤,則需要尋找其他的原因,另外,殘差點(diǎn)比較均勻地落在水平的帶狀區(qū)域的寬度越窄,說明模型擬合精度越高,回歸方程的預(yù)報(bào)精確度越高。
另外,我們還可以用相關(guān)指數(shù)R2來刻畫回歸效果:
其計(jì)算公式是:R2=1-(nΣi=1){(yi-^yi2/(nΣi=1)(yi-(-,y)2。
在含有一個(gè)解釋變量的線性模型中R2恰好等于相關(guān)系數(shù)r的平方。
顯然,R2取值越大,意味著殘差平方和越小,也就是說模型的擬合效果真好,在線性回歸模型中R2表示解釋變量對(duì)于預(yù)報(bào)變量變化的貢獻(xiàn)率,R2越接近于1,表示回歸的效果越好(因?yàn)镽2越接近于1,表示解釋變量和預(yù)報(bào)變量的線性相關(guān)性超強(qiáng)),如果對(duì)某組數(shù)據(jù)可能性采取幾種不同的回歸方程進(jìn)行分析,也可以通過比較幾個(gè)R2,選擇R2大的模型作為這組數(shù)據(jù)的模型。
在例1中R2=0.64,表明“女大學(xué)生身高解釋了64%的體重變化”,或者說“女大學(xué)生體重差異有64%是由身高引起的”。
用身高預(yù)報(bào)體重時(shí),需要注意下列問題:
1.回歸方程只適用于我們所研究的樣本的單體,例如,不能用女大學(xué)生的身高和體重之間的回歸方程描述女運(yùn)動(dòng)員的身高和體重之間的關(guān)系,同樣,不能用生長在南方多雨地區(qū)的樹木的高與直徑之間的回歸方程,描述北方干旱地區(qū)的樹木的高盧直徑之間的關(guān)系。

此內(nèi)容正在抓緊時(shí)間編輯中,請(qǐng)耐心等待

孫老師

男,中教高級(jí)職稱

在教學(xué)中勤懇敬業(yè),教學(xué)成績優(yōu)異,多次被評(píng)為“優(yōu)秀數(shù)學(xué)教師”稱號(hào)。

聯(lián)系我們 版權(quán)說明 幫助中心 在線客服

?2016 同桌100 All Rights Reserved