A-level数学 | S1 Correlation and regression知识点回顾
Correlation and regression(相关与回归)是爱德思考局S1 paper的必考题,今天我们就来梳理一下这一章的知识点。
首先Correlation and regression 是什么呢?简单来说就是处理变量数据之间相关关系的一种统计方法,通过相关分析,我们可以判断出两个或者两个以上变量之间是否存在一定的关系,在S1里我们只会学习两个变量之间是否存在线性相关。
independent variable (自变量):set independently,用x来表示
dependent variable(因变量):随着自变量的变化而变化,用y来表示
上面的图叫作scatter diagram,我们用这个图来研究两个变量之间是否存在相关关系。画图步骤为:首先将两个变量相对应的数据列出(题目里会给出),第二步将对应的点标记在图上打X,以此来观察两个变量之间的关系。
negative correlation(负相关):当independent variable增长,dependent variable减少
positive correlation(正相关):当independent variable增长,dependent variable增长
no linear correlation(无相关):两个变量之间没有线性关系
当两个变量存在相关关系,我们可以画一条least square regression line也就是最小化误差的一条线,通常用
其中,Sxx是x的离差平方和,公式为:
由此可以推出
和
如果数据是正相关的,那么b是一个正数,如果是负相关的,那么b是负数。
当我们通过以上的公式得到一个regression line的equation,我们就可以根据independent variable(x)的值来估计相对应的dependent variable(y)的值,但是x的取值必须是在给定的data range里。如果x value在给定的数据范围里,那么prediction就是可靠的,如果x value在给定的数据范围之外,那么prediction就是不可靠的。这里还有一个非常重要的点是我们只能根据x值来找对应的y值,不能通过y值来找对应的x值。
Interpolation-prediction within the range of the data—reliableExtrapolation-prediction outside the range of the data—unreliable
Product moment correlation coefficient(PMCC)用来测量两个变量之间的线性相关关系,我们通常用r来表示。这是一个-1到1之间的数值,1代表两个变量之间是perfect positive linear correlation,-1代表代表两个变量之间是perfect negative linear correlation,0代表两个变量之间no linear correlation。在0到1之间值越接近1相关性越好,越接近0相关性越差;在-1到0之间值越接近-1相关性越好,越接近0相关性越差。
PMCC的公式为:
有时候题目会有coded data,如果coding是linear的,那么PMCC不受coding的影响,它的值不会因为linear coding的变化而变化。
以上就是correlation and regression章节的重点啦,接下来给同学们留一道小题,同学们看看自己的掌握情况查漏补缺吧~这道题出自2019年6月IAL S1 paper的第6题。