A-level数学 | 统计location and spread知识点总结
location and spread(定位和分布)是各大考局(CAIE, EDEXCEL, AQA, OCR)统计部分都会考到的内容,今天就带大家一起来整理一下这一块的知识点。
数据可以分为qualitative data(定性数据)和quantitative data(定量数据)。qualitative data不能用数值来表示,通常用类别分类,比如性别和颜色,quantitative data用数值来表示,比如长度和速度。quantitative data还能分为discrete data(离散数据)和continuous data(连续数据)。discrete data指的是在一个给定的区间里只能取到特定的数值,数据之间是有间断性的,比如人数。continuous data指的是在一个区间里可以取任意的值,数据之间是连续的,比如身高,时间等。Measure of location包括mean,median,mode,quartile,percentile等。
mean(平均数):,如果是计算continuous data的平均数,我们先要找到每个class的midpoint,这个数就对应x的值,再做相应的计算就可以了。这里要注意如果class之间有gap,lower boundary减 ?gap,upper boundary加 ?gap,一般是减加0.5。
mode(众数):数据中出现频率最高的数值。
median(中位数):一组数据里中间的那个数值。如果数据是discrete data,首先找 ?n 来确定中位数的位置,如果?n 不是整数,往前进到下一个整数,再找到这个数所对应的数值就是中位数,比如算出来是2.5,那我们的中位数就是第3个数值,如果?n 是整数,就找这个数和下个数所对应的数值的平均数,比如算出来是3,那我们的中位数就是第3个和第4个数值的平均数。如果数据是continuous data,我们要用linear interpolation的方法来找中位数,首先先把cumulative frequency写出来,然后也是一样找?n ,再找?n 所在的interval,到这个interval之前的frequency和到这个interval为止的frequency。
公式为:
我们来看一个例子,上面这个例子是continuous data,所以我们用linear interpolation来做。?n =35,35th value在34-36组,lower boundary=33.5,place into group=35-27=8,group frequency=30,class width=36.5-33.5=3,所以
quartile(四分位数)主要有upper quartile(上四分位数)和lower quartile(下四分位数)。upper quartile用Q3来表示,对应的是 ?n 的位置,lower quartile用Q1来表示,对应的是?n 的位置,算法和median是一样的,如果是ungrouped data,不是整数就往前进一位,找这个数对应的数值,是整数就找这个和下一个数值的平均数。如果是continuous data,就用linear interpolation,步骤和median的步骤一样。percentile(百分位数)方法和步骤也是一样的,如果找P30,就是0.3n对应的位置。Measure of spread包括range,interquartile range,interpercentile range,variance和standard deviation。
range:一组数据里最大的数减去最小的数
interquartile range(四分位距):difference between upper quartile and lower quartile,Q3-Q1
interpercentile range:difference between two given percentiles
variance(方差):每一个数据和平均数的偏离程度,standard deviation(标准差)是方差的平方根,用σ来表示。公式为:
ungrouped:
grouped:
这一块还有一个重要内容是coding。如果原来的数据特别大不方便计算的话,我们可以用coded data来做,y=(x-a)/b。y代表coded data,x代表original data,我们就可以通过先计算y的mean再去计算x的mean,。因为standard deviation是测量数据的偏离程度,如果coding是加减法,那么数据的偏离程度没有变化,所以加减法对于standard deviation没有影响,因此我们计算standard deviation的时候不需要去考虑 a/b 的部分,只需要考虑x的系数 1/b,。以上就是这一章的知识点~下面给大家准备了一道真题,同学们可以做做看自己掌握了多少。