首先引用CET官网的一段解释:
全国大学英语四六级考试(CET)分为四级(CET-4)和六级(CET-6)两个级别。 全国大学英语四、六级考试的设计参照《大学英语课程教学要求》(以下简称《教学要求》)。 第四级是指《教学要求》中规定的“一般要求”; 第六级是指《教学要求》中规定的“较高要求”。 大学英语四级、大学英语六级的成绩报告采用常模参照法,不设及格分数线。 四级考试的常模组是从全国16所大学的约3万名非英语专业考生中遴选出来的; 六级常模组是从全国五所重点大学的约5000名非英语专业考生中选拔出来的。 每次考试后的纸质成绩均参照常模折算成报考成绩。
每次四六级考试结束后,相关话题往往会成为某个平台的热搜。 大多数人在抱怨自己的听力能力差或不会翻译和写作后,立即开始寻找组织发布的标准答案并开始评估自己的分数。
市场上有许多评分系统。 以百次站为例:
简而言之,这种评分方式就是对每一道题计算一个固定的分数。 每个问题类型的正确答案数乘以单个问题的分数,形成每个问题类型的分数,然后将它们相加。 ,得到最终的总分。 换句话说,它认为四级和六级的评分方法与我们经历过的大多数考试的评分方法相同。
这种评分方法的缺点是你只知道分数的绝对水平,而无法了解自己在人群中的相对位置。 例如,听力1-15每题得7.1分四级分数分布,但这15题的准确率并不相等。 同理,这15题和最后10题的难度也不相等。 确实,平均起来,最后的题比前面的题稍微难一点,但是你能说1-15题中最难的题一定比16-25题中最简单的题容易吗?
既然答案是否定的,为什么最后10道听力题的分数必须是前15道题的两倍呢?
此外,您还可以询问:
为什么某道简单题我的分数还是不高?
为什么某道题很难,但我的分数还是不低?
排除了与本文无关的各种因素,包括但不限于个人表现、严格审核等。你要知道,4、6级的设置就是为了让某些人无论如何都无法通过。 如果您还不知道其机制,请继续阅读。
文章开头提到的“常模参照法”,其实是引入了一群人来和你进行比较,通过比较你在这群人中的表现排名(即常模)来确定你的最终分数。 分数。 用数学语言来说,这是正态分布。 换句话说,您报告的分数不是您的测试分数,而是您的测试分数标准化的结果。
什么是正态分布? 相信玩过抽卡游戏的人都知道,绝对的欧洲皇帝和非洲酋长都是一小撮人。 大多数人在声讨计划的过程中,总是在几乎保证抽到的时候抽到最高等级的牌(不是)。 然后,以抽到顶牌的次数N为横坐标,以抽到顶牌N次的概率为纵坐标,所抽出的图像将呈现对称的倒钟形。
正态分布的概率密度函数
为了充分描述正态分布,我们需要知道两个参数,期望和标准差。
期望易于理解。 在四级和六级考试中,期望是给定样本(范数)的数学期望(平均分)。
标准差的定义是这样的:
标准差 ( ) 最常用于概率统计中,作为统计分布程度 ( ) 的度量。 标准差定义为总体中每个单位的标准值与其均值的偏差平方的算术平均值的平方根。 它反映了群体内个体之间的分散程度。
为了便于理解,只需定性地认识到它是一个描述样本分布浓度的量即可。
当我们知道了一个符合正态分布的样本的期望值和标准差时,我们也就知道了样本中每个值的概率是如何随值本身变化的。 (即已知的概率密度函数)
此外,我们想知道得分X(根据定义应该从-∞开始)对应的总人数中,得分最差的人占总人数的比例只需积分概率密度函数f(x)即可在区间 (-∞,x) 上。 (全国每次考四六级的考生都很多,虽然只用其中一部分作为范数构建正态分布模型,但我们仍然可以把成绩看成集合上的连续分布的正整数。事实上,你可以得到任何分数对应的位置百分比)
经过上述准备,就可以回答题主的问题了:
①大学英语六级的成绩标准是什么?
上面已经分析过了。
② 为什么仍然存在分数低于表中最低分数的情况?
该表给出的实际上是区间上特定分数x与对应概率y的对应关系y=f(x)
。 因为f(x)对于正整数x是连续的,自然f(x)的值y也必须是连续的。
当然,没有列出的原因可能是:
①对于实际情况,分数x取-∞或+∞是没有意义的。 把取值范围缩小一点,然后以听力成绩为例。 当你的答案相当差的时候(比如全错),排名百分位数甚至低于2%,正常分数肯定会低于100分。(也就是说四级分数分布,你几乎是百分之一)
②只是没必要列出那么详细。 4级和6级通常被视为通过考试,过多担心排名是没有用的。
分析到这里,就该进行实际计算了。
CET官方给出的报告分数计算公式为:
=\frac{x-Mean}{SD}×70+500,其中
x为试卷的原始分数,Mean为常模试卷的平均分数,SD为常模试卷分数的标准差。
容易得到这个正态分布的期望是500点,标准差SD是70点。
将两个参数代入正态分布的概率密度函数
f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-(\frac{({x-\mu})^{2}}{2\sigma^2}) }
必须
f(x)=\frac{1}{\sqrt{2\pi}×70}e^{-(\frac{({x-500})^{2}}{2×70^2})}
化简后,我们有:
f(x)\.^{-(\frac{({x-500})^{2}}{9800})}
其定积分为:
F(x)=\int_{-∞}^{x}0.^{-(\frac{({x-500})^{2}}{9800})}
正态分布的概率密度函数的原始函数没有初等形式。 为了计算这个积分的结果,我们可以考虑从定积分的定义出发,将积分转化为区间上n(n→∞)个曲边梯形(视为无限细分下的矩形)的面积和。
这样,对于每个给定的报告分数x,我们总能找到对应的累积概率F(x)。
为了简单起见,直接使用Scipy模块给出积分结果:
from scipy import integrate
from math import e
import numpy as np
from matplotlib import pyplot as plt
plt.rcParams['font.sans-serif'] = ['KaiTi', 'SimHei', 'FangSong']
plt.rcParams['font.size'] = 12
sco=np.arange(1000)
pro=np.zeros(1000)
pro_int=np.zeros(1000)
def f(x):
return 0.005699*(e**(-(((x-500)**2)/9800)))
def probability(score):
return integrate.quad(f,0,score)
for i in range(0,1000):
pro[i]=0.005699 * (e ** (-(((i - 500) ** 2) / 9800)))*100
pro_int_i=probability(i)[0]*100
pro_int[i]=pro_int_i
print("报告得分为%d的百分位为f"%(i,pro_int_i)+'%')
fig, ax1 = plt.subplots()
ax2 = ax1.twinx()
ax1.plot(sco, pro, 'r-')
ax2.plot(sco, pro_int, 'b--')
ax1.set_xlabel('报告分数')
ax1.set_ylabel('得分概率',color='r')
ax2.set_ylabel('累计百分率', color='b')
plt.title("得分概率与累计百分率随报告分数的变化情况")
plt.show()
积分的下限设置为x=0,因为在实际情况中,当分数x≥0且x<0时,函数值很小,可以忽略不计。
以报告分数 x\in[0,999] 为横轴,左纵轴和右纵轴分别绘制得分概率和累积得分率:
乍一看,最终报告分数的分布似乎相当离散。然而,根据 3\sigma 原理,考生的报告分数 x 分布在
(430,570)的概率约为68.26\%
(360,640)的概率约为95.44\%
(300,700)的概率约为99.74\%
以下是部分计算结果:
报告 0 分的百分位为 0.%
……………………………………………………
报告 10 分的百分位为 0.%
……………………………………………………
报告分数为 98 的百分位为 0.%
报告分数为 99 的百分位为 0.%
……………………………………………………
报告分数 112 的百分位数是 0.%
报告分数 113 的百分位数是 0.%
……………………………………………………
报告分数 239 的百分位数是 0.%
报告分数 240 的百分位为 0.%
……………………………………………………
报告分数 252 的百分位数是 0.%
报告分数 253 的百分位数是 0.%
……………………………………………………
报告分数 337 的百分位数是 0.%
报告分数 338 的百分位数是 1.%
……………………………………………………
报告分数 356 的百分位数是 1.%
报告分数 357 的百分位数是 2.%
……………………………………………………
报告分数 410 的百分位数是 9.%
报告分数 411 的百分位数是 10.%
报告分数 412 的百分位数是 10.%
……………………………………………………
报告分数 423 的百分位数是 13.%
报告分数 424 的百分位数是 13.%
报告分数 425 的百分位数是 14.%
报告分数 426 的百分位数是 14.%
报告分数 427 的百分位数是 14.%
报告分数 428 的百分位数是 15.%
……………………………………………………
报告分数 495 的百分位数是 47.%
报告分数 496 的百分位数是 47.%
报告分数 497 的百分位数是 48.%
报告分数 498 的百分位数是 48.%
报告分数 499 的百分位数是 49.%
报告分数为 500 的百分位为 49.%
报告分数 501 的百分位数是 50.%
报告分数 502 的百分位数是 51.%
报告分数 503 的百分位数是 51.%
报告分数 504 的百分位数是 52.%
报告分数 505 的百分位数是 52.%
……………………………………………………
报告分数 536 的百分位数是 69.%
报告分数 537 的百分位数是 70.%
……………………………………………………
报告分数 558 的百分位数是 79.%
报告分数 559 的百分位数是 80.%
……………………………………………………
报告分数 589 的百分位数是 89.%
报告分数 590 的百分位数是 90.%
……………………………………………………
报告分数 616 的百分位数是 95.%
报告分数 617 的百分位数是 95.%
……………………………………………………
报告分数 670 的百分位数是 99.%
……………………………………………………
报告分数 710 的百分位数是 99.%
如果通过标准是425,那么大约有14%的人无法通过。 但考虑到英语四级和英语六级的抽样标准不同(英语六级只对五所顶尖大学的非英语专业学生开放),实际上英语六级的整体通过率肯定相差甚远。低于86%。
忽略较小和较大的值(即x<338或x>662),只取百分位数在1%到99%之间的分布重新绘制分布图,则有:
所以,除了终极学渣和学神之外,六级的分数分布还是比较平滑的。
同理,还可以计算出各子模块得分的概率分布,进而可以计算出第四级情况。
所以千万不要以为自己听力损失120分或者130分就很好了......
适当的底部 2% 水平