ai判断on空间

  • A+
所属分类:网络热词
GRE作文用AI打分,20周年了:AI给中国考生的分数,远超人类打分

量子位
10-05 14:44北京极客伙伴科技有限公司
关注
栗子 发自 凹非寺
量子位 报道 | 公众号 QbitAI
GRE作文用了AI打分。
这原本不能算个新闻。
但由于美媒VICE发布的一项调查,这件事又成了热烈讨论的焦点。
VICE调查了美国的50个州,发现有至少21个州 (包括加州) 的教育系统,已经把AI当成作文打分的主要/第二主要工具,用在标准化考试里。

△ 蓝=AI打分,浅蓝=有试点,红=无AI打分,桃红=看学区,灰=未回应
这21个州里,只有3个州表示,人类也会参与作文打分;余下18个州,只会随机抽出5%-20%的作文,交给人类复核一下AI给的成绩。
问题是,标准化考试常常作为选拔依据,左右人类前途。AI打分的话,命运就在AI手里了。
这时,人们不免想起了GRE,这个20年前就开始用AI判作文的大前辈。

有有不少研究表明,包括GRE打分机器e-rater在内,许多AI评判文章的机制,都有明显的缺陷。
不过经年累月,AI不但没有被各种作文考试抛弃,反而越发受欢迎了。
于是,Hacker News网友开启了激烈的讨论,不到一日热度便有了330+。
GRE:机器比人更偏爱中国考生
早在1999年,主办GRE的美国教育考试服务中心 (ETS) ,就开始用e-rater给作文打分了。
跟据官方信息,这个自然语言处理 (NLP) 模型,评分标准有以下8条:
· 基于词汇考量的内容分析 (Content Analysis Based on Vocabulary Measures)
· 词汇复杂度/措辞 (Lexical Comlexity/Diction)
· 语法错误比例 (Proportion of Grammar Errors)
· 用法错误比例 (Proportion of Usage Errors)
· 机械错误比例 (Proportion of Mechanics Errors):指拼写错、大小写错、标点错等等技术问题。
· 风格评论比例 (Proportion of Style Comments):比如,某个短语出现过多,太短的句子过多,太长的句子过多等等。
· 文章组织和发展分 (Organization and Development Scores)
· 地道用语 (Features Rewarding Idiomatic Phraseology)
当然,这只AI不止服务GRE。至少,托福和GRE一样,也是ETS出品的考试。
至于这套算法的缺陷都出在哪,ETS官方就做过不少研究,且从不避讳研究结果。

在1999、2004、2007、2008、2012和2018年的作文里,都能发现AI给中国大陆考生的分数,普遍比人类打分要高。
相反,在非裔美国人身上,AI常常比人类给分要低。在母语是*语、西班牙语和印地语的考生那里,也有相似的情况。即便团队一直改进算法,也没有消除这个问题。
ETS的一位高级研究员说:
如果我们想让算法对某个国家的某个群体友好一些,那就很可能会伤害到其他群体了。
再进一步,分单项来观察AI的打分情况。
会发现在全部考生里面,e-rater给中国大陆考生的语法(Grammar) 和写作技巧 (Mechanics) 分,整体偏低;
而在文章长度和复杂单词的选用上,中国大陆考生的AI打分超过平均。最终,AI给大陆考生的总分,整体比人类打分更高。GRE作文满分6分,AI比人类打分平均高出1.3分。
相比之下,在非裔美国人身上,AI比人类打分平均要低0.81分。以及,这只是平均数据,在许多考生那里,差异来得比这更剧烈。

不论是1.3还是0.81,在6分制的考试里都不是小数字,可能严重影响考生的成绩。
不止如此,MIT的小伙伴们开发过一个叫BABEL的算法,把复杂的词句拼贴在一起,得出的文章没有任何实在的意义,却被GRE的线上评分工具ScoreItNow!打出了4分的好成绩。

但ETS说,AI不是单独判卷,每篇AI打分的作文,都有一个人类同时打分。然后,把人机打分之间的差异,交给第二个人类去判断,得出最终的分数。
所以,ETS认为考生并不会受到AI缺陷的不利影响。
不过对比一下,传统方法是两个人类同时给一篇文章打分;而当AI替代其中一人打分,相当于这个人的职责变成了复核。
成本大概下降了不少,对结果的影响有多大就很难说,至少打分机制和AI参与之前有差别了。
另外,AI的存在不止影响评分,也直接影响考生的应试策略。这些年,讨好AI的攻略越来越多:

△来自ChaseDream论坛@竹林中人
还好,GRE有人类和AI一起打分。
可还有许多考试是直接交给AI判作文的:
不止GRE算法有问题
比如,VICE调查发现,犹他州把AI作为主要 (Primary) 作文评分工具,已经有些年头了。
州内的一位官员解释了原因:
手动打分除了耗费时间之外,也是本州一项重大开支。
所以,用AI来为写作评分,在降低成本的同时,能不能做到公平公正?
美国研究协会 (American Institutes of Research,AIR) 是一间非盈利机构,也是犹他州最主要的考试提供方。
关于交给AI打分的是怎样的题目,AIR给出了一个范本:

这道题目是,看到一张海牛图像,考生要写出一个观察 (A) ,和一个推理 (B) 。
而AIR每年都会做出一份报告,评估一些新题目的公平性。
评估的一个重点就是:女生和少数族裔学生,在特定考题上,是不是比男性/白人的表现要差。这个指标叫做“差异试题功能 (DIF) ”。
报告显示,2017-2018学年、三至八年级的写作考题里,有348道题被判定为,对女生和少数族裔学生有轻微DIF;相比之下,对男生和白人学生有轻微DIF的题目有40道。
另外,还有3道题被判定为:对女生和少数族裔学生有严重DIF。这些题目会交由专门的委员会审核。

可能造成DIF的原因有多种,而算法偏见是大家最关心的因素。
一位来自犹他州的家长 (@dahart) ,占据了Hacker News讨论版的顶楼。
他很不喜欢听那些官员讲“成本”。他觉得,教育本来就是费时费力的,不可能又快又便宜。
他说,孩子的作文是机器打分,全家不满意AI给的分数,爱人和孩子都会哭。

One More Thing
当然,AI判作文也不止美国才有。
去年,《南华早报》说国内已经有6万所学校靠AI批改作业,分布在全国各地。
其中,学生提交的英文作业,也是机器打分。作文批改系统来自酷句批改网,要理解文字的一般逻辑和意思,对作文的整体质量做出像人一样合理的评判,还要在写作风格、结构、主题等方面给出建议。
据说,AI和人类教师对一篇作文的评分,在92%的情况下是一致的。
但从评论来看,同学们也像美国的小伙伴一样,受了不少委屈:

这样的情感,还是不分国界的。
举报/反馈
男人别挣死工资,来做集成墙板,万元投1人做,先销后付做富一代.

源头厂家广告
Hello___King
 
89
89
并不是,AI无法理解文章整体含义,注重的更多的是词汇和语法等表面的东西,对于文章论证过程和表达过程没办法判断,其实也从侧面反映出中国考生太喜欢模版化写作而没有真正的从实质上提高自身写作能力和批判性思维。 // @百度网友一匹神兽:因成绩优秀而受到压制,这个时代对亚洲太苛刻了。
23小时前
回复Ta
百度网友361fbba:你又知道了?
汉唐后嗣:请了解下这方面技术的前沿,最近几年的自然语言理解nlu大赛,机器组和人类组比赛阅读理解,平均分数已经高度接近,只有小数点后那点差异。此外深度学习处理语言的原理是计算词与词,句与句,段落与段落的相关性,这种技术路径在处理文章整体性的时候和人类比在机制上并不吃亏。不要以为ai还是在单纯研究逻辑
全部9条评论
百度网友一匹神兽
 
27
27
原文”据说,AI和人类教师对一篇作文的评分,在92%的情况下是一致的。” // @Hello___King:并不是,AI无法理解文章整体含义,注重的更多的是词汇和语法等表面的东西,对于文章论证过程和表达过程没办法判断,其实也从侧面反映出中国考生太喜欢模版化写作而没有真正的从实质上提高自身写作能力和批判性思维。
22小时前
回复Ta
吴林宝宝回复Hello___King:所以,你被教模板,不意味其他人也会教模板,因为你是少数。
Hello___King回复吴林宝宝:所以呢?这不就是中国学生写作普遍低的原因?
全部6条评论
查看全部评论

weinxin
关注公众号
更多精彩推荐!