听力语料库有几个版本?

居已氏居已氏最佳答案最佳答案

需要明确一点概念,“语料”并不是指某一篇具体的文章或对话。 语料实际上可以理解成两种意思:一种是指能够用于口语或者写作练习的范文;另一种是指在特定主题下的语言样本集合(主题更宽泛,比如谈论校园生活可以包括大学里各种场景)。前者我们一般称为“例文”(model text),后者我们一般称为“语料库”(corpora)。 虽然目前很多语料库都有电脑软件版,但是建立语料库最原始的方式还是人工方式把文字输入到电脑里面。早期的语料库或多或少都有人为造假的成分。比如说,在1967年由美国宾夕法尼亚州立大学出版的《当代英语语法》(Modern English Grammar)中,作者就列出了自己编辑的所谓现代英语语料库。虽然语料库的制作越来愈精妙,借助人工智能技术从大规模数据中自动分析词汇和短语频率并绘制分布曲线,但是人为的因素依然无处不在——判断语料质量、确定语料范围、标注词语句法和情感倾向等等都需要专家的判断。所谓的“客观”只是相对客观而已。

近年来,随着人工智能技术的广泛运用,大量基于深度学习的自然语言处理工具的出现,使得我们对语言的感知和理解越来越接近人类认知的自然过程。然而无论科技如何发展,人工制作语料库的过程都将成为历史。

我来回答
请发表正能量的言论,文明评论!