北京师范大学出版科学研究院
 

您的当前位置: 首页 » 出版课堂
AIGC编校准确率测评:基于36余款国产大模型
发布时间:2025-04-29

随着人工智能技术的不断发展,尤其是生成式人工智能(Artificial Intelligence Generated Content, AIGC)技术的出现,学术出版领域也迎来了新的变革,大模型技术在文字编校工作中具有潜力。

本文先对150余款国产大型模型的信息进行了详细梳理,包括模型名称、所属公司、官网网址、模型类别、判断其编校功能的依据等。在本文的研究对象范围内,经统计,目前具备文字编校功能的大模型共有58款。


其中,易于获取和使用的大模型共计36款(如盘古的小艺帮写暂时只对华为mate60系列手机开放,就没有进入实例测试名单),具体大模型信息见文末。这36款模型也是本文用于文字编校能力测试的模型。



测试结论


1.不同模型的总体编校表现


本文计算并整理了36个大模型编校测试文本中100处差错的准确率,按照编校准确率高低进行降序排序,并选取了编校准确率排名前10的模型进。


日日新以67.00%的编校准确率位列榜首,领先于其他模型;文心一言4.0和TechGPT紧随其后,编校准确率为66.00%,均有着较为出色的文字编校表现;此外,GLM和ChatGLM也凭借着超60.00%的编校准确率位列第四和第五;根据计算,所有36个大模型的平均编校准确率仅为35.00%,整体平均编校准确率并不理想。


2.大模型在不同错误类型文本差错中的编校整体表现


整体来看,现有大模型处理各个错误类型文本差错的平均水平并不理想,仅对时间差错、文字差错、词语差错、语法逻辑差错、数字形式使用不当、科技术语差错、量和单位差错7种错误类型文本差错的平均编校准确率达40.00%以上;


不过,现有大模型在处理包含法律法规与标准引用错误这一错误类型文本差错的整体编校表现较差,以18.33%的平均编校准确率垫底。这表明当前的大模型在处理高度专业化、复杂且严谨的内容时存在局限性。


3.部分模型单项差错编校能力表现亮眼


为进一步探究不同模型的不同差错类型的擅长领域,本文整理出各模型编校准确率超过80.00%的单项差错类型。其中,文心一言4.0、日日新和TechGPT编校准确率达100.00%错误类型均高达到4种;此外,GLM编校准确率达100.00%的错误类型也达到3种;混元、百川智能等模型虽没有编校准确率达100.00%的错误类型,但其在若干错误类型上的编校准确率均可达80.00%。


4.大模型在查找更正复杂差错中的表现


1)现有36个大模型对复杂文本差错的平均编校准确率仅为29.30%,与其对所有测试文本差错的平均准确率35.00%相比,模型的整体编校表现进一步下降。有几个模型编校准确率甚至为0,这表明,在面对复杂、罕见或含有高度专业知识的文本差错时,大模型难以识别其中的差错。


2)部分模型已经具备处理复杂、专业文本的能力。如TechGPT、日日新和ChatGLM,它们对复杂文本差错的编校准确率都超过50.00%;其中,TechGPT在15处复杂文本差错中正确编校10处,编校准确率高达66.67%;另一个突破60.00%编校准确率的模型是日日新,与前文该模型所有测试文本进行编校测试时的表现基本相同。


3)相对原创文本,大模型对已发表和公布的文本有着更为出色的文字编校表现。以XVERSE-13B大模型为代表的部分模型明确指出了该文本的来源期刊,并提供了原文访问接口。这种利用互联网进行搜索的能力显著提升了大模型在处理专业性强、背景知识丰富的文本时的准确性和可靠性。



现有大规模在文字编校测试中存在不足


1.指令依赖与指令幻觉


大模型的回答质量与模型所接受的指令密切相关。当提示指令要求大模型扮演编辑角色并提供具体的文字编校示例时,其表现通常优于直接要求模型进行文字编校的情况。此外,大模型存在不执行或偏离给定指令的情况,模型生成的内容与模型提示指令的要求不一致,即出现指令幻觉问题。


2.输入与输出存在限制


一方面,大模型对长文本的支持不足。多数模型,由于受到指令输入长度的限制,无法完成对超长文本的文字编校任务。另一方面,现有国产大模型对带有特殊格式的文本支持不足,尚未具备识别表格错误、图片错误和字体格式错误的能力。


3.输出结果的稳定性不佳


模型的稳定性对编校工作至关重要。由于内部复杂的计算过程和参数敏感性,大模型在处理相同输入时,可能会产生不同的输出结果。在对各模型进行的三次重复性指令询问中,仅有TechGPT能够在相同指令下提供稳定一致的输出;其他模型在面对相同指令时,其输出结果存在显著差异。


4.低密度错误的漏检与误判


与公开数据集的高密度错误分布相比,实际数据的错误分布往往更为稀疏。在实际编校场景中,面对低密度错误分布的文本,大模型可能会存在对差错的漏检和误判等问题。



国产大模型在文字编校测试中的相对优势


1.国产大模型对中文词义具有更高敏感性


在本文的编校测试中,国产大模型在理解中文词义方面表现出了显著的敏感性。它们在处理中文文本时展现出了多方面的优势,包括更强的语境理解、文化适应性、语法句式解析以及专业术语的准确处理。


2.更顺畅的交互体验


多数国产大模型只需在其模型服务所在的网页端注册登录便可直接获取使用,个别国产大模型如华佗GPT等甚至无需账号也可使用。


3.更低廉的使用成本


在本文梳理的150余款国产大模型中,仅文心一言4.0和天燕AiLMe实行收费制度,费用为每月49.9元和每月48元,国内大模型显然为用户提供了更为经济的选择。



文字编校工作中应用大模型的策略


1.选择合适的模型进行辅助


一是,编辑人员可根据文本的语种选择合适的模型。国产大模型在训练过程中通常能够接触更为丰富、更具深度的中文语料,从而提高了其对中文的处理能力。国外大模型,在外文文本的处理上可能会有更为出色的表现。综上,结合国内外大模型特有的语种优势,可以有效地应对不同语种的文字编校任务,提升文本的质量和表达准确性。


其次,为了提高编校的准确率和可靠性,编辑可以根据文本类型,选用合适的大模型。

测试结果表明,日日新、文心一言4.0、TechGPT、GLM以及ChatGLM等大模型综合文字编校能力较强。然而,如果在编校任务中面对专业知识要求很高的文本时,编辑人员可以尝试TechGPT、日日新和ChatGLM等大模型。


除此之外,现有大模型在时间差错、文字差错、语言差错、语法逻辑差错、数字形式使用不当、科技术语差错、量和单位差错等方面的编校准确率相对较高,部分模型在编校某些类型时的准确率甚至可以达到100%,编辑人员可根据具体编校需求选择这一类模型。


值得一提的是,编校人员须特别注意法律法规与标准引用错误,测试中大模型几乎难以识别此类差错。


2.建立知识库与个性化的模型编校方式


编辑人员可针对特定领域的文本,建立属于自身的专属知识库,并将其输入大模型以提升模型在该领域的编校准确率。当前,以智谱为代表的大模型提供了输入文档以供模型学习应用的功能,编辑人员可以通过收集所需领域的专业术语、文本常见错误类型等建立知识库,让模型在与用户交互中引用知识库中的知识对相关文本进行编校,此种方法能有效改善现有大模型对法律法规与标准引用错误识别率低的问题。


3.使用角色设定和对话输入的COT询问方法


COT询问法是通过让模型参考指令中的中间推理步骤,然后询问类似的问题,将推理的推理透明化,从而获得比原始提问更高的准确率。研究显示,在使用合适的编校指令后,编辑人员往往能获得更高准确率的结果。在编校过程中,通过引入角色设定和COT询问方法,可以引导模型进行更深入的思考和分析,从而更准确地识别和理解文中的复杂逻辑和细微差别。


4.提升编辑人员的信息素养和专业技能


在数字化时代背景下,编辑工作面临着新的挑战和机遇。编辑人员需要结合时代背景对职业重新定位,从而适应日益复杂的编辑环境和技术变革。编辑人员需注重自身专业技能的提升,并广泛掌握跨学科知识。


同时,出版机构应重视对编辑人员科学素养的培养,帮助编辑人员适应人工智能时代的新变化,提升有效利用这些先进工具的技能。此外,编辑团队应当加强内部合作与交流,形成有效的工作协同,提高解决复杂专业知识问题的能力。



结    语


总体上,大模型有望作为重要的辅助工具参与文字编校工作,国产大模型在编校中具有潜在的应用价值且较之国外大模型发展生态更好。随着人工智能技术的不断发展,应重视对编辑科学素养和专业技能的培养与考察,我国也应积极研发国内大模型,以应对出版智能化变革所带来的机遇和挑战。


(注:本文改写自《生成式人工智能应用于编校工作的探索与分析 --基于ChatGPT和 150 余款国产大模型的实测》,夏丽云,岳于佳,徐敏赟,丁懿楠,代建华)




表 实例测试的大模型名单信息

1.jpg
2.jpg
3.jpg
4.jpg
6.jpg
7.jpg
8.jpg

作者 | 夏丽云  湖南师范大学期刊社编辑
来源丨科学文字社
初审 | 夏国强
复审 | 邢自兴
终审 | 赵玉山


北京师范大学出版科学研究院
友情链接: 国家新闻出版署  |   教育部  |   中国出版协会  |   北京师范大学  |   北京师范大学新闻传播学院  |   北京师范大学出版集团  |  
地址:北京市新街口外大街19号    版权所有©北京师范大学出版科学研究院