专家漫谈｜大语言模型MOSS

2023-09-17 11:06 作者：张树仁、何宏亮來源：西安交通大学、澳门科技大学閱覽：

　　最近，我国第一个对话式大语言模型MOSS由上海复旦大学邱锡鹏教授领导的研究团队发布至公开平台，一经发布便引起高度关注。它是一款为用户而设计的工具，属于类ChatGPT模型；它可以执行对话生成、编程、事实问答等一系列任务，打通了让生成式语言模型理解人类意图并具有对话能力的全部技术路径。这条路径的走通，为国内学术界和产业界提供了重要经验，将助力大语言模型的进一步探索和应用。

　　MOSS开发的基本步骤与ChatGPT一样，包括自然语言模型的基座训练、理解人类意图的对话能力训练两个阶段。在对话能力训练阶段，美国人工智能研究公司OpenAI收集了至少几十万条人类指令，让各行各业的专业标注员写出指令回复，再将它们输入模型基座，以帮助ChatGPT逐步理解各种指令。复旦团队则采用不同的技术路线，通过让MOSS和人类以及其他对话模型都进行交互，显著提升了学习效率和研发效率，短时间内就高效完成了对话能力训练，以尽快赋能国内的人工智能产业。
　　为了探索ChatGPT的技术路线，并获得大语言模型研究的一手经验，复旦团队加快了MOSS开发。如今，MOSS成为国内首个公开亮相的类ChatGPT语言模型，“端到端”走通了大语言模型的开发全程。据悉，这款人工智能助手已进入内测阶段，内测将在用户许可的情况下获取数据，还将收集用户的反馈意见，期待借此大幅增强MOSS的对话能力。MOSS的回答语言流畅、逻辑清晰且观点正确。但研究人员也坦诚指出，当前版本的MOSS表现不够稳定，有些回答存在事实差错或逻辑不顺。
　　在邱锡鹏教授看来，开源是人工智能发展如此快速的原因之一；他说：“从早期可能以10年为单位发展，到最近几年可以看到，以大型预训练模型、大型模型推动人工智能发展，它的突破性模型发展时间大概已经缩短到以年为单位，人工智能已经成为计算机学科里发展最快的领域之一。背后的原因是什么呢？离不开两个字，就是开源。”这背后的逻辑在于，开源让整个科研过程形成良性闭环。
　　在对话方面，MOSS的英文回答水平比中文高，因为它的模型基座学习了3000多亿个英文单词，中文词语只学了约300亿个。可见，MOSS的最大短板是中文水平不够高，主要原因是互联网上中文网页干扰信息如广告很多，清洗难度很大。为此，复旦大学自然语言处理实验室正在加紧推进中文语料的清洗工作，并将清洗后的高质量中文语料用于下一阶段模型训练。研究人员相信，这将有效提升模型的中文对话能力。
　　日前，邱锡鹏教授谈到了MOSS的研究进展。他说：“它是国内第一个发布的类ChatGPT模型，我们也是最早提出开源的插件增强版本，比OpenAI的发布都更早。”复旦团队当时就意识到，语言模型不只是用来对话，最重要的是它作为使用工具和外部世界相连接时对人的赋能。邱教授还说：“我们现在也在不断提高，会有些更新的结果，在原来的能力基础上取得大幅提升。”
　　语言模型由早期的专家系统到深度学习，再到现在参数量上千亿或万亿的大模型，总体上进入参数量和训练数据都大规模发展的状态。但这些千亿语言模型或百亿语言模型不是最近才出现的，可能几年前就有了。以前是把一个语言模型作为基座，运用到不同任务中，每个任务要微调一个自己的模型；而现在大语言模型有了新的内涵，即一个模型能够解决所有问题，如MOSS的出现使大语言模型变得更加流行。
　　由上我们看到了MOSS是如何创建自己的语言模型的，以及它当前所面临的问题。语言模型是自然语言处理的重要组成部分，可以用于许多自然语言处理任务。目前自然语言处理已经进入大语言模型时代，其发展前景十分可观。正如我国著名学者周海中教授说的那样，自然语言处理是极有吸引力的研究领域，它具有重大的理论意义和实用价值。
　　文/张树仁、何宏亮（作者单位分别为西安交通大学、澳门科技大学）

专家漫谈｜大语言模型MOSS

最近关注

專家略談｜人工智能技術與預測學研究

专家略谈｜人工智能技术与预测学研究

人工智慧時代的到來，有哪些工作難以代替？

人工智能时代的到来，有哪些工作难以代替？

半導體行業正在進入埃米時代

热点内容