每经记者 朱成祥 每经编辑 梁枭
9月25日上午,“解码未来:全球数智趋势”专题论坛在上海浦东成功举办。论坛由工业和信息化部工业文化发展中心、上海市经济和信息化委员会、上海市浦东新区人民***主办。
本次专题论坛是工业文明国际论坛的分论坛之一。主论坛以“工业文明·中国力量”为主题,设一个主论坛和三个分论坛,来自多个国家的***代表和专家、企业家,聚焦工业文明变迁、人工智能和在线新经济、新能源和智能网联汽车、先进材料、生物医药、产城人文、工业博物馆等热点议题展开讨论。
在“解码未来:全球数智趋势”专题论坛上,复旦大学计算机科学技术学院教授张奇以“大语言模型能力边界与发展思考”为题发表了主题演讲。张奇认为,围绕长上下文建模、多任务学习、跨语言迁移性、文本生产能力这些核心能力,与场景做结合,将有巨大的价值。对于未来的大模型,清晰认知它的能力边界非常重要。如果对能力边界有共识,对于未来投资的力度和方向就有很好的把握。但是可能还需要一定的时间,或许一年、两年的时间才能完成确认(认知能力边界)。
张奇提到,2023年,大家认为大模型无所不能,所有的地方都可以使用,可以写code(代码),可以做医疗,能够做很多东西。但是干了一年后,大家发现,大模型落地总是差那么一口气。
他举例,去问大模型一句诗的下一句是什么,它可以做得很好,但是如果让它回答一句诗的前面一句是什么,或者一个成语的中间一个字是什么,结果会变得非常差。这也就让我们思考,为什么大模型会出现这些情况,它能做什么,不能做什么。
对于微调阶段,张奇认为,这和前一阶段的训练数据非常相关,想让它有什么样的能力,就得准备什么样的训练数据,而且是非常精心地准备,这和自然语言处理的逻辑非常不同。过去可以大量加训练数据,现在完全不是。
关于大模型能力边界,张奇认为,目前可以确认的大模型的能力是上下文建模、多任务学习、跨语言迁移性、文本生成能力。
文本生产能力方面,张奇称,在ChatGPT之前,自然语言处理研究者是不敢做自然语言生成的,因为难度非常大。模型大到现在这种程度之后,自然语言生成就可以做得非常好了。
张奇表示,可确认的就是这四个能力。“但是推理怎么样,我觉得OpenAI还是做了非常值得研究的过程,去年我们也做了很多过程型的推理,但是它的泛化能力怎么样,以及未来是什么,我觉得还需要非常仔细地研究。”张奇说道。
标签: 能力