学术报告:LLaDA:扩散大语言模型新范式-武汉大学计算机学院

学术报告:LLaDA:扩散大语言模型新范式

发布时间:2025-09-11     浏览量:

报告题目:LLaDA:扩散大语言模型新范式

报告时间:202592919:30

报告地点:腾讯会议 650-147-084

报告人:文继荣

报告人国籍:中国

报告人单位:中国人民大学

报告人简介:

  文继荣,教授,中国人民大学高瓴人工智能学院执行院长,曾任微软亚洲研究院高级研究员和互联网搜索与挖掘组主任。入选国家高层次人才计划、北京市卓越青年科学家计划等。长期从事人工智能领域的研究工作,至今已在国际著名学术会议和期刊上发表论文500余篇,论文总计被引用50000余次,H-Index为102。近年来专注大模型的研发,带领团队研发了第一个中文多模态大模型“文澜”、有自主知识产权的“玉兰”系列大模型、第一个开源扩散大语言模型LLaDA等。担任中央统战部党外知识分子建言献策专家组成员、北京市第十四届政协常委、中国计算机学会常务理事等

报告摘要 

  本次报告聚焦一个问题:自回归是否是通向当前乃至更高水平的生成式智能的唯一范式?本次报告首先从统一概率建模的视角总结当前基础生成模型的发展,并从这个视角出发指出大语言模型的性质(如可扩展性、指令追随、情景学习、对话、无损压缩)主要来自于生成式准则,而非自回归建模独有。基于这些洞察,介绍扩散大语言模型LLaDA系列工作,包括基础理论、扩展定律、大规模训练、偏好对齐和多模态理解等。LLaDA通过非自回归的方式,展示了令人惊讶的可扩展性和多轮对话能力。这些结果不仅挑战了自回归的地位,更加深了我们对生成式人工智能的理解。

邀请人:钱铁云