当前热文:DiffusionBERT项目原作解读:掩码预训练语言模型的扩散生成探索

2023-01-09 14:32:31 来源:机器之心

扩散模型在图像生成任务上取得了较好的生成质量和令人满意的控制能力,因此在学术界和商业界都获得许多关注。然而,扩散模型的应用和理论工作都集中在连续空间上的 2D 图像生成,其他数据类型上的应用仍然在发展初期。文本的扩散生成面临的一个核心问题即如何将现有的连续扩散模型理论应用到离散的文本序列,目前存在两种主流的解决方案:将文本映射到连续空间或者采用广义的离散扩散过程。

机器之心最新一期线上分享邀请到了复旦大学卓博计划入选者贺正夫,为大家解读他们近期的工作 DiffusionBERT。

在这项工作中,作者们注意到离散扩散过程和 MLM 预训练模型的相似性,并利用预训练模型完成扩散生成过程,并针对其生成特性做出了两点针对性改进:首先去除了传统扩散模型 backbone 中的时间步模块,不为预训练模型引入任何新参数;再来,针对文本扩散生成过程的特点,重新调整了训练中的扩散过程,使其更接近采样阶段的输入分布。在无条件生成任务上的实验证明,DiffusionBERT 有远超现有扩散模型的收敛速度,并取得了更好的生成质量和多样性。


(资料图片仅供参考)

分享主题:DiffusionBERT:掩码预训练语言模型的扩散生成探索

分享嘉宾:贺正夫,复旦大学本科生,复旦大学卓博计划入选者。主要研究方向是预训练语言模型及其参数、数据高效的应用。

分享摘要:本次分享将首先介绍扩散模型在 NLP 领域的发展历程,进而介绍我们近期的工作 DiffusionBERT。我们将介绍一些对离散扩散模型和 BERT 类预训练模型结合的思考,并讨论其优势和局限性,以及该领域未来可能的研究方向。

相关链接:

1)SOTA!模型平台项目主页链接:

https://sota.jiqizhixin.com/project/diffusionbert

2)论文链接:

https://arxiv.org/abs/2211.15029

3)代码仓库:

https://github.com/Hzfinfdu/Diffusion-BERT

加群看直播直播间: 关注机器之心机动组视频号,北京时间 1 月 9 日 19:00 开播。 交流群:本次直播设有 QA 环节,欢迎加入本次直播交流群探讨交流。 如群已超出人数限制,请添加机器之心小助手:syncedai2、syncedai3、syncedai4 或 syncedai5,备注「DiffusionBERT」即可加入。 如果你也有最新工作希望分享或提交你感兴趣的内容方向,随时告诉我们吧: https://jiqizhixin.mikecrm.com/fFruVd3 机器之心 · 机动组机动组是机器之心发起的人工智能技术社区,聚焦于学术研究与技术实践主题内容,为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。 机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动,欢迎所有 AI 领域技术从业者加入。

关键词: 机器之心 扩散过程 复旦大学

为你推荐

推荐内容