四大模型革新NLP技术应用揭秘百度文心ERNIE最新开源预训练模型？_问答_开发者

2019年以来，基于深度神经网络的预训练技术在技术术创新和工业应用方面不断突破，但传统的预先训练技术仍有一些痛点困扰着开发者:

只考虑单粒度语义建模，缺乏多粒度语义理解能力

受到Transfor开发者_JAVA技巧mer结构建模长度瓶颈的限制，无法处理超长文本

集中语言等单一模式，缺乏工业实际应用场景

5月20日召开的2021深度学习开发者峰会WAVE在SUMIT中，依靠飞桨的核心框架，百度文心ERNIE最新开源四大预训练模型:多粒度语言知识强化模型的ERNIE-Gram、长文本理解模型的ERNIE-Doc、融合场景图知识的跨模型理解模型的ERNIE-ViL、语言与视觉一体的模型ERNIE-UNIMO。

针对传统式的预培训技术性现存的难点痛点，本次文心ERNIE开源的四大预培训模式不但在文本语义理解、长文本建模和跨模式理解三大领域取得突破，并且在功效上超过Google、微软等行业模式，并且具备广泛的应用场景和前景，进而协助产业智能化升级。

文心ERNIE开源版地址:https://github.com/PaddlePaddle/ERNIE

文心ERNIE主页地址:https://wenxin.baidu.com/

一、多粒度语言知识强化模型ERNIE-Gram

从产生ERNIE模型开始，百度研究者们通过预训练模型中引入知识，通过知识强化模型的方法提高模型的能力。本次发表的ERNIE-Gram模型通过显示式引入语言粒度知识，提高模型的效果。具体来说，ERNIE-Gram提出了显式n-gram口罩语言模型，学习了n-gram粒度语言信息，相对连续的n-gram口罩语言模型大幅度缩小了语义学习空间(rarr，其中是语表大小，建模的gram长度)

图1-1连续n-gram口罩语言模型vs显式n-gram口罩语言模型

另外，在显式n-gram语义粒度建模的基础上，ERNIE-gram提出了多层次n-gram语言粒度学习，利用wo-stream双流机制，同时学习

图1-2 n-gram 多层次语言粒度掩码学习

ERNIE-Gram在不增加任何计算复杂度的前提下，在自然语言推断任务、短文本相似度任务、阅读理解任务等多个典型中文任务上，效果显著超越了业界主流开源预训练模型。此外，ERNIE-Gram 英文预训练模型也在通用语言理解任务、阅读理解任务上效果超越主流模型。ERNIE-Gram的方法被录用于NAACL、2021主会长文。

论文地址：https://arxiv.org/abs/2010.12148

二、长文本理解模型ERNIE-Doc

Transformer 是 ERNIE预训练模型所依赖的基础网络结构，但由于其计算量和空间消耗随建模长度呈平方级增加，导致模型难以建模篇章、书籍等长文本内容。受到人类先粗读后精读的阅读方式启发，ERNIE-Doc 首创回顾式建模技术，突破了 Transformer 在文本长度上的建模瓶颈，实现了任意长文本的双向建模。

通过将长文本重复输入模型两次，ERNIE-Doc在粗读阶段学习并存储全篇章语义信息，在精读阶段针对每一个文本片段显式地融合全篇章语义信息，从而实现双向建模，避免了上下文碎片化的问题。

此外，传统长文本模型(Transformer-XL等)中Recurrence Memory结构的循环方式限制了模型的有效建模长度。ERNIE-Doc将其改进为同层循环，使模型保留了更上层的语义信息，具备了超长文本的建模能力。

图2-1ERNIE-Doc中的回顾建模和增强记忆机制

通过让模型学习文章级文本段落之间的顺序关系，ERNIE-Doc可以更好地建立文章体信息。

图2-2篇章重新排序学习

ERNIE-Doc显着提高了长文本的建模能力，可以解决许多传统模型无法处理的应用问题。例如，在搜索引擎中，ERNIE-Doc可以理解整个网页，并返回用户更系统的结果。在智能创作中，ERNIE-Doc可以用来生成更长、更有意义的文章。

超长文字理解模型ERNIE-Doc包括阅读理解、信息提取、篇章分类、语言模型等不同类型的13个典型的英语长文本任务取得了最佳效果。ERNIE-Doc的方法被ACL2021主会长文录用。

论文链接:https://arxiv.org/abs/2012.1568

三、融合场景图知识的跨模式理解模式ERNIE-ViL

跨模式的信息处理能力需要人工智能模式深入理解和综合语言、视觉、听觉等模式的信息。目前，基于预训的跨模式语义理解技术，通过对齐语料学习跨模式的联合表示，将语义对齐信号融入联合表示，提高跨模式语义理解能力。ERNIE-ViL提出了知识增强的视觉-语言预训模式，将包含细粒度语义信息的场景图（Scenetograph）知识融入预训过程中，构建了物体预测、属性预测、关系预测三个预训任务，使模式在预训过程中更加关注细粒度语义知识，更好地描绘跨模式语义对齐信息，从而获得更好的跨模式语义表达。

图3-1知识增强跨模预训ERNIE-ViL框架

ERNIE-ViL首次将场景图知识融入跨模预训过程，为跨模语义理解领域的研究提供了新的思路。该模型在视觉问答、视觉常识推理、引用表达理解、跨模型文本amp的图像检索等5个典型的跨模型任务中取得了领先的效果。ERNIE-ViL模型也在视频检索等实际工业应用场景中着陆。ERNIE-ViL的方法被AAAI-2021主会长文录用。

论文地址:https://arxiv.org/abs/2006.16934

四、语言与视觉一体的模型ERNIE-UNIMO

大数据是深度学习取得成功的关键基础之一。当前的预训练方法，通常分别在各种不同模态数据上分别进行，难以同时支持各类语言和图像的任务。基于深入学习的AI系统也能像人一样同时学习各种单模式、多模式等异模式数据吗？如果能实现的话，肯定会进一步打开深入学习大规模数据利用的界限，进一步提高AI系统的感知和认知。

为此，语言模型ERNIE-UNIMO提出了统一的模型学习方法，同时使用单模型文本、单模型图像和多模型文本训练数据，学习文本和图像的统一语义表示，具有同时处理多种单模型和跨模型下游任务的能力。该方法的核心模块是Transformer网络，在具体训练过程中，文本、图像和文字随机混合了三种模式数据，其中图像转换为目标顺序，文本转换为语言顺序，文本转换为目标顺序和语言顺序统一模式学习统一处理三种类型的数据，在目标序列和词序列中基于口罩预测进行自我监督学习，基于文字跨模式比较数据，实现图像和文本的统一显示学习。进一步，这种共同学习方法也增强了文本知识和视觉知识，有效提高了文本语义表现和视觉语义表现的能力。

该方法在语言理解和生成、多模式理解和生成、4种场景、共13个任务上超越主流的文本预训练模式和多模式预训练模式，同时登上权威视觉问答排行榜VQA、文本推理排行榜anli。首次验证了非平行的文本和图像单模数据，可以提高语言知识和视觉知识。这项工作被ACL2021主会长文录用。

论文地址:https://arxiv.org/abs/2012.15409

五、解决NLP技术问题，帮助产业智能化

文心ERNIE新开源预训练模型，不断推进NLP模型技术研究水平的创新和应用。

语言和知识技术被视为人工智能认知能力的核心。2019 年以来，百度凭借在自然语言处理领域的深厚积累取得了系列世界突破，发布了文心ERNIE语义理解平台，该平台广泛用于金融、通信、教育、互联网等行业，助力产业智能化升级。作为人工智能皇冠的明珠，NLP领域一直是人工智能技术开发和落地实践的前沿。百度文心平台基于领先的语义理解技术，帮助企业在NLP课程中跨越技术、工具、计算能力、人才等门槛，开发人员和企业，全面加快NLP技术，帮助全产业智能升级，为AI工业大生产插上智能翅膀。