百度有一种新的技巧可以教AI语言的含义

Android社区 收藏文章

960a304e251f95ca9f00646f0fcd9e3b65095256.jpeg

GLUE是AI系统理解人类语言的良好标准。它由九种不同的测试组成,这些测试包括选择句子中的人员和组织的名称以及弄清楚“ it”等代词在存在多个潜在先行词时的含义。因此,在GLUE上得分很高的语言模型可以处理各种阅读理解任务。在满分100分中,此前在 GLUE 测试的平均分为 87。百度现在是第一个凭借其模型ERNIE获得超过90分的团队。

GLUE的公开排行榜在不断变化,另外一支团队很可能很快会超越百度。但值得注意的是,百度的成就说明了AI研究如何从众多贡献者中受益。百度的研究人员必须开发一种专门针对中文的技术来构建ERNIE(代表“知识增强的语义表示模型 ”)。碰巧的是,同样的技术也使它更好地理解英语。

在Transformer的双向编码器表示(BERT)于2018年末创建之前,自然语言模型并不是那么好。他们擅长预测句子中的下一个单词(因此非常适用于自动完成功能),但即使经过一小段时间,他们也无法承受任何思路。这是因为它们不理解含义,例如“它”一词可能指的是什么。

但是BERT改变了这一点。先前的模型学会了仅通过考虑单词之前或之后出现的上下文来预测和解释单词的含义,而不能同时考虑两者。换句话说,它们是单向的。

相比之下,BERT一次考虑单词前后的上下文,使其双向。它使用称为“掩码”的技术来执行此操作。在给定的文本段落中,BERT随机隐藏15%的单词,然后尝试从其余单词中进行预测。这使得它可以做出更准确的预测,因为它具有两倍的工作线索。例如,在“男子去___购买牛奶”一句中,句子的开头和结尾都提示了缺失的单词。 ___是您可以去的地方,也是可以购买牛奶的地方。

使用掩码是对自然语言任务进行重大改进背后的核心创新之一,并且是诸如OpenAI著名的GPT-2之类的模型可以撰写极具说服力的散文而又不偏离中心论题的部分原因。

百度研究人员开始开发自己的语言模型时,他们希望以掩码技术为基础。但是他们意识到他们需要进行调整以适应中文。在英语中,单词充当语义单元,这意味着完全脱离上下文的单词仍然包含含义。中文字符不能说相同。尽管某些字符确实具有内在含义,例如火、水或木,但大多数字符只有与其他人串在一起才可以。例如,根据匹配,字符灵可以表示聪明(机灵)或灵魂(灵魂)。一旦分开,专有名词中的字符(例如,波士顿或美国)就不是同一件事。

因此,研究人员在新版本的掩码上对ERNIE进行了培训,该掩码可隐藏字符串而不是单个字符。他们还训练了它以区分有意义的字符串和随机的字符串,从而可以相应地掩盖正确的字符组合。结果,ERNIE对单词如何用中文编码信息有了更深入的了解,并且在预测缺失片段方面更加准确。事实证明,这对于从文本文档进行翻译和信息检索等应用程序非常有用。

研究人员很快发现这种方法实际上实际上也适用于英语。英语中具有类似的单词字符串,这些单词表示的含义与其部分和的总和不同。无法通过将“ Harry Potter”等专有名词和“ chip off the old block”之类的表达式分隔来有意义地解析它们包含的意思。

相关标签
 相关文章
王慧文病休53天,旗下OneFlow团队重新创业 1年以前  |  1次阅读
智己CEO现场怒怼!不满LS6和小鹏G6当对手 1年以前  |  1次阅读
董明珠回应落榜世界500强:总比爆雷的世界500强好 1年以前  |  1次阅读
阿里云上线 AI 视频生成工具 Live Portait:可一键让照片开口说话 1年以前  |  78次阅读
妙鸭相机将并入神力视界,阿里大文娱CTO郑勇:不是“搬家”是“回家” 1年以前  |  85次阅读
特斯拉上海超级工厂约40秒下线一台车,零部件本土化率超95% 1年以前  |  69次阅读
宁德时代发布神行超充电池,可实现充电10分钟行驶800里 1年以前  |  71次阅读
中科院博士被骗到缅甸已一年!女友:他负债几万,家里条件一般,以为去当翻译 1年以前  |  85次阅读
小鹏汽车否认收购玛莎拉蒂传闻:系谣言 1年以前  |  63次阅读
联想二季度净利润猛降66%,股价应声跳水 1年以前  |  80次阅读
业内人士:视觉中国对不同侵权主体采用差异化策略,老客由销售沟通新客发律师函 1年以前  |  70次阅读
恒大集团在美国申请破产保护 1年以前  |  56次阅读
劳斯莱斯首款纯电轿跑将在北美亮相 1年以前  |  89次阅读
realme印度前CEO确认加盟荣耀,即将推出手机新品 1年以前  |  88次阅读
OpenAI正在测试内容审核系统,一天可以完成六个月的工作 1年以前  |  80次阅读
谷歌百人“复仇者联盟”出击,将发对标GPT-4的大模型,26位研发主管名单流出 1年以前  |  77次阅读
OpenAI收购数字产品公司Global Illumination,为创立以来首笔公开收购 1年以前  |  80次阅读
海口规定:电动汽车充电服务费不得超过0.65元每度 1年以前  |  80次阅读
波音任命柳青为波音中国总裁 1年以前  |  88次阅读
业内人士谈图片复杂代理链:图片代理商越多摄影师分成越少 1年以前  |  67次阅读

扫一扫

在手机上阅读