微软分享史上最大基于Transformer架构的语言生成模型

微软AI&Research今天分享了有史以来最大的基于Transformer架构的语言生成模型Turing NLG(下文简称为T-NLG),并开源了一个名为DeepSpeed的深度学习库,以简化对大型模型的分布式培训。

数据还反映出,目前复工率最高的行业是外卖员、司机和家政保洁,待复工比例均为50%。这表明,有一半的外卖小哥、司机师傅和保洁阿姨已经上岗。

微软表示,DeepSpeed和ZeRO使得他们能够降低模型并行度(从16降低到4),将每个节点的批处理大小增加四倍,并将训练时间减少了三分之二;DeepSpeed使用更少的GPU可以使大型模型的训练效率更高。

在政务服务中心,代表了解办理省级部门行政审批事项办理流程,亲身感受政务服务的规范严谨。

雷锋网原创文章,。详情见转载须知。

微软AI研究应用科学家Corby Rosset在博客文章中写道:“除了通过汇总文档和电子邮件来节省用户时间之外,T-NLG还可以通过为作者提供写作帮助,并回答读者可能对文档提出的问题,由此来增强Microsoft Office套件的使用体验。” 

去年8月,英伟达曾宣布已训练世界上最大的基于Transformer的语言模型,当时该模型使用了83亿个参数,比BERT大24倍,比OpenAI的GPT-2大5倍。

德国外交部发言人布鲁尔解释称,此次峰会旨在为利比亚寻求和平道路,其间不会讨论土耳其和利比亚签署有争议的海上边界协议。

而此次微软所分享的模型,T-NLG的参数为170亿个,是英伟达的Megatron(现在是第二大Transformer模型)的两倍,其参数是OpenAI的GPT-2的十倍。微软表示,T-NLG在各种语言建模基准上均优于最新技术,并在应用于许多实际任务(包括总结和问题解答)时表现出色。

米佐塔基斯还透露,他已致信欧洲理事会主席夏尔·米歇尔和欧盟委员会主席冯德莱恩,向他们阐述希腊的立场。

不过,像Google的Meena一样,最初使用GPT-2,T-NLG最初只能在私人演示中共享。

报告分析称,疫情防控期间,超市、药店等零售点照常营业,这让不少售货员群体投入了工作。而为了群访群控疫情,不少小区启动了“出入登记”“量体温”“封堵出口”等工作,需要更多保安值守。与此同时,消费者减少了外出购物,更依赖于电商购物,物流的需求加大也让快递员返岗复工。(完)

基于Transformer的架构,意味着该模型可以生成单词来完成开放式文本任务。除了完成未完成的句子外,它还可以生成对输入文档的问题和摘要的直接答案。

贵阳市第二实验中学地理老师王蓉榕说,政务大数据服务社会民生的强大能力给我留下深刻的印象,一张网、一扇门里利用大数据实现“一条龙”服务,快速便捷。作为老师,我将和学生们分享这次活动经历,用这次参观跟学生讲解大数据的便捷,希望在今后的教学里也将大数据运用起来。

开发人员和机器学习从业人员都可以使用DeepSpeed和ZeRO,因为培训大型网络(例如利用Transformer架构的网络)可能会很昂贵,并且可能会遇到大规模问题。

同样是在今天,微软还开源了一个名为DeepSpeed的深度学习库。该学习库已针对开发人员进行了优化,以提供低延迟、高吞吐量的推理。

为避免聚集就餐,不少消费者选择点外卖在家就餐,因此外卖员复工比例高。为避免乘坐公交地铁,有出行需求的人大多选择网约车出行,医疗物资、快递物品需长途运输,这让司机的复工比例也较高。

图为公众代表在贵州省政府楼前合影。杨茜 摄

贵州省政务服务中心2019年新增进驻事项1500多项,是省政务服务中心成立以来贵州全省进驻事项最多的一年。贵州政务服务网从全省五级全覆盖转变为六级全联通,按照“一云一网一平台”工作机制,投入6778万元推进“淘宝式”门户建设,实现了从“一人一面”到“千人千面”的转变,实现“让群众企业办事像‘网购’一样方便”。

微软表示,他们的目标是在任何情况下都能够像人类一样直接,准确,流畅地做出响应:以前,问题解答和摘要系统依赖于从文档中提取现有内容,这些内容可以作为备用答案或摘要,但它们通常看起来不自然或不连贯。使用T-NLG这样的自然语言生成模型,可以自然地总结或回答有关个人文档或电子邮件主题的问题。

贵州大学教师许鹿认为,以这样一种形式,让我们了解政府工作的方式,获益颇多,希望将来能有更多元化、多样性的形式,让更多人了解政府工作方式。同时,许鹿希望可以加大工作人员业务培训力度,让在具体服务流程上的便利度和改革政策的解读上能进一步深化。(完)

此外,售货员、保安、快递员待复工比例也较低,分别为54%、63%、67%。

此次开放日上,30名代表们还与贵州省政府副秘书长田茂松以及相关处室负责人进行了座谈,了解省政府办公厅职责,贵州教育发展现状以及教育扶贫取得的重大突破,并对贵州政务服务管理体系及服务体系的完善提升进行了沟通交流。

数据显示,等待复工用户中,比节前通知延后的占比30%,通知日期未定的占比29%,与节前通知一致的占比22%,公司开工本人未到的占比4%。16%的已开工用户中,与节前通知一致的占比10%,比节前通知提前的占比5%。

图为贵州省政府副秘书长田茂松及有关领导与公众代表座谈交流。杨茜 摄

具有Transformer架构的语言生成模型可以预测下一个单词。它们可用于编写故事,以完整的句子生成答案以及总结文本。

在“省政府开放日”活动中,听取公众代表意见建议作为必备环节,先后就“十大民生实事”“创新创业”“精准扶贫”“数据、大扶贫、大生态”三大战略等问题征求了公众意见建议。

自2014年以来,贵州省政府每年开展“省政府开放日”活动,共邀请近200名公众代表走进省政府大院及省直机关,参观政府和部门办公场所,了解政府工作流程,提出意见建议,拉近了政府与群众之间的距离。

布鲁尔说,德国政府完全理解希腊政府对利比亚的关切,特别是对海上边界问题的关注。但他拒绝就制定会议参与国家名单的标准发表评论。(梁曼瑜)

报告称,疫情期间,大部分企业延迟了开工时间,还有29%的用户所在企业并未确定复工日期。也有5%的企业比节前通知提前开工,这些企业大都处于医疗器械、防疫物资生产、物流、零售等行业,为疫情防控和保供稳价的正常运营而提前了上班时间。

来自AI领域的专家告诉VentureBeat,2019年是NLP模型开创性的一年——使用Transformer架构无疑是2019年最大的机器学习趋势之一,这导致了语言生成领域和GLUE基准测试领导者的进步,Facebook的RoBERTa、谷歌的XLNet和微软的MT-DNN都纷纷加入到各类基准测试榜首的争夺当中。

DeepSpeed包含零冗余优化器(ZeRO),用于大规模训练具有1亿个或更多参数的模型,微软过去曾用它训练T-NLG。