图片 13
移动互联

与此同一时间还扶助多个人、远场语音转录,又一年微软满世界开荒者大会如期而来

雷锋网按:会话转录能够实时进行?而且还支持多人、远场语音转录?是的,这些新的转录功能都是微软研究所近期在口语处理上取得的新进展,雷锋网将其文章全文编译如下。

图片 1

在强大的云计算基础设施和大量训练数据的支持下,深度学习算法如今已经成为了
AI
进化之旅的最重要驱动力。下面的几个任务是语音和语言社区里广泛使用的公开基准测试,在过去的三年里,微软首次在这些任务上取得了可以和人类相媲美的表现。

新智元原创

2017:语音识别:对话语音转录任务

来源:微软

2018:机器翻译:汉英新闻翻译任务

编辑:金磊、肖琴

2019:对话问答:斯坦?;峄拔蚀鹑挝?/p>

今天,微软召开一年一度全球开发者大会 Build
2019。微软CEO纳德拉在会上发布了一系列重磅产品,其中极具未来感的办公产品格外吸引眼球。现在让我们来看看微软今年又带来了哪些惊喜吧!

这些突破对从翻译应用到智能扬声器的众多口语应用产生了深远的影响。虽然现在市面上已经有了智能音箱,但大多数智能音箱一次只能处理一个人的语音指令,并且在发出这样的指令之前,需要一个唤醒词。微软研究在Azure语音服务中加入了一些重大的技术突破,并提供了新的对话转录功能,该功能将在今天的预览版中提供。通过微软所引用的设备SDK
,纯音频或视听麦克风阵列设备的可用性增强了这一功能。这是人工智能进化过程中的重要一步,因为几十年来,环境远场多人语音转录一直是科幻小说的主要内容。

未来感爆棚!

新的会话转录功能扩展了微软现有的Azure语音服务,支持实时、多人、远场语音转录和说话人归因。与语音DDK相结合,会话转录可以有效地识别房间里一小群人的会话语音,并生成一个处理常见但具有挑战性的场景的转录。

又一年微软全球开发者大会如期而至,同样的纳德拉,带来了一个极具未来感的微软。

对于有兴趣尝试具有视频功能的端到端转录解决方案的客户,微软正在与部门客户和像Accenture、Avanade和Roobo这些的系统集成伙伴接洽,分别在美国和中国定制和整合对话转录解决方案。这种先进的能力类似于微软在去年的构建中首次演示的功能。感兴趣的企业可以向微软申请预览,体验由人工智能支持的对话转录是如何提高协作力和生产力的。

图片 2纳德拉在本次大会上发布了Azure和开发者相关众多产品,堪称“全家?!绷料啵?#8221;
style=”width:60%;margin:1rem auto”>

微软不断创新去超越传统的麦克风阵列和先进的视听麦克风阵列DDKs。今天,微软还公布了最新的研究进展,该项目利用一组现有的设备,如配备普通麦克风的手机或笔记本电脑,动态创建虚拟麦克风阵列。虚拟麦克风阵列将现有设备(如手机或笔记本电脑)与普通麦克风动态地组合成一个更大的阵列。丹麦项目可以帮助微软的客户更容易地使用Azure语音服务,随时随地转录对话,无论有没有一个专门的麦克风阵列DDK。未来的应用程序场景是非常广泛的。例如,我们可以对多个微软翻译器应用进行配对,以帮助多人更有效地使用移动电话进行沟通,从而将语言障碍降到最低??梢栽?/Build
Vision Keynote查看最新研究进展和演示。

{“type”:1,”value”:”未来会议室公布“丹麦项目”;

图片 3

微软Teams增设AR隔空办公;

【 图片来源:

AI辅助编码IntelliCode发布预览版;

Microsoft Research Blog

上线基于Chromium重新打造的Edge浏览器;

所有者:Microsoft Research Blog 】

Cortana的会话功能得到很大改进;

最后,如果有像缩略语这样的专业词汇,准确的语音转录是非常困难的。为了解决这个问题,微软正在扩展Azure的自定义语音识别功能,并允许组织使用Office
365数据轻松地创建自定义语音模型。对于选择使用该服务的Office
365企业客户,Azure可以自动生成一个自定义模型,该模型利用Office
365中的联系人、电子邮件和文档等数据,以一种完全隔离、安全且兼容的方式进行操作,在组织特定的方言上提供了更准确的语音转录,如技术术语和人员姓名。对于有兴趣尝试这个新功能的客户,微软将为您的组织提供一个私人预览,让您从专用的和优化的语音服务中获益。

收购首个使用微软AI的自主系统Bonsai

图片 4

开放量子编程语言Q#和量子编译器源代码

Microsoft Research Blog所有者:Microsoft Research Blog 】

其中,最引人注目的当属微软在办公领域的一些列突破,可以说是极具未来感与科幻感,引得网友一片惊呼。当然,开发者相关的众多发布也是非常吸睛的!

微软的Azure语音服务一直支持微软自己的M365解决方案以及许多使用相同统一语音平台的第三方客户。从Allstate到小米,都开始利用Azure语音服务来加速他们的数字化转型。
微软可以使用NLP技术进一步增强最终的自动会议记录和Azure会话转录,例如机器翻译、QA,去帮助客户实现更多目标。

“未来会议室”再升级,秒杀同传+速记

雷锋网注:本文编译自Microsoft Research Blog

在去年Build大会上,微软推出的未来会议室使用的是360度相机和麦克风阵列,可以检测会议室中的任何人说话。摄像头能够把各个画面拼成一个全景画面,还可以进行人脸识别,以确保参会者的身份。此外,还能把会议室预约系统做进去。

图片 5微软全球开发者大会
Build 2018 展示未来会议室” style=”width:60%;margin:1rem auto”>

{“type”:1,”value”:”更强大的是,这个未来会议室还有基于语义分析的会议纪要功能,能够实时同传+速记。这着实亮瞎了一票观众,纷纷表示同传、速记要失业了。

细心的读者可以发现,未来会议室中间会有一个黑色的柱状物体,这便是麦克风阵列中的“重要设备”。

而在今年的 Build
大会上未来实验室再升级,公布了“丹麦项目”——简单来说就是让你身边配有的普通麦克风“秒变”虚拟麦克风阵列:

图片 6“重要”设备,拿掉!”
style=”width:60%;margin:1rem auto”>

{“type”:1,”value”:”虚拟麦克风阵列将现有设备 (如手机或笔记本电脑)
与普通麦克风如搭乐高积木一般动态地组合成一个更大的阵列。丹麦项目可以帮助客户在有或没有专门的麦克风阵列
DDK 的情况下都可以更容易地转写对话,随时随地使用 Azure 语音服务。

丹麦项目未来的应用场景非常广泛。例如,可以对多个 Microsoft Translator
应用程序进行配对,更有效地帮助多人使用移动电话进行沟通,从而将语言障碍降到最低。

网友们不禁惊呼:“真的是越来越智能了!”

但推动微软AI演进历程,与其近三年来在语音和语言研究中的突破密不可分。微软在以下几个广泛使用的公共基准测试任务中,率先实现了
AI 超越人类水平的历史性里程碑:

2017年:在对话语音转写任务(Switchboard) 中,微软语音识别系统的词错率降到
5.1%,准确率超过专业速记员。

2018 年:在汉英新闻机器翻译任务
中,微软机器翻译系统达到了可与人工翻译媲美的水平。

2019 年:在斯坦福对话式问答任务
中,微软机器阅读理解系统刷新记录,成为目前排行榜上唯一一个模型分数超过人类分数的团队。

这些突破对从翻译应用到智能音箱等众多口语应用产生了深远的影响。虽然现在市面上已经有智能音箱,但大多数智能音箱一次只能处理一个人的语音指令,并且在发出指令之前,需要一个唤醒词。

微软已将一些重要的技术突破加入到 Azure
语音服务中,并提供新的对话转写功能,该功能已经在今天的预览版中提供。该功能通过微软的
Devices SDK
,纯音频或视听麦克风阵列设备得到了增强。这是人工智能进化历程中的重要一步,因为环境远场多人语音转写几十年来都没有得到突破性的进展。

新的会话转写(Conversation Transcription) 功能扩展了微软现有的 Azure
语音服务,支持实时的远场多人语音转写和说话人归因。与 Speech DDK
相结合,房间里有一群人在谈话时,会话转写也可以有效地识别每个人的语音,处理诸如交叉对话等常见但具有挑战性的场景,并生成转写。

会话转写功能利用多通道数据,包括来自代号为 Princeton Tower 的 Speech DDK
的音频和视觉信号。边缘设备是基于参考设计的 360 度音频麦克风阵列或 360
度鱼眼摄像头,通过视听融合来支持更好的转写。边缘设备将信号发送到 Azure
Cloud 进行神经信号处理和语音识别。

隔空办公,身临其境

很多时候办公会因为地域的差距不得不选择出差,但是微软在此次发布会中展示了未来办公的方式——无需出差便可身临其境!

只需双方都打开微软的Teams软件,建立一个AR“房间”,戴上AR眼镜,便可以开始隔空办公了!

更神奇的是,隔空双方还可以通过AR进行互动。

图片 7

当然,虚拟交互、创作也是不在话下的。

图片 8这看起来仿佛只有在科幻大片中才能见到的工作方式,已然开始进入我们的生活了!”
style=”width:60%;margin:1rem auto”>

{“type”:1,”value”:”因为与面对面的人交谈总是比视频聊天或通过电话更好,这样的技术会使项目上的合作变得更加容易。

AI辅助编码——IntelliCode发布预览版

发布会上还晒出来AI辅助编码工具,现在已经普遍可用!

它支持Visual Studio中的C#和XAML以及Visual Studio
Code中的Java,JavaScript,TypeScript和Python。
默认情况下,它现在也包含在Visual Studio 2019中。

IntelliCode本质上是下一代IntelliSense(微软极受欢迎的代码完成工具)。那么又是什么原因使得
IntelliCode与众不同呢?

答案是微软通过向GitHub提供数千个至少有100颗星的开源项目的代码来训练它。
使用此数据,该工具可以制作更智能的代码完成建议。
它还会在提出建议时考虑当前的代码和上下文。

图片 9默认情况下,IntelliSense会为开发人员提供按字母顺序排列的列表。虽然这很有用,但是用户需要的代码往往是列表中的一些项目。”
style=”width:60%;margin:1rem auto”>

{“type”:1,”value”:”像IntelliCode这样的工具的承诺是让开发人员的生活更容易,提高生产力,减少bug的可能性。随着这些工具变得越来越智能,它们很可能能够更深入地进行预测,甚至可能建议根据用户要实现的内容以及其他人如何解决类似问题的知识自动完成程序代码的大部分。

基于Chromium重新打造的Edge浏览器上线,内置IE模式

2015年发布的Edge浏览器,一直没有取得太大进展。

事情到了不得不改变的时候。2018年末,微软做出了一个巨大的决定:抛弃微软自己开发的浏览器内核,采用Chromium内核重新开发。

图片 10基于 Chromium
内核的新 Edge 浏览器” style=”width:60%;margin:1rem auto”>

{“type”:1,”value”:”上个月,微软终于正式公开了基于 Chromium 的 Edge
浏览器,向 Windows 10 用户开放了首批测试版本。

在今天的大会上,Edge 浏览器迎来三个新的变动,一是 IE
模式,二是隐私控制,三是收集功能。

IE模式

图片 11

新标签页打开IE模式

新版本Edge浏览器将内置IE模式,只需在Edge内打开一个新标签页就可以直接访问IE模式。也就是说,你可以在Edge浏览器中运行基于Internet
Explorer的旧版web应用程序,而无需切换到其他浏览器。

收集功能

Edge还增加了新的收集功能(Collections),微软表示,收集功能可以帮助用户更有效地收集和组织内容,而且该功能还与Office集成。
打开Edge浏览器右侧的面板,可以显示所有收集,也可以通过将想要的内容拖放到面板中直接收集。

隐私控制

Edge浏览器将支持全新的隐私控制,你可以在无限制、平衡和严格三种模式中选择。根据你选择的隐私控制模式,Edge
会自动调整设置,限制第三方和网站通过互联网跟踪你的行为。

尽管微软表示这些新功能将在下一版本的Edge浏览器中推出,不过还没有说明具体日期。目前可以在官网下载开发版本尝鲜。

小娜没黄:技能型的语音助理,不止是对话

2018年,谷歌大秀了一把Google
Assistant的“Duplex双工技术”,一通如同真人一般的订座电话让人惊呼“给你打电话的可能不是人”。相比之下,微软的数字助理Cortana似乎没有太多声音。

不过,微软一直在慢慢地将Cortana重新定位为一种“技能型语音助理”,而不是Google
Assistant、亚马逊Alexa或苹果Siri的竞争对手。

在今天的大会上,微软展示了Cortana如何响应对话、主动组织会议和提醒。接近3分钟的demo中,Cortana与用户无障碍对话,像一个真正的工作场所的“助理”,同样令人印象深刻。

Cortana的会话功能得到了很大的改进。微软去年收购了Semantic
Machines公司,他们与微软的研究人员合作,正在构建一种会话AI,将技能和上下文语义结合起来,让Cortana这样的数字助理真正能做你让它们做的事情。

收购Bonsai:首个使用微软AI的自主系统

今年Build大会的一个有点意外的主题是——自主机器人。

图片 12这个小小的蛇型机器人叫Sarcos
Guardian S,可以爬过地震后的碎石废墟等人类无法进入的地方。”
style=”width:60%;margin:1rem auto”>

{“type”:1,”value”:”不过,Sarcos机器人仍需要人类操作员远程控制。现在,微软和
Sarcos 合作,为 Guardian S 增加智能功能,使其能够自主地导航。

这得益于微软去年收购的专注于增强自主系统学习能力的AI初创企业Bonsai。微软正在构建一个端到端的工具链,帮助每个开发人员和组织更轻松地为自己的场景创建自主系统——无论是自主机器人,还是可以检查远程设备的无人机,或通过自动校准设备帮助减少工厂?;奔涞南低?。

今天,微软宣布了该平台的第一个预览版本的自主系统,开发人员可以与专家合作,使用可自主运行物理系统的Microsoft
AI 和 Azure 工具构建智能体。

开放量子编程语言Q#和量子编译器源代码

量子计算方面,微软宣布将在不久的将来开放Q#编译器和量子模拟器的源代码,作为量子开发套件的一部分。

图片 13微软表示这个想法是为了帮助研究量子计算的研究人员和大学更深入地使用这些工具,以帮助他们开发和理解量子技术。”
style=”width:60%;margin:1rem auto”>

{“type”:1,”value”:”简而言之,该工具包具有开发人员构建自己的量子计算程序和实验所需的一切。你可以使用它来学习基本的量子概念,编写第一个量子应用程序代码,并提供真实的解决方案。{“type”:2,”value”:”

发表评论

电子邮件地址不会被公开。 必填项已用*标注

相关文章