微软Azure云服务:可通过学习掌握人类情感密码

镁客 9年前 (2015-11-13)

以后能够更愉快的和Cortana美女对话了?

想象一下,有这样一种服务,在你的房子烟雾报警器响起时,能帮忙屋里的呼救声传达出去;它能记得住每个经过房子周围的人;并且通过识别你的声音就能为你开门,甚至识别出你的情绪变化。是不是觉得不可思议?去年5月在Microsoft's Build的开发者会议中,微软介绍了正在牛津大学开发中的Azure项目:一组基于云计算的机器学习服务。

这些服务能执行一系列的图像处理和识别任务,提供语音合成和语音识别服务,甚至是将自然语言转换成计算机命令的应用程序。服务同样可应用于微软的Cortana私人助理和Skype的翻译服务,这意味着它同时能识别六种语言并进行实时通话(包括50种语言的文字信息)。五月的一个周一,微软升级了面部识别系统API,并借由Movmber基金会推出了一个“11月不刮胡子”筹款活动:参与者通过面部毛发识别API,可以识别是否有胡子,胡子增长情况并为其分配一个评级(以及添加一个小胡子“标签”的面部毛发的事件窗)。

同样的,微软为这些基于网络请求的RESTful接口添加额外的声音,文本和图像服务,包括一系列新将人工智能应用于处理视频内容等全新体验。接下来的某个周二晚上,来自微软剑桥研究院的负责人Chris Bishop,以及微软技术和研究部门高级项目经理Ryan Galgon共同在伦敦的微软未来规划会议上,作为该会议的主题之一,就这些新这些服务做了简单介绍。新的API细节也将于今天早上在一篇博客文章中公布。它们包括:

情感识别:这是Azure的基础服务,可用于一套新的公共测试服务,可以处理图像,收集面部图像用以描绘不同的人类情感。这项服务可以将情感分类显示在一个图像上。Azure可以使用元数据应用于图像识别人们的快乐或者悲伤情绪,也可以用于收集特定事件数据对人们造成的反应。

拼写检查:基于Web API的拼写检查器,可以集成到任何移动网络或云应用中检查单词拼写错误,但也有它做不到的地方,比如当字母大写时,或上下文衔接中的拼写错误等问题。Galgon介绍,因为在云端,无法即时更新,所以不能根据拼写的变化或使用场景而改善其拼写规则。“例如,直到最近,拼写检查器还会认为“Lyft”是拼写错误的“lift”,Galgon解释道。拼写检查服务项目可以根据上下文以确定恰当拼写的实现。

视频处理:根据技术开发Microsoft's Hyperlapse视频处理工具,今年年底前该服务可以上线使用。它可以处理大量的视频,在视频中识别独特的脸和追踪它们。它还可以在视频中检测运动的人或对象本身。使用这些检测功能,机器学习算法可以编辑视频,基于一组参数执行稳定图像操作,并通过视频剪辑去除过多的摄影机运动。

语音识别:Azure已经能相当熟练的将语音转换为文本信息,但是新的语音识别功能(也在今年年底)将允许应用程序执行一个身份检查功能:是谁在说话。Galgon表示,语音识别不是为了替代身份验证工具。但它可以用来检测用应用程序的变化,增加额外的身份验证措施,这项应用需求更少,安全要求也更严格,它可以用来识别具体用户,例如,识别人在一次电话会议中讲话或视频的字幕。

自定义情报识别服务(CRIS):一个可创建私密数据的工具,CRIS允许开发人员构建语音识别服务的应用程序以满足更多要求,无论它们在何处被使用或是谁在使用它们。Galgon表示,例如,CRIS服务可以用来处理语音,即使在体育馆广场,有很大的回声巷口空间或有球迷欢呼的背景噪音等环境下依然可以识别出特定的语音信息。在另一个实例运用中,CRIS在教室中正确识别出了一个五岁孩子的语音,并将它转换为零差错文本。

除了面部毛发特性,微软也做了额外的调整。性别和年龄检测功能已得到改进,并将“微笑预测”工具添加到面部图像应用程序接口。

最后,记得关注微信公众号:镁客网(im2maker),更多干货在等你!

镁客网


科技 | 人文 | 行业

微信ID:im2maker
长按识别二维码关注

硬科技产业媒体

关注技术驱动创新

分享到