bet9九州登陆平台-bet9九州登录入口-最新网站bet9九州登陆平台-bet9九州登录入口-最新网站

官方视频
多维对话——走向视听融合的语音交互新体验研究-bet9九州登录入口
来源:bet9九州登录入口    发布时间:2021-04-01 05:49:01
本文摘要:语音交互、语音交互逐渐成为人们表达意图和与设备交流的优先选择。

语音交互、语音交互逐渐成为人们表达意图和与设备交流的优先选择。与传统的交流相比,语音交流和平了双手和眼睛,人们可以以低成本与设备对话,而且语音多维,不仅语言本身的信息,语言中还包含着非常丰富的感情,允许人们与设备进行更充分的对话。

语音交互也有限制。语音交互是可视化的,容易减少人们的记忆负担,设想语音搜索信息的场景,可能需要集中精力听,不小心容易错过内容。

bet9九州登陆平台

鉴于此,正如人工智能专家吴恩达提到的,人与机器交流最高效的方式是语言,而机器与人最高效的交流方式是语言再加视觉,即必须在听力的基础上带入视觉信息来填补语音交流的严重不足。从语音延伸到视觉,在语音交流中带来可视化信息,已经是业界探索下一代语音交流模式的最重要趋势。

以智能扬声器为例,除了无屏扬声器外,市场上经常出现带屏幕的扬声器。百度人工智能交互设计院本期以屏幕智能设备为研究对象,探讨语音交互系统和内容输入环节的体验。考虑到屏幕尺寸的不同,可能会对系统和内容输入体验产生影响,研究了智能扬声器(7英寸)和智能电视(55英寸)两种不同屏幕尺寸的设备。

本期的主要研究问题包括1)屏幕设备的指令屏幕对系统体验,主要是指用户输出声音指令后,文本指令屏幕的延迟时间和文本指令在屏幕上显示的合理时间2)屏幕设备内容输入的音量障碍体验,主要是指用户在特定场景下(听音乐/看视频等)一、有屏幕设备的指令屏幕体验研究与无屏幕设备相比,显示器的带入使语音交互过程更加丰富。以语音识别阶段为例,在无屏幕设备中,用户通常不需要告诉输出指令的识别结果。

屏幕设备需要在屏幕上显示命令的识别结果,用户可以简单地识别识别结果的正确性和错误状况。例如,上画面后的命令听周杰伦的青花瓷。但是,现在很多设备在指令上画面时没有一定的延迟现象,本实验研究指令上画面的合理延迟时间和表现时间。

1、指令屏幕延迟时间实验,由于市场上的屏幕设备多采用动态屏幕方式,用户在输出声音指令的同时,开始在屏幕上显示识别结果,因此本实验只研究动态屏幕。在实验中,我们用于动态原稿的屏幕方式,以控制第一个字的屏幕延迟时间为主要变量(记录:第一个字的屏幕延迟时间是指从用户到第一个字的屏幕的时间间间隔),我们设定了不同的第一个字的延迟时间,提供了用户对指令屏幕速度的满意度评价(5点钟表:1-不失望,2-不失望,3-一般,4-满意,5-失望)。

在实验中,我们分别收到了三个长度不同的指令。实验结果表明,第一个字的延迟时间越高,用户的满意度越高,不同屏幕尺寸设备的第一个字的延迟时间的满意度就越不同,我们将4-满意视为用户失望的分数上限,将3-一般视为用户可以拒绝的分数上限,不同设备之间的用户失望和可以拒绝的上限如下:1)对于屏幕扬声器,用户失望的第一个字的延迟时间上限为500ms左右,可以拒绝的第一个字的延迟时间上限为1500-1600ms左右。2)对于智能电视,对于用户失望的第一个字的延迟时间上限为600ms-1000ms左右,可以拒绝的第一个字的延迟时间上限为10ms,可以拒绝的延迟时间上限为10000ms关于指令屏幕速度,产品还有提高和优化的空间。

也就是说,语音识别ASR技术除了大幅提高识别精度外,还必须注意识别速度指标的提高。2、命令上画面显示时间实验除了命令上画面时间外,还进一步研究命令上画面后的合理显示时间,以防止命令显示时间过短,用户看不清楚,或者显示时间过宽,交互过程整体拖延。

在实验中,我们以文字显示时间为主要变量(记录:文字显示时间是指文本命令的最后一个字在屏幕上后所有命令消失的时间间隔),提供用户对不同显示时间的满意度的评价。由于语音识别涉及语言模型技术,实际指令屏幕不是原稿的方式,因此本部分实验也模拟了屏幕的方式,以刘德华2010年前主演的香港电影为例,刘德华被整体识别后才上屏幕。在实验中,我们也分别得到了三个长度不同的指令。

bet9九州登录入口

bet9九州登录入口

实验结果表明,拟合的文字屏幕上没有显示时间,不同屏幕尺寸的设备之间,拟合的文字屏幕上显示时间没有明显差异。根据上画面方式的不同,原稿的上画面和上画面的拟合时间分别如下:1)原稿的上画面方式,拟合的命令时间为200-500ms的区间2)根据上画面方式,拟合的命令时间为400-700ms的区间。由于每个屏幕方式更像现实产品的屏幕方式,建议主要参考400-700ms的显示时间。

必须说明的是,动态屏幕的方式允许用户在输出语音指令的过程中查阅已经屏幕的文字,与整体识别后屏幕的方式显着不同,因此产品使用整体识别后屏幕的方式时,不建议参考本部分实验的结论。二、有屏幕设备的音量障碍体验研究有屏幕设备除了使语音交互更加丰富的系统外,屏幕的引进也扩大了设备过去没有的功能,如视频内容消费和视频通信能力等。同时,设备的使用也经历了从过去的单一任务到多个任务的变化。

看录像的时候,可以随时放入任务查询信息。例如,看电视剧《扶摇》的时候,可以找到演员杨幂的信息。

本部分实验主要研究用户进入任务后,前景内容与背景内容之间的音量障碍体验,如前景内容在语音播音员信息时,背景视频和音乐的合理音量范围,防止低背景音阻碍用户获取信息。1、音量阻碍实验在实验中,用户分别被拒绝在观看视频和听音乐两种场景下进行信息搜索。我们设置了两种初始音量(录音:初始音量是用户观看视频/听音乐的音量):60和65分贝,用户搜索人物和百科全书的信息后,设置了不同的背景音量(录音:此时的前景内容是语音播音员的信息,背景内容是视频和音乐)同时融合实验后问卷了解用户对前景和背景信息展示的态度。

由于不同设备之间的音量刻度范围没有差异,实验中分别设置了屏幕扬声器和智能电视的背景音量。实验结果显示,无论背景是视频还是音乐,用户都不讨厌背景几乎安静(录音:右图0表示背景几乎安静)。

bet9九州登录入口

对于屏幕扬声器和智能电视,当初的音量约为60分贝时,背景音量的舒适度范围不同,结果如下:1)对于屏幕扬声器,背景视频音量上升到36-53分贝范围,背景音乐音量上升到39-56分贝范围时,用户主观感觉舒适2)对于智能电视,背景视频音量上升到39-53分贝范围,背景音乐音量上升到36-53分贝范围时,用户主观感觉舒适在实验中,我们同时研究了初始音量为65分贝时背景音量的舒适度范围,实验结果与上述趋势大致相同,篇幅有限,继承人不一一进行。另外,融合实验后的问卷调查结果,关于背景的播放状态,背景是音乐时用户更偏向于播放,背景是视频时屏幕扬声器末端偏向于停止视频的用户更多。

主要是因为屏幕扬声器末端的背景影像几乎复盖了面积,所以用户最好停止背景影像,以免错过感兴趣的影像内容。关于前景内容的播放状态,无论画面尺寸的不同和背景媒体的类型,很多用户都希望在前景信息中展开语音播音员,在一定程度上以画面上的文字和文字的形式展开。三、总结本文对有屏幕设备的语音交互体验进行研究,重点探索统一视觉系统后交互体验系统和内容输入环节的体验问题。指令上画面的延迟时间和指令表示时间得出了我们的研究结果和设计建议,以及输入不同内容时的前景和背景的合理音量设定等。

从语音到视觉的延伸,语音交互的界限和外延还会发生很大变化。语音交互和传统的交互方式不是物理地址,而是彼此的关系,将来的嵌入式会带来听力、视觉、触觉、味觉、嗅觉等多模式的交互方式。未来的互动模式一定不是这些互动方式非常简单的六边形和罗列,而是在考虑到特定的场景、人的因素、环境条件等因素后有序、合理的人和设计。

百度人工智能交互设计院也不会继续关注多模式交互领域的研究和设计,大大输入我们的研究成果和意见。未来,语音交流,我们一起探索和变革。版权文章允许禁止发布。

下一篇文章发表了注意事项。


本文关键词:bet9九州登陆平台,bet9九州登录入口,最新网站

本文来源:bet9九州登陆平台-www.iranelectshop.com

上一新闻:反转!被美国政府罚款50亿美元后,Facebook的股价却回升了

下一新闻:丁香园全国疫情地图最新链接丁香园新型肺炎实时动态更新

推荐阅读

企业要闻

企业动态

门窗百科

太阳能着色 互补系统 易护理 保温 环保节能
预约报名 免费测量 免费设计 免费报价 免费安装 终身维护
版权所有©2011-2020 重庆市bet9九州登陆平台股份有限公司
渝ICP备52489118号-2
联系地址: 重庆市重庆市重庆区国同大楼25号
联系电话:091-79097078
联系邮箱:663395747@qq.com
传真号码:0309-53135306