让视频会议系统多一些人工智能! - [1]

Video.com.cn(视频网) 2008-05-29 16:12 来源: 中计报

   网络视频会议中,人们都希望能实现发言人的特写与其声音同步的音视频效果。那么,这一技术如何突破传统的人工搜索方式,让设备自己也能“寻声辩人”呢?

  说话人的声音不能被清楚地收音,会议双方听不到对方的声音,产生回音或者断续音现象从而使与会双方无法互相理解……即使现在使用视频会议系统时,我们仍常遇到这样的问题。如何尽可能逼真地远程再现会议环境的声音和图像,给人以身临其境之感,一直是声音处理领域的头等课题。

  在视频会议产品领域,中国产品重视视频编解码与声音处理技术,欧美产品更着重软硬件设备、管理套件以及与统一通信架构融合的研究,而日本的产品则坚持其一贯的技术分工精细的主张:索尼在显示器领域深耕,雅马哈则在音频处理领域细作。

  日前,日本雅马哈在中国推动PJP(Projectphone)网络会议系列产品巡展,试图为该领域引入另一种完全不同的技术解决思路。通过本报记者对日本雅马哈株式会社Sound Network事业部长田丸卓也、雅马哈中国网络会议系列产品技术总监谷田的专访,以下问题将得到解答:雅马哈会采用哪些技术解决目前声音传输的瑕疵,并辅助视频功能?视频会议中恼人的回声与吞字现象如何得到解决?会议中重要的录音功能,该如何设计?如何以人工智能的思路来设计网络与视频会议产品,最终使这一计算机科技成果贴近自然、符合人类习惯?

让机器学会寻声辨人

  据谷田介绍,如何将新型视频会议系统拟人化,以贴近人工智能需求,是雅马哈PJP系列倡导的最新网络会议技术理念。这些理念将通过瞬间呈现技术、声音非增幅音响设计、内置适应型回声消除器等一系列技术得以体现。

  假如甲地和乙地一起举行远程视频会议,甲地人员如何清楚确定乙地哪位与会者正在发言(视频追踪)十分重要。在处理这一问题上,思科、北电-宝利通采取的措施霸气十足:打造一个30万美元以上的网真会议室,租用超宽带宽传输声音和图像,用超大电视墙1∶1地还原场景和参会者;而苏州科达等国内企业的做法相对经济实惠:用甲地员工手中的遥控器去控制乙地会议室摄像头的转动和焦距调节,寻找小显示屏幕一次装不下的参会者或给出特写镜头。总体来说,这两种做法都使用的是“寻声辨人”的方式,但用的是人眼搜索。

  雅马哈给这一问题增加了一条技术解决路径,那就是使摄像头学会寻声辨人。谷田向记者介绍道:“不要忽略人类都是‘寻声望去’这一听觉的天性,在视频会议系统中,视频显示与声音的处理技术其实是密不可分的。以PJP-300V这款摄像头、麦克风、扬声器一体机为例,它可以实现说话人瞬间显示的功能。即使使用普通液晶屏幕,会议发言人的特写和声音也能瞬间呈现。”这项技术的实现,依靠的是在PJP-300V上面配列16个麦克风阵列,可以自动判别说话人的位置;通过说话人的位置信息和3个摄像机的切换、联动,使说话人可以瞬间在屏幕上显示出来。这项技术不需要摄像头的切换动作,保证了会议顺畅进行。同时这项瞬间呈现技术,在桌面型VoIP电话中也可以应用,使音频会议呈现立体感,实现与语话者座位的匹配。

评论】 【社区】 【 】 【关闭此页

发表评论

发表者:
内容: