书签分享收藏举报版权申诉 / 13

立即下载加入VIP,免费下载

当前位置：首页 > 电学 > 电通信技术 > 用于视音频通信的方法和系统.pdf

用于视音频通信的方法和系统.pdf

上传人：zhu****69

文档编号：4324185

上传时间：2018-09-13

格式：PDF

页数：13

大小：495.16KB

《用于视音频通信的方法和系统.pdf》由会员分享，可在线阅读，更多相关《用于视音频通信的方法和系统.pdf（13页完整版）》请在专利查询网上搜索。

1、(10)申请公布号 CN 102572366 A (43)申请公布日 2012.07.11 C N 1 0 2 5 7 2 3 6 6 A *CN102572366A* (21)申请号 201110251432.6 (22)申请日 2011.08.24 12/928,399 2010.12.10 US H04N 7/14(2006.01) H04N 5/232(2006.01) G06K 9/00(2006.01) (71)申请人米特尔网络公司地址加拿大安大略省 (72)发明人保罗安德鲁赫伯迈克尔詹姆士寇纳 (74)专利代理机构北京东方亿思知识产权代理有限责任公司 11258 代理人宋鹤。

2、 (54) 发明名称用于视音频通信的方法和系统 (57) 摘要本发明公开了用于视音频通信的方法和系统。一种用于视音频通信的终端包括IP使能的视频电话；以及视频处理器部件，所述视频处理器部件耦合到所述IP使能的视频电话，并包括用于校正来自视频相机的图像来渲染面向相机的图像以用于传送到远程观看者的模块。校正图像可包括针对特定用户的校准图像的使用并可用非彩色图像代替背景图像。 (30)优先权数据 (51)Int.Cl. 权利要求书1页说明书6页附图5页 (19)中华人民共和国国家知识产权局 (12)发明专利申请权利要求书 1 页说明书 6 页附图 5 页 1/1页 2 1。

3、.一种用于视音频通信的终端，包括： IP使能的视频电话；以及视频处理器部件，所述视频处理器部件耦合到所述IP使能的视频电话，并包括用于校正来自视频相机的图像来渲染面向相机的图像以用于传送到远程观看者的模块。 2.根据权利要求1所述的终端，其中用于校正图像的模块包括图像扭曲校正模块。 3.根据权利要求1所述的终端，其中用于校正图像的模块包括图像旋转校正模块。 4.根据权利要求1所述的终端，其中用于校正图像的模块包括焦点对象识别模块。 5.根据权利要求1所述的终端，其中用于校正图像的模块包括图像校准模块。 6.根据权利要求5所述的终端，其中所述图像校准模块包括图像校准用户接口。 7.根据权利要。

4、求5所述的终端，其中所述图像校准模块包括背景替换模块。 8.一种处理用于视音频通信的图像的方法，所述方法包括：捕捉一个或多个视频图像；分析捕捉的图像以判断是否需要校正；对捕捉的图像应用校正以渲染一个或多个面向相机的图像；以及提供所述面向相机的图像以供显示。 9.根据权利要求8所述的方法，其中捕捉视频图像包括在对象位于相对于视频相机的预定朝向的情况下捕捉图像以及从所捕捉图像获取针对该对象的校准信息以在稍后分析所捕捉图像时使用。 10.根据权利要求9所述的方法，其中分析所捕捉的图像包括识别所述图像内的感兴趣对象，并且应用校正包括用非彩色图像代替所述感兴趣对象后面的背景图像。权利。

5、要求书CN 102572366 A 1/6页 3 用于视音频通信的方法和系统技术领域 0001 本发明涉及用于视音频通信(audio-video communication)的方法和系统，尤其与视频电话或电话会议有关。背景技术 0002 对于现有的视频电话技术，需要将视频相机放置在离在会话期间看着相机的对象适当距离处。在办公室环境中，当用户面向电脑终端和键盘时，电话通常被放置在与用户成一角度的地方以方便获取。 0003 当使用“普通”视频电话进行视频呼叫时，用户或者转向以对着视频电话讲话或者被从侧面显示并且似乎正远离电话地讲话。同样，由于用户和电话之间的高度差，除非用户充分倾。

6、斜其头部以直接面向相机，否则他们实际上被显示为在空中讲话(speak overhead)。 0004 对于具有视频电话能力的膝上型或桌面型电脑，视频相机通常位于监视器上以使得正在观看监视器上的视频的对象也以适当的距离和观看角度朝视频相机观看。该布置是尽力而为的并需要监视器相对于用户的适当放置，并且要求用户面向相机。 0005 在诸如可从思科泰德(Tandberg，Cisco)获得的E20 VoIP视频电话(http:/www. tandberg.com/products/tandberg_e20.jsp)之类的可获得的SIP视频电话的情况中，电话和用户的仔细定位对于提供用户正在对着远端一。

7、方讲话的样子是必需的。 0006 作为替代，用户可能忽视视频相机放置并且看起来没有与远端一方讲话。这还可能导致用户移到和移离焦点或者部分地或完全离开视频框。 0007 对于现有视频电话技术，图像还包括用户的背景和环境，包括用户在做什么和穿戴如何。这可能还包括可能经过或不知不觉地进入相机的视场的其他人和用户周围的周围图像。为了避免这种情况发生，视频相机可被放置在空房间和/或非彩色(neutral)环境中并且注意谁进入相机的视场。 0008 更普遍的是，视频相机的视场不被监视并且远端一方能够观察到视场内或进入视场的每样事物。 0009 一种替代是美国专利公布20080240517中Oka。

8、moto，Masayoshi(日本大阪)建议的使背景图像模糊。然而，模糊或扭曲的图像可能会转移远端用户的注意力。同样，图像处理技术可允许从模糊或扭曲的版本重建原始图像。 0010 这里公开的系统和方法提供了用于视频电话或电话会议的通信方法和系统以消除或减轻至少前述某些缺点。发明内容 0011 根据本发明的一个方面，一种用于视音频通信的终端包括：IP使能的视频电话；以及视频处理器部件，所述视频处理器部件耦合到所述IP使能的视频电话，并包括用于校正来自视频相机的图像来渲染面向相机的图像以用于传送到远程观看者的模块。说明书CN 102572366 A 2/6页 4 0012 根据本。

9、发明的另一方面，一种处理用于视音频通信的图像的方法包括：捕捉一个或多个视频图像；分析捕捉的图像以判断是否需要校正；对捕捉的图像应用校正以渲染一个或多个面向相机的图像；以及提供所述面向相机的图像以供显示。附图说明 0013 将参考附图从以下详细说明进一步理解本发明，附图中： 0014 图1例示了能够使用本公开的实施例的视音频通信系统； 0015 图2示意性地例示了能够使用本公开的实施例的IP视频电话； 0016 图3以流程图的方式例示了根据本公开的实施例的图像处理方法； 0017 图4以流程图的方式例示了根据本公开的另一实施例的图像处理方法；以及 0018 图5以流程图的方式例示了根据本公。

10、开的又一实施例的图像处理方法。具体实施方式 0019 本公开的一个目的是提供改进的视音频通信系统和方法。 0020 因此，即使当用户没有直接面向相机时，用户也被示为对准焦点并面向远端一方。用户的面向前的图像被显示给远端一方，而不管用户在相机视区内的位置如何。用户的图像被展现为面向观看者，而不管相机和用户之间的实际角度如何。 0021 具有安装在顶部的带有广角镜头的视频相机的IP视频电话捕捉相对大的视区。被捕捉的图像经由IP套接字连接被发送到视频处理能力。当用户位于视区内时，对周期性视频帧执行视频处理以找出用户的脸部，而不管观看角度或距离如何。还使用图像转换和内插技术来执行视频处理以。

11、渲染用户的正面图像。对象脸部的正面图像可通过IP套接字来获得用于显示。 0022 根据一个实施例，对特定用户的校准可通过将相机和视频画面放置在它们将用于面向前视频呼叫的地方来完成。用户随后面向相机，忽视视频画面的放置，并且用户的图像被拍摄。用户随后面向视频画面，并且用户的另一图像被拍摄。用户随后(以另一角度) 将脸转离视频画面和相机并且用户的另一图像被拍摄。这些图像随后被处理以获得特定于该用户的校准信息，以在处理后续的面向前视频呼叫时使用。 0023 根据另一实施例，相机视区内的背景和周围被从图像中移除。非彩色背景随后被应用于相机视区，除了“焦点对象”(subject of focu。

12、s)之外。图像的“焦点对象”可被静态或动态地确定。非彩色背景可包括预定的、生成的图像或视频序列。非彩色背景还提供在视频呼叫期间打广告的机会。 0024 来自视频相机的图像通过IP套接字连接被发送到视频处理能力。图像分析被应用以找到并隔离出“焦点对象”。视频处理能力随后用非彩色背景图像代替“焦点对象”周围的图像。产生的图像可通过IP套接字来获得用于显示。 0025 参考图1，例示了可实施本公开的实施例的视音频通信系统。用于双向视频电话会议的视音频通信系统100包括经由通信链路106耦合的最终用户终端102和104。最终用户终端102包括都耦合到处理器的视频处理器部件110、用户接口1。

13、12、显示器114、为了方便起见被示为内置的扬声器116和麦克风118、视频相机设备120和存储设备122。通信链路106可以是专用链路或者可以通过数据通信网，例如通过互联网，来实现。通信链路可包说明书CN 102572366 A 3/6页 5 括代理124。本示例中的用户接口112是键盘。 0026 本说明书涉及在办公室环境中提供IP面向前视频电话能力。提供的示例可利用特定于用户的视频校准和IP电话或代理内的面向前视频处理部件。然而，本公开同样适用于其他面向前视频电话部署。 0027 参考图2，示意性的例示了能够使用本公开的实施例的IP视频电话。IP视频电话 102具有显示器1。

14、14和通常安装在IP视频电话顶部附近的具有广角(或鱼眼)镜头的视频相机120以捕捉相对大的视场。 0028 参考图3，以流程图的方式例示了根据本公开的实施例的图像处理方法。预定事件时，视频图像被捕捉310并通过IP套接字发送到320例如面向前视频处理部件提供的视频处理能力。使用的视频图像的分辨率和帧率受视频处理能力限制；但是，它还可由应用或设备配置、远端设备和/或视频呼叫传输带宽决定。 0029 对于本示例，预定事件在视频呼叫建立之前，例如在初始呼叫设置和帧率协商期间。这为视频处理能力提供了在将渲染的视频图像提供给远端以供显示之前处理用户图像的交付期(lead time)。 003。

15、0 视频处理部件中的视频处理器能力对视频帧的输入流执行分析330。对于每一帧，采用在先前图像帧上采用的转换和变换因子的知识，来应用以下步骤。 0031 视频处理器能力应用(一个或多个)转换算法来对相机的已知图像扭曲进行校正 340。这是使用可获得的图像校正技术(例如，http:/photo.net/learn/fisheye)来完成的。大概最有名的全景图像拼合软件PanoTools TM 实际上是用于操纵各种影像而不仅仅用于拼合的一个高度通用的工具/插件集。 0032 视频处理器能力随后使用面部定位技术(例如，The International Arab Journal of Infor。

16、mation Technology，Vol.4，No.1，January 2007文章“Efficient Realtime Face Tracking Operator Study and Implementation Within Virtex FPGA Technology，http:/www.face-rec.org/和http:/www.ccis2k.org/iajit/PDF/vol.4， no.1/2-Mostefai.pdf)来在视频帧内找出用户的脸部。使用的技术由先前帧中的脸部的知识以及在先前配置阶段获得的视频用户校准信息补充。 0033 视频处理器能力随后使用已知做法(例。

17、如，Understanding the Transformation Matrix in Flash 8.http:/www.senocular.corn/flash/tutorials/transformmatrix/) 来确定将脸部角度从图像中的角度改变成面向前图像所需的变换因子。 0034 内插算法和用户视频校准图像被应用以在不能获得相机图像时填充面向前图像 (例如，在原始图像是左侧面的情况下，填充用户脸部的右侧)。脸部对称和图像重构技术被应用，以在缺少更精确的内插算法时填充表情(例如，“Facial Image Reconstruction by SVDD-Based Pattern。

18、 De-noising”，Jooyoung Park，Daesung Kang，James T.Kwok， Sang-Woong Lee，Bon-Woo Hwang and Seong-Whan Lee Advances in Biometrics Lecture Notes in Computer Science，2005，Volume 3832/2005，129-135，DOI： 10.1007/11608288_18http:/www.springerlink.com/content/p037627183g24438/)。 0035 进一步分析按需要由视频处理器能力执行，以细化适用的转换。

19、、变换和内插算法并校正用户的运动和焦点。 0036 视频处理器能力随后通过对接收图像应用图像校正、转换和内插算法来渲染对象说明书CN 102572366 A 4/6页 6 脸部的正面图像350。渲染的图像将用户示为面向前，同时周围的图像和背景可被视频处理大大扭曲。背景排除处理被应用以在产生的图像中将用户展现为相对于非彩色背景而面向前。 0037 以上分析和渲染被逐帧重复直到预定事件，丢弃到来的帧同时处理前一帧。待处理的下一帧是在分析和渲染完成之后接收的帧。 0038 渲染的图像随后通过IP套接字被从面向前视频处理部件发送到IP视频电话102 以传送到远端视频设备并在远端视频设备处。

20、展现。 0039 本说明书利用办公室环境中的面向前视频电话。更具体地，本示例利用具有面向前视频处理部件的IP面向前视频电话并支持用于可重新定位电话显示器的蓝牙高速视频。然而，本发明同样适用于其他面向前视频部署。 0040 具有面向前视频处理部件的IP面向前视频电话被放置在用户桌子上的正常位置。可重新定位电话显示器也被放置在用户桌子上的正常位置以便舒适地使用。 0041 在IP视频电话处，视频校准用户接口可被提供给用户。该接口与语音优先视频电话能力有关并在首次使用电话或用户发起电话使用时使用户逐步通过初始设置过程。 0042 参考图4，以流程图的方式例示了根据本公开另一实施例的图像处理方。

21、法。视频校准用户接口提供了410校准过程的简要说明并提示用户确认IP电话和视频显示设备被放置在它们的正常位置并且发光级别正常。 0043 视频校准用户接口提示415用户直接面向IP电话面向前视频电话上的相机(位于设备的顶部边缘处)并且对着相机看。一选项被提供给用户以指示在他们能够直接面向相机之前、IP视频电话的放置是否需要调整(以及所涉及的以度为单位的顺时针旋转近似角度)。用户还被提示处于离电话的预定最小和最大距离之内。类似的选项被提示给用户以指示IP视频电话的放置是否需要被调整到适当距离(以及更近或更远的英寸/厘米数)。在用户确认后，对象的图像被捕捉420。 0044 如果在初。

22、始图像捕捉期间需要调整，则视频校准用户接口提示用户将IP视频电话返回到其先前位置。 0045 视频校准用户接口随后(使用在先前步骤中摄取的图像的面向前视频渲染)提示用户直接面向视频显示设备并对着所显示脸部的眼睛看425。一选项被提供给用户以指示在他们能够直接面向图像之前、视频显示设备的放置是否需要调整(以及所涉及的以度为单位的顺时针旋转近似角度)。在用户确认后，对象的图像被捕捉430。 0046 视频校准用户接口提示用户从右侧以大约45度的角度面向位于设备顶部边缘的相机并对着相机看435。选项像先前提到地那样被提供给用户，并且在用户确认后，对象的图像被捕捉440。 0047 如果在。

23、初始图像捕捉期间需要调整，则视频校准用户接口提示用户将IP视频电话返回到其先前位置。 0048 视频校准用户接口提示445用户从左侧大约45度的角度面向位于设备顶部边缘的IP视频电话上的相机并对着相机看。选项像先前提到地那样被提供给用户，并且在用户确认后，对象的图像被捕捉450。 0049 如果在初始图像捕捉期间需要调整，则视频校准用户接口提示用户将IP视频电话返回到其先前位置。说明书CN 102572366 A 5/6页 7 0050 图像处理由面向前视频处理部件使用捕捉的图像来执行以获得校准信息455。这可以在每个图像被捕捉时或者在所有图像被捕捉后完成。一组参考点被标识在每。

24、个图像上并且相关的测量被确定。参考点包括诸如瞳孔和眼睑、面颊突出部、鼻子、嘴唇和下巴之类的脸部特征。或者，将正确地渲染用于面向前视频的每个图像的变换算法被计算，并且用于每个变换算法的相关参数被确定。对面向前视频图像渲染有帮助的左右侧面之间的额外差别也可被确定并被包括。 0051 校准信息随后被存储在IP面向前视频电话中以便后来由面向前视频测量部件在面向前视频呼叫期间使用。作为替代，为承载IP视频电话的、承载通信引导通信系统中的用户存储校准信息。 0052 本说明书涉及在办公室环境中为IP视频电话提供IP面向前视频电话能力。本示例还利用面向前视频电话。然而，本公开同样适用于其他视频。

25、电话和部署。 0053 具有广角镜头的视频相机通常被安装在IP视频电话上以捕捉相对大的视场。该视场可包括紧邻的办公室环境内的个人和商务素材二者，潜在地包括相邻隔间的那些素材。参考图5，以流程图的方式例示了根据本公开的又一实施例的图像处理方法。在面向前视频呼叫期间，视频图像被捕捉并被视频处理能力处理，并且相关的面向前图像被渲染 510，如图3所详示的。当每个图像被渲染时，“焦点对象”被视频处理能力识别520为用户的脸部。作为替代，图像处理技术被应用以确定“焦点对象”的周界(例如，这些技术在上面提到的有关美国专利申请中有所描述)。 0054 从适合于在呼叫期间使用的环境和/或设置的视频序。

26、列中逐帧地获取、配置或生成非彩色背景图像530。该非彩色背景图像在视频呼叫的整个持续过程中被使用以替换来自相机视场或相关渲染图像的背景和周围。 0055 该图像被视频处理能力修改540以用来自非彩色背景图像的相应内容来替换不在“焦点对象”内的内容。该图像修改通过像素、向量或其他可用的图像处理技术来执行，例如参见http:/en.wikipedia.org/wiki/Image_processing。 0056 以上分析和替换被逐帧重复直到预定事件为止。 0057 经修改的图像随后通过IP套接字被发送到面向前视频电话以传送到远端面向前视频电话并在远端视频电话处展现。 0058 视频处理。

27、可被执行以渲染不只仅对象脸部，例如，包括上部躯干和手臂，渲染视场内的不只一个对象，或者基于不同于对象脸部的标准来渲染。其他视角也可被渲染，这是因为本发明不限于前视图。 0059 视频相机可通过代理提供、物理地被附接或者被内置。视频相机可在电话旁边/ 后面相对于脸部固定或旋转。使用一系列连续静止图像，静止相机也可被利用。一个或多个静止相机和/或多个视频相机可被结合起来使用以捕捉(一个或多个)相同对象的不同视角或更宽的视场。用于相机、视频处理能力和显示器之间的信息传送的IP套接字的使用可被任何充分信息传送机制(例如，直接存储器访问)代替。 0060 渲染的图像的帧率受可用的视频处理能力的。

28、限制。视频处理可在一个或多个顺序或并列的处理阶段中、一个或多个处理引擎上以及一个或多个硬件平台上执行。渲染的图像的质量可基于处理硬件的可用性、订户服务级别、呼叫重要性或其他因素而被降低或提高。视频处理能力被提供在电话设备内、由专用服务器或由代理提供。说明书CN 102572366 A 6/6页 8 0061 视频处理可采用适当的优化和技术来降低处理需求。视频处理可在视频呼叫已被建立之后在视频展现开始的相关延迟时、或者可选地在由对象发起或由系统配置确定的呼叫期间或之前的任意时刻被发起。手持接送话器或手持设备在视频图像中的位置也可用来辅助视频处理。 0062 用于脸部搜索和图像渲。

29、染的视频处理可转而使用来自最可能的(一个或多个)对象的已知脸部特点。用户视频校准也可被用来改善视频处理能力的有效性。 0063 校准可涉及小道具(props)、辅助物(accessories)或附件(attachments)的使用来改善结果。 0064 校准可自动发起和/或由用户发起，仅一次地或周期性地发起或作为视频处理能力对信息不正确的判定结果而发起。 0065 校准还可被应用于不同对象事物(以及脸部)。 0066 可对单个用户执行多个校准以容纳眼镜、隐形眼镜、流行配件、头饰等的佩戴。要使用的校准的选择可以是自动的、由用户选择的或者其他选择方法(例如，一天的时间)。 0067 任意数。

30、目的图像可被用于校准。 0068 用来确定校准信息的参考点可包括被捕捉的图像共有的脸部特征的任意组合。 0069 被捕捉的视频而不是图像可被采用来进行校准。 0070 经校准的信息可被捕捉并存储在视频电话内、视频服务器处或由代理存储。 0071 视频处理可在一个或多个顺序或并列的处理阶段中、一个或多个处理引擎上以及一个或多个硬件平台上执行。视频处理还可在视频电话内或由代理执行。渲染的图像的质量可基于处理硬件的可用性、订户服务级别、呼叫重要性或其他因素而被降低或提高。 0072 虽然特别适用于视频电话设备，本发明还可被用于协作系统，例如视频会议、视频介绍系统(例如公寓大堂相机)，或者作为存。

31、储和转发产生的视频图像的单独设备而被使用。 0073 本发明还适用于安全监视装置，其中对象脸部的正面图的初始和/或周期性捕捉补充了由监视相机捕捉的视频。 0074 另一应用是需要视频访问来查看某人在寄养场(boarding kennel)的宠物的情况。相机和显示器的布置受环境的影响。作为替代，视频处理能力脸部识别和校准算法可在视频呼叫中针对宠物种类来修改。 0075 视频校准可应用于安全和监视检测中的脸部识别或其他技术。 0076 虽然特别适用于面向前视频电话设备，本发明还可被用于协作系统，例如视频会议、视频介绍系统(例如公寓大堂相机)，或者作为存储和转发产生的视频图像的单独设备而。

32、被使用。 0077 在安全敏感的环境中，本发明可部分地被应用以确保可能包括危及安全的信息的背景和周围图像不被捕捉。 0078 这也适用于其中敏感信息可能落入相机视场内的、涉及视频相机和被捕捉图像的显示的其他协作环境。 0079 在不脱离权利要求限定的本公开的范围的情况下，可对上述具体实施例进行多个修改、变换和变更。说明书CN 102572366 A 1/5页 9 图1 说明书附图CN 102572366 A 2/5页 10 图2 说明书附图CN 102572366 A 10 3/5页 11 图3 说明书附图CN 102572366 A 11 4/5页 12 图4 说明书附图CN 102572366 A 12 5/5页 13 图5 说明书附图CN 102572366 A 13 。

摘要
申请专利号：	CN201110251432.6	申请日：	2011.08.24
公开号：	CN102572366A	公开日：	2012.07.11
当前法律状态：	撤回	有效性：	无权
法律详情：	发明专利申请公布后的视为撤回IPC(主分类):H04N 7/14申请公布日:20120711\|\|\|公开
IPC分类号：	H04N7/14; H04N5/232; G06K9/00	主分类号：	H04N7/14
申请人：	米特尔网络公司
发明人：	保罗·安德鲁·赫伯; 迈克尔·詹姆士·寇纳
地址：	加拿大安大略省
优先权：	2010.12.10 US 12/928,399
专利代理机构：	北京东方亿思知识产权代理有限责任公司 11258	代理人：	宋鹤
PDF完整版下载：	PDF下载

内容摘要

本发明公开了用于视音频通信的方法和系统。一种用于视音频通信的终端包括IP使能的视频电话；以及视频处理器部件，所述视频处理器部件耦合到所述IP使能的视频电话，并包括用于校正来自视频相机的图像来渲染面向相机的图像以用于传送到远程观看者的模块。校正图像可包括针对特定用户的校准图像的使用并可用非彩色图像代替背景图像。

权利要求书

1.一种用于视音频通信的终端，包括：IP使能的视频电话；以及视频处理器部件，所述视频处理器部件耦合到所述IP使能的视频电话，并包括用于校正来自视频相机的图像来渲染面向相机的图像以用于传送到远程观看者的模块。2.根据权利要求1所述的终端，其中用于校正图像的模块包括图像扭曲校正模块。3.根据权利要求1所述的终端，其中用于校正图像的模块包括图像旋转校正模块。4.根据权利要求1所述的终端，其中用于校正图像的模块包括焦点对象识别模块。5.根据权利要求1所述的终端，其中用于校正图像的模块包括图像校准模块。6.根据权利要求5所述的终端，其中所述图像校准模块包括图像校准用户接口。7.根据权利要求5所述的终端，其中所述图像校准模块包括背景替换模块。8.一种处理用于视音频通信的图像的方法，所述方法包括：捕捉一个或多个视频图像；分析捕捉的图像以判断是否需要校正；对捕捉的图像应用校正以渲染一个或多个面向相机的图像；以及提供所述面向相机的图像以供显示。9.根据权利要求8所述的方法，其中捕捉视频图像包括在对象位于相对于视频相机的预定朝向的情况下捕捉图像以及从所捕捉图像获取针对该对象的校准信息以在稍后分析所捕捉图像时使用。10.根据权利要求9所述的方法，其中分析所捕捉的图像包括识别所述图像内的感兴趣对象，并且应用校正包括用非彩色图像代替所述感兴趣对象后面的背景图像。

说明书

用于视音频通信的方法和系统

技术领域

本发明涉及用于视音频通信(audio-video communication)的方法和系
统，尤其与视频电话或电话会议有关。

背景技术

对于现有的视频电话技术，需要将视频相机放置在离在会话期间看着
相机的对象适当距离处。在办公室环境中，当用户面向电脑终端和键盘
时，电话通常被放置在与用户成一角度的地方以方便获取。

当使用“普通”视频电话进行视频呼叫时，用户或者转向以对着视频
电话讲话或者被从侧面显示并且似乎正远离电话地讲话。同样，由于用户
和电话之间的高度差，除非用户充分倾斜其头部以直接面向相机，否则他
们实际上被显示为在空中讲话(speak overhead)。

对于具有视频电话能力的膝上型或桌面型电脑，视频相机通常位于监
视器上以使得正在观看监视器上的视频的对象也以适当的距离和观看角度
朝视频相机观看。该布置是尽力而为的并需要监视器相对于用户的适当放
置，并且要求用户面向相机。

在诸如可从思科泰德(Tandberg，Cisco)获得的E20 VoIP视频电话
(http://www.tandberg.com/products/tandberg_e20.jsp)之类的可获得的SIP视
频电话的情况中，电话和用户的仔细定位对于提供用户正在对着远端一方
讲话的样子是必需的。

作为替代，用户可能忽视视频相机放置并且看起来没有与远端一方讲
话。这还可能导致用户移到和移离焦点或者部分地或完全离开视频框。

对于现有视频电话技术，图像还包括用户的背景和环境，包括用户在
做什么和穿戴如何。这可能还包括可能经过或不知不觉地进入相机的视场
的其他人和用户周围的周围图像。为了避免这种情况发生，视频相机可被
放置在空房间和/或非彩色(neutral)环境中并且注意谁进入相机的视场。

更普遍的是，视频相机的视场不被监视并且远端一方能够观察到视场
内或进入视场的每样事物。

一种替代是美国专利公布20080240517中Okamoto，Masayoshi(日本
大阪)建议的使背景图像模糊。然而，模糊或扭曲的图像可能会转移远端
用户的注意力。同样，图像处理技术可允许从模糊或扭曲的版本重建原始
图像。

这里公开的系统和方法提供了用于视频电话或电话会议的通信方法和
系统以消除或减轻至少前述某些缺点。

发明内容

根据本发明的一个方面，一种用于视音频通信的终端包括：IP使能的
视频电话；以及视频处理器部件，所述视频处理器部件耦合到所述IP使能
的视频电话，并包括用于校正来自视频相机的图像来渲染面向相机的图像
以用于传送到远程观看者的模块。

根据本发明的另一方面，一种处理用于视音频通信的图像的方法包
括：捕捉一个或多个视频图像；分析捕捉的图像以判断是否需要校正；对
捕捉的图像应用校正以渲染一个或多个面向相机的图像；以及提供所述面
向相机的图像以供显示。

附图说明

将参考附图从以下详细说明进一步理解本发明，附图中：

图1例示了能够使用本公开的实施例的视音频通信系统；

图2示意性地例示了能够使用本公开的实施例的IP视频电话；

图3以流程图的方式例示了根据本公开的实施例的图像处理方法；

图4以流程图的方式例示了根据本公开的另一实施例的图像处理方
法；以及

图5以流程图的方式例示了根据本公开的又一实施例的图像处理方
法。

具体实施方式

本公开的一个目的是提供改进的视音频通信系统和方法。

因此，即使当用户没有直接面向相机时，用户也被示为对准焦点并面
向远端一方。用户的面向前的图像被显示给远端一方，而不管用户在相机
视区内的位置如何。用户的图像被展现为面向观看者，而不管相机和用户
之间的实际角度如何。

具有安装在顶部的带有广角镜头的视频相机的IP视频电话捕捉相对大
的视区。被捕捉的图像经由IP套接字连接被发送到视频处理能力。当用户
位于视区内时，对周期性视频帧执行视频处理以找出用户的脸部，而不管
观看角度或距离如何。还使用图像转换和内插技术来执行视频处理以渲染
用户的正面图像。对象脸部的正面图像可通过IP套接字来获得用于显示。

根据一个实施例，对特定用户的校准可通过将相机和视频画面放置在
它们将用于面向前视频呼叫的地方来完成。用户随后面向相机，忽视视频
画面的放置，并且用户的图像被拍摄。用户随后面向视频画面，并且用户
的另一图像被拍摄。用户随后(以另一角度)将脸转离视频画面和相机并
且用户的另一图像被拍摄。这些图像随后被处理以获得特定于该用户的校
准信息，以在处理后续的面向前视频呼叫时使用。

根据另一实施例，相机视区内的背景和周围被从图像中移除。非彩色
背景随后被应用于相机视区，除了“焦点对象”(subject of focus)之外。
图像的“焦点对象”可被静态或动态地确定。非彩色背景可包括预定的、
生成的图像或视频序列。非彩色背景还提供在视频呼叫期间打广告的机
会。

来自视频相机的图像通过IP套接字连接被发送到视频处理能力。图像
分析被应用以找到并隔离出“焦点对象”。视频处理能力随后用非彩色背
景图像代替“焦点对象”周围的图像。产生的图像可通过IP套接字来获得
用于显示。

参考图1，例示了可实施本公开的实施例的视音频通信系统。用于双
向视频电话会议的视音频通信系统100包括经由通信链路106耦合的最终
用户终端102和104。最终用户终端102包括都耦合到处理器的视频处理
器部件110、用户接口112、显示器114、为了方便起见被示为内置的扬声
器116和麦克风118、视频相机设备120和存储设备122。通信链路106可
以是专用链路或者可以通过数据通信网，例如通过互联网，来实现。通信
链路可包括代理124。本示例中的用户接口112是键盘。

本说明书涉及在办公室环境中提供IP面向前视频电话能力。提供的示
例可利用特定于用户的视频校准和IP电话或代理内的面向前视频处理部
件。然而，本公开同样适用于其他面向前视频电话部署。

参考图2，示意性的例示了能够使用本公开的实施例的IP视频电话。
IP视频电话102具有显示器114和通常安装在IP视频电话顶部附近的具有
广角(或鱼眼)镜头的视频相机120以捕捉相对大的视场。

参考图3，以流程图的方式例示了根据本公开的实施例的图像处理方
法。预定事件时，视频图像被捕捉310并通过IP套接字发送到320例如面
向前视频处理部件提供的视频处理能力。使用的视频图像的分辨率和帧率
受视频处理能力限制；但是，它还可由应用或设备配置、远端设备和/或视
频呼叫传输带宽决定。

对于本示例，预定事件在视频呼叫建立之前，例如在初始呼叫设置和
帧率协商期间。这为视频处理能力提供了在将渲染的视频图像提供给远端
以供显示之前处理用户图像的交付期(lead time)。

视频处理部件中的视频处理器能力对视频帧的输入流执行分析330。
对于每一帧，采用在先前图像帧上采用的转换和变换因子的知识，来应用
以下步骤。

视频处理器能力应用(一个或多个)转换算法来对相机的已知图像扭
曲进行校正340。这是使用可获得的图像校正技术(例如，
http://photo.net/learn/fisheye)来完成的。大概最有名的全景图像拼合软件
PanoToolsTM实际上是用于操纵各种影像而不仅仅用于拼合的一个高度通
用的工具/插件集。

视频处理器能力随后使用面部定位技术(例如，The International Arab
Journal of Information Technology，Vol.4，No.1，January 2007文章“Efficient
Realtime Face Tracking Operator Study and Implementation Within Virtex
FPGA Technology，http://www.face-rec.org/和http://www.ccis2k.org
/iajit/PDF/vol.4，no.1/2-Mostefai.pdf)来在视频帧内找出用户的脸部。使用
的技术由先前帧中的脸部的知识以及在先前配置阶段获得的视频用户校准
信息补充。

视频处理器能力随后使用已知做法(例如，Understanding the
Transformation Matrix in Flash 8.http://www.senocular.corn/flash/tutorials/
transformmatrix/)来确定将脸部角度从图像中的角度改变成面向前图像所
需的变换因子。

内插算法和用户视频校准图像被应用以在不能获得相机图像时填充面
向前图像(例如，在原始图像是左侧面的情况下，填充用户脸部的右
侧)。脸部对称和图像重构技术被应用，以在缺少更精确的内插算法时填
充表情(例如，“Facial Image Reconstruction by SVDD-Based Pattern De-
noising”，Jooyoung Park，Daesung Kang，James T.Kwok，Sang-Woong Lee，
Bon-Woo Hwang and Seong-Whan Lee Advances in Biometrics Lecture Notes
in Computer Science，2005，Volume 3832/2005，129-135，DOI：
10.1007/11608288_18
http://www.springerlink.com/content/p037627183g24438/)。

进一步分析按需要由视频处理器能力执行，以细化适用的转换、变换
和内插算法并校正用户的运动和焦点。

视频处理器能力随后通过对接收图像应用图像校正、转换和内插算法
来渲染对象脸部的正面图像350。渲染的图像将用户示为面向前，同时周
围的图像和背景可被视频处理大大扭曲。背景排除处理被应用以在产生的
图像中将用户展现为相对于非彩色背景而面向前。

以上分析和渲染被逐帧重复直到预定事件，丢弃到来的帧同时处理前
一帧。待处理的下一帧是在分析和渲染完成之后接收的帧。

渲染的图像随后通过IP套接字被从面向前视频处理部件发送到IP视
频电话102以传送到远端视频设备并在远端视频设备处展现。

本说明书利用办公室环境中的面向前视频电话。更具体地，本示例利
用具有面向前视频处理部件的IP面向前视频电话并支持用于可重新定位电
话显示器的蓝牙高速视频。然而，本发明同样适用于其他面向前视频部
署。

具有面向前视频处理部件的IP面向前视频电话被放置在用户桌子上的
正常位置。可重新定位电话显示器也被放置在用户桌子上的正常位置以便
舒适地使用。

在IP视频电话处，视频校准用户接口可被提供给用户。该接口与语音
优先视频电话能力有关并在首次使用电话或用户发起电话使用时使用户逐
步通过初始设置过程。

参考图4，以流程图的方式例示了根据本公开另一实施例的图像处理
方法。视频校准用户接口提供了410校准过程的简要说明并提示用户确认
IP电话和视频显示设备被放置在它们的正常位置并且发光级别正常。

视频校准用户接口提示415用户直接面向IP电话面向前视频电话上的
相机(位于设备的顶部边缘处)并且对着相机看。一选项被提供给用户以
指示在他们能够直接面向相机之前、IP视频电话的放置是否需要调整(以
及所涉及的以度为单位的顺时针旋转近似角度)。用户还被提示处于离电
话的预定最小和最大距离之内。类似的选项被提示给用户以指示IP视频电
话的放置是否需要被调整到适当距离(以及更近或更远的英寸/厘米数)。
在用户确认后，对象的图像被捕捉420。

如果在初始图像捕捉期间需要调整，则视频校准用户接口提示用户将
IP视频电话返回到其先前位置。

视频校准用户接口随后(使用在先前步骤中摄取的图像的面向前视频
渲染)提示用户直接面向视频显示设备并对着所显示脸部的眼睛看425。
一选项被提供给用户以指示在他们能够直接面向图像之前、视频显示设备
的放置是否需要调整(以及所涉及的以度为单位的顺时针旋转近似角
度)。在用户确认后，对象的图像被捕捉430。

视频校准用户接口提示用户从右侧以大约45度的角度面向位于设备
顶部边缘的相机并对着相机看435。选项像先前提到地那样被提供给用
户，并且在用户确认后，对象的图像被捕捉440。

如果在初始图像捕捉期间需要调整，则视频校准用户接口提示用户将
IP视频电话返回到其先前位置。

视频校准用户接口提示445用户从左侧大约45度的角度面向位于设
备顶部边缘的IP视频电话上的相机并对着相机看。选项像先前提到地那样
被提供给用户，并且在用户确认后，对象的图像被捕捉450。

如果在初始图像捕捉期间需要调整，则视频校准用户接口提示用户将
IP视频电话返回到其先前位置。

图像处理由面向前视频处理部件使用捕捉的图像来执行以获得校准信
息455。这可以在每个图像被捕捉时或者在所有图像被捕捉后完成。一组
参考点被标识在每个图像上并且相关的测量被确定。参考点包括诸如瞳孔
和眼睑、面颊突出部、鼻子、嘴唇和下巴之类的脸部特征。或者，将正确
地渲染用于面向前视频的每个图像的变换算法被计算，并且用于每个变换
算法的相关参数被确定。对面向前视频图像渲染有帮助的左右侧面之间的
额外差别也可被确定并被包括。

校准信息随后被存储在IP面向前视频电话中以便后来由面向前视频测
量部件在面向前视频呼叫期间使用。作为替代，为承载IP视频电话的、承
载通信引导通信系统中的用户存储校准信息。

本说明书涉及在办公室环境中为IP视频电话提供IP面向前视频电话
能力。本示例还利用面向前视频电话。然而，本公开同样适用于其他视频
电话和部署。

具有广角镜头的视频相机通常被安装在IP视频电话上以捕捉相对大的
视场。该视场可包括紧邻的办公室环境内的个人和商务素材二者，潜在地
包括相邻隔间的那些素材。参考图5，以流程图的方式例示了根据本公开
的又一实施例的图像处理方法。在面向前视频呼叫期间，视频图像被捕捉
并被视频处理能力处理，并且相关的面向前图像被渲染510，如图3所详
示的。当每个图像被渲染时，“焦点对象”被视频处理能力识别520为用
户的脸部。作为替代，图像处理技术被应用以确定“焦点对象”的周界
(例如，这些技术在上面提到的有关美国专利申请中有所描述)。

从适合于在呼叫期间使用的环境和/或设置的视频序列中逐帧地获取、
配置或生成非彩色背景图像530。该非彩色背景图像在视频呼叫的整个持
续过程中被使用以替换来自相机视场或相关渲染图像的背景和周围。

该图像被视频处理能力修改540以用来自非彩色背景图像的相应内容
来替换不在“焦点对象”内的内容。该图像修改通过像素、向量或其他可
用的图像处理技术来执行，例如参见http://en.wikipedia.
org/wiki/Image_processing。

以上分析和替换被逐帧重复直到预定事件为止。

经修改的图像随后通过IP套接字被发送到面向前视频电话以传送到远
端面向前视频电话并在远端视频电话处展现。

视频处理可被执行以渲染不只仅对象脸部，例如，包括上部躯干和手
臂，渲染视场内的不只一个对象，或者基于不同于对象脸部的标准来渲
染。其他视角也可被渲染，这是因为本发明不限于前视图。

视频相机可通过代理提供、物理地被附接或者被内置。视频相机可在
电话旁边/后面相对于脸部固定或旋转。使用一系列连续静止图像，静止相
机也可被利用。一个或多个静止相机和/或多个视频相机可被结合起来使用
以捕捉(一个或多个)相同对象的不同视角或更宽的视场。用于相机、视
频处理能力和显示器之间的信息传送的IP套接字的使用可被任何充分信息
传送机制(例如，直接存储器访问)代替。

渲染的图像的帧率受可用的视频处理能力的限制。视频处理可在一个
或多个顺序或并列的处理阶段中、一个或多个处理引擎上以及一个或多个
硬件平台上执行。渲染的图像的质量可基于处理硬件的可用性、订户服务
级别、呼叫重要性或其他因素而被降低或提高。视频处理能力被提供在电
话设备内、由专用服务器或由代理提供。

视频处理可采用适当的优化和技术来降低处理需求。视频处理可在视
频呼叫已被建立之后在视频展现开始的相关延迟时、或者可选地在由对象
发起或由系统配置确定的呼叫期间或之前的任意时刻被发起。手持接送话
器或手持设备在视频图像中的位置也可用来辅助视频处理。

用于脸部搜索和图像渲染的视频处理可转而使用来自最可能的(一个
或多个)对象的已知脸部特点。用户视频校准也可被用来改善视频处理能
力的有效性。

校准可涉及小道具(props)、辅助物(accessories)或附件
(attachments)的使用来改善结果。

校准可自动发起和/或由用户发起，仅一次地或周期性地发起或作为视
频处理能力对信息不正确的判定结果而发起。

校准还可被应用于不同对象事物(以及脸部)。

可对单个用户执行多个校准以容纳眼镜、隐形眼镜、流行配件、头饰
等的佩戴。要使用的校准的选择可以是自动的、由用户选择的或者其他选
择方法(例如，一天的时间)。

任意数目的图像可被用于校准。

用来确定校准信息的参考点可包括被捕捉的图像共有的脸部特征的任
意组合。

被捕捉的视频而不是图像可被采用来进行校准。

经校准的信息可被捕捉并存储在视频电话内、视频服务器处或由代理
存储。

视频处理可在一个或多个顺序或并列的处理阶段中、一个或多个处理
引擎上以及一个或多个硬件平台上执行。视频处理还可在视频电话内或由
代理执行。渲染的图像的质量可基于处理硬件的可用性、订户服务级别、
呼叫重要性或其他因素而被降低或提高。