书签 分享 收藏 举报 版权申诉 / 24

音频会议系统.pdf

  • 上传人:a1
  • 文档编号:992673
  • 上传时间:2018-03-24
  • 格式:PDF
  • 页数:24
  • 大小:1,018.30KB
  • 摘要
    申请专利号:

    CN94119071.4

    申请日:

    1994.12.14

    公开号:

    CN1111775A

    公开日:

    1995.11.15

    当前法律状态:

    终止

    有效性:

    无权

    法律详情:

    专利权的终止(未缴年费专利权终止)授权公告日:2002.12.25|||授权|||公开|||

    IPC分类号:

    G06F13/00

    主分类号:

    G06F13/00

    申请人:

    国际商业机器公司;

    发明人:

    K·巴拉克劳; P·R·克里普斯; A·盖

    地址:

    美国纽约

    优先权:

    1993.12.18 GB 9325924.0

    专利代理机构:

    中国专利代理(香港)有限公司

    代理人:

    程天正;王岳

    PDF完整版下载: PDF下载
    内容摘要

    一种计算机工作站,在音频会议中从网上接收多音频输入流,并将其存入不同队列而保持独立。取自各队列的数字样本送到音频适配卡(28)供输出。音频适配卡上的数字信号处理器(46)使各音频流乘以各自的加权参数,再将其相加以供输出,从而各音频输出流的相对音量可控。计算音量数据的每一块的音量并向用户显示,使用户可见到各音频输入流的独立的音量。还向用户提供各音频输入流的音量控制。

    权利要求书

    1: 一种计算机工作站,用于连接网络并从网络接收多个音频输入流,每个音频流包括数字音频样本的序列,工作站包括: 用于在独立的队列中存储从每个音频输入流来的数字音频样本的装置; 用于形成含有每个队列的一个数字音频样本集合的序列的装置; 用于产生各数字音频样本的加权总和的装置,每个音频输入流都伴随着一个加权参数; 用于从加权总和的序列生成音频输出的装置; 其特征在于,具有这样的装置,它能响应用户对调节上述加权参数的输入以控制在多个音频流的输出范围内的相对音量。
    2: 如权利要求1所限定的计算机工作站,其特征在于还包括一种装置,用于为上述的每个多音频输入流提供一个可视指示以表明该音频输入流当前是否处于静音状态。
    3: 如权利要求2所限定的计算机工作站,其特征在于,上述可视指示还为上述的各多音频输入流指明该音频流的瞬时音量。
    4: 如权利要求2和3所限定的计算机工作站,其特征在于,该可视指示是在该音频输入流的声源的一个可视表示的邻近显示的。
    5: 如权利要求3和4所限定的计算机工作站,其特征在于,对于每个上述的多音频输入流,它还包含能从其中的数字音频样本序列生成运行中的均方根值的装置。
    6: 如权利要求2到5中任何一项所限定的计算机工作站,其特征在于,到来的音频数据是以块的形式到达,每块含有预定数量的数字音频样本,且上述的可视指示对音频数据的每一个新的块进行更新。
    7: 如上述任何一项权利要求所限定的计算机工作站,其特征在于,它还包括禁止从上述的任何一个多音频输入流来的音频输出的装置。
    8: 如上述任何一项权利要求所限定的计算机工作站,其特征在于,它还包括一种装置,该装置向用户提供上述加权参数的值的可视指示,该装置能响应用户的调节上述加权参数的鼠标器的操作。
    9: 一种运行计算机工作站的方法,该工作站接到网络上以接收多音频输入流,每个音频流是一个数字音频样本的序列,上述方法包括下列步骤: 把从每个音频输入流来的数字音频样本存放到独立的队列中; 形成一个含有从各队列来的数字音频样本的集合的序列; 对每个数字音频样本产生一个加权的和,每个音频输入流都带一个相关联的加权参数; 从加权和的序列生成一个音频输出; 其特征在于,响应于用户输入,调节上述加权参数以控制多音频流的音频输出范围之内的相对音量。
    10: 如权利要求9所限定的运行计算机工作站的方法,其特征在于还包括为上述音频流中的每个多音频输入流提供一个瞬时音量的可视指示的步骤。

    说明书


    本发明涉及由计算机工作站对从网络上接收的多音频数据流的处理。

        一般情况下音频信号是通过标准的模拟性质的电话线路传送的。但是,随着装备局部区域网络(LAN局域网)的地点的增多和多媒体通信重要性的增长,出现了相当大量的对使用局域网传送音频信号的兴趣。这一工作在例如“局域计算机网络”一书(由P.Ravasio、G.Hopkins、和N.Naffah编纂;North Holland出版社1982年版)中的两篇文章有阐述,这两篇文章是:“使用局部区域网络以传送在线声音”由D.Cohen撰写,第13-21页;以及“在以太网主干线上的音频传送”,作者为P.Ravasio、R.Marcogliese、及R.Novarese,第39-65页。这样一种方案的基本原理是:第一终端或工作站以固定的采样率(例如8kHz)对音频输入信号以数字方式进行采样。然后把一系列样本组合成一个数据包以便通过网络发送到第二终端,该终端再把样本送到扬声器或类似的设备供重放之用,这同样是以固定速率进行。

        使用局域网以传送音频信号所带来的问题之一是通过网络的传输时间是变化地。这样,在目标节点上数据包的到达既有延迟又不规则。如果这些数据包以不规则的方式重放,那末它对音频信号的清晰度有极其不良的影响。因此,通过局域网发送音频的方案需要在一定程度上使用在接收端的缓冲技术以吸收这些不规则性。必须注意避免在原始话频信号和目标端音频输出之间引入过多的延迟,这将使自然交互双向对话变得很困难(就象在越洋的常规长途电话中过多的延迟会令人非常讨厌一样)。在IBM技术公开公报36卷第4期,1993年4月,第255-257页中有一篇文章题为“共享数据包网络用的自适应性音频重放算法”,作者为B.Aldred、R.Bowater、和S.Woodman中描述了一种系统,在该系统中超过一定的最大允许时间限度以后到达的数据包将被取消。缓冲量的大小根据被取消的数据包的数量而自适应地予以控制(也可以用别的合适的关于其延迟到达的量度来控制)。如果被取消的数据包的数量大,缓冲的程度就增加,而当被取消的数据包数量小,缓冲程度也减小。缓冲的大小是通过暂时改变重放速率来改变的(这会影响音调;一个不太被注意的技术将是检测静音的时间长度并根据其合适程度人为地增加或减少这一时间)。

        和双向或点对点的通信相反,另一个音频通信的重要方面是牵涉到多点通信的会议通信。在传统的模拟性质的电话线路上实现音频会议时,它要求每个会议参加者送出音频信号到一个中心点。中心点把送来的各信号进行混合,可能还要调节不同的电平,然后把从所有参加者(从该特定节点来的信号除外)的信号的总和送到各个参加者。美国专利4650929号阐明了一种集中式视频/音频会议系统,在该系统中每个人可以调节其它参加者的相对音量大小。

        利用集中式混合的节点通常被称为多点控制单元(MCU),这种用法已被转到若干多媒体(音频和视频)工作站会议系统中。例如美国专利4710917说明了一种多媒体会议系统,其中的每个参加者都把音频发送到中心混合节点,并从那儿接收音频信号。其它的多媒体会议系统在“分布式多方桌面会议系统:MERMAID”一文中有说明,该文作者为K.Watabe、S.Sakata、R.Maeno、H.Fukuoka、及T.Ohmori,CSCW′90的第27-38页(计算机支持的合作性工作会议论文集,1990年,洛杉矶),另一篇文章为“宽带网络中个人多媒体多点通信服务”,作者为E.Addeo、A.Gelman和A.Dayao,IEEE GLOBECOM,卷1,第53-57页,1988年。

        但是,利用集中式MCU或总和节点的方式存在几个缺点。首先,大多数局域网的结构是基于同级对同级的安排(a peer to peer arrangement)的,因此没有一个明显的中心节点。此外,上面所说的系统完全依赖于指定的中心节点能连续可用这一条件才能运行会议。另外还可能有回声抑制的问题(中心节点必须小心地不要把从某个将总和信号向它回放的节点上的音频信号包括在内)。

        这些问题可以用分布式音频会议系统而得以避免,这个系统中的每个节点都从参加会议的每个节点接收独立的音频信号。美国专利5127001号说明了这样一个分布式系统,并且讨论了由于数据包在网络中传递的不同的转移时间而引起的同步问题。美国专利5127001号通过对从各个源节点来的音频数据包保持独立的队列来克服这一问题。这些方法可以有效地吸收到达时间的抖颤,就象上面所说的用于简单的点到点通信中的方法一样。在规定的时间段内读出一组音频数据包,每个队列取出一个数据包然后加在一起以供回放。

        音频会议系统所面临的问题之一,象上面所提到的MERMAID系统所发现的,是在任何给定的时刻确定谁正在发言。美国专利4893326号说明了一种多媒体会议系统,其中各工作站自动地检测它的用户是否正在发言。然后这一信息被送到一个中心控制节点,该节点则切换视频使得每个与会者从它们的屏幕上看到当前的发言者。这样的系统同时需要视频和音频的操作能力,并且还要依靠中心视频切换节点,所以它不能用于全分布式系统。

        在H.Tanigawa、T.Arikawa、S.Masaki和K.Shimamura等人在IEEE INFOCOM91会议录,卷3、第1127-1134页上发表的题为“个人多媒体-多点远距会议系统”一文中描写了一种分布式多媒体会议系统。这个系统为立体声工作站提供了声音定位功能,随着含有会议参加者的视频信号的窗口从右向左通过屏幕时,相应的音频信号的视在源也作同样的移动。这种方法可提供有限的协助以判别发言者。在日本专利摘要02-123886中叙述了一种更为复杂的措施,其中使用了条形图来描述输出话音的电平,并伴随一个相邻的含有音频源的视频的窗口。

        由此可见,以前的技术叙述了多种不同的音频会议系统。虽然常规的集中式电话音频会议既已广泛应用而且从技术角度来看又是很容易理解的,但是要在桌面系统的环境下提高音频会议实施中的性能则还有许多工作要做。

        因此,本发明将提供一种连接到网络上的计算机工作站,它从网络接收多个音频输入流,每个音频流含有一个数字音频样本序列,此工作站包括:

        用于把从各音频输入流来的数字音频样本存储在独立的队列中的装置;

        用于形成含有从每个队列来的一个数字音频样本的集合序列的装置;

        用于对数字音频样本的每个集合产生一个加权和的装置,其中的每个音频流都带有一个加权参数;

        用于从加权和的序列产生音频输出的装置;

        其特征在于一种装置,它响应于用户的输入,以便调节所述加权参数从而控制在多个音频流的音频输出中的相对音量。

        本发明认识到,作为在一个分布式网络中提供的音频会议系统,这个网络中的各个节点都从所有其它与会者接收独立的音频流,该系统自然容许额外的功能,这些功能在集中式会议系统中在过去只有在克服许多困难并在高昂代价下才能实现。特别是,每个用户都可根据他个人的意愿调节所有其他与会者的相对音量。这可能是非常需要的,因为,例如他们需要集中注意会议的某一特定方面,或者因为语言上的问题(例如,可能有的人有浓重的口音使别人难以听懂,或者会议上有同声传译)。此外,即使在会议进行期间,系统也要响应用户的输入以改变不同与会者的相对音量。为了允许这种控制,输入的音频信号在被相应的音量控制系统加权之前仍保持独立而根据它们的来源不同存放在不同的队列中(队列是逻辑上独立的存储器,尽管在物理上它们可以是相邻的或组合在一起的)。只有在这样以后它们才被合并在一起以产生最后的音频输出。因此本发明认为分布式音频会议系统是特别适合于对相对音量提供独立的控制。

        工作站最好还能含有一种提供可视指示的装置,它为每一个上述的音频输入流指明该输入流当前是否处在静音状态。它可以克服音频会议中一个公认的问题,即确定谁在发言。这种可视指示可以仅仅是某种形式的通/断指示器,例如一个指示灯之类或其类似的东西,但在优先实施例中,这是由一种能为每个上述的多音频输入流指明在该音频流中的瞬时音量的显示器来实现的。换句话说,该显示器提供了有关的与会者的音量的完整的指示。音量输出可根据对数字音频样本的连续的均方根值作计算而得到,或者如果处理能力有限,也可用简单的算法,如利用在预定的样本数中最大的数字音频值来计算而得。一般说来,输入的音频数据以块的形式到达。每个块里含有预定数量的数字音频样本,而上述的可视指示对每个音频数据块作更新。因此,音量的数字一般是在每块的基础上作计算的。

        上述的可视指示最好在其显示的相邻处还有该音频输入流的来源的一个视觉表示,例如一个视频的或静止的图象。前一种图象需要一个完整的多媒体会议网络,而静止图象则可以在带宽低得多的网络上实现,这种低带宽网不能够支持传送视频信号。这种可视指示不论其是静止的或活动的,都可以使人们易于判别任何音频源。

        工作站最好还包括用于向用户提供上述加权参数值的可视指示的装置,这种装置能对用户用鼠标器调整上述加权参数的操作作出反应。这可以用滚动条或其类似指示来实现,每个音频输入流有一个指示,并且位于该输入流的输出音量的可视指示的旁边。更为方便的是计算机工作站还包括能禁止上述多个音频输入流中的任何一个音频输出的装置。这样,用户就可以有效地拥有一整套对每个音频输入流作音量控制的装置了。

        本发明还提供了一种运行计算机工作站的方法,这种工作站接在网络上以接收多个音频输入流,每个音频流含有数字音频样本的序列,该方法包括下列各步骤:

        把从每个音频输入流来的数字音频样本存储在单独的队列中;

        形成一个含有从每个队列来的一个数字音频样本的集合的序列;

        对每个数字音频样本的集合产生一个加权的和,每个音频输入流都附带一个加权参数;

        从加权和的序列产生一个音频输出;

        其特征在于,响应用户输入,调节上述加权参数以控制多个音频流的音频输出中的相对音量。

        本发明的一个实施例将结合例子并参考下列附图而予以说明:

        图1是计算机网络的示意图;

        图2是用于音频会议的计算机工作站的简化方块图;

        图3是图2的计算机工作站的音频适配卡的简化方块图;

        图4是对输入的音频数据包所执行的处理过程的流程图;

        图5表示等待重放的输入音频数据包的队列;

        图6是说明音频适配卡上的数字信号处理器执行的处理过程的流程图;

        图7表明图2的工作站向用户呈示的典型的屏幕界面;

        图8是表明在图2的工作站上运行的主要软件的各组成部分的简化方块图;

        图1表示在局部地区网络(局域网,LAN)2中链接在一起的计算机工作站A-E的示意图。这些工作站正在参加一个多路径的会议,这里的每个工作站都把自己的音频信号广播到会议的所有其它工作站。这样,每个工作站都从所有其它的工作站接收独立的音频信号。图1所示的网络是一种令牌环网结构。在这种结构中有一个令牌在各工作站间轮转。只有当前拥有令牌的那个工作站被允许向别的工作站发送报文。应该理解,一个报文环绕环网的物理传输时间是极其短促的。换句话说,例如A发送一个报文,则它几乎是同时被所有其它终端所接收。这就是为什么令牌系统被用来防止由于两个节点试图同时发送报文而引起的干扰。

        下面将要详细说明,在局域网上单向的音频通信需要的带宽为64千赫。在图1的会议中,每个节点要把它的音频信号广播给其余4个节点,这意味着总的带宽要求为5×4×64千赫(1.28兆赫)。这个带宽是很宽裕地处在标准的令牌环网的容量之内,因为它能支持4或16兆位每秒的传输率。但是要认识到,对于更大的会议则带宽的要求将很快成为一个问题,尽管将来的网络期望会提供更高的带宽。

        请注意,本发明可以在除了令牌环网以外的许多不同的网络结构或配置上实现,当然要考虑到为了支持音频会议所需的有关带宽、等待时间等等的技术要求是应该得到满足的。

        图2是能够用于图1所示的网络中的计算机系统的简化示意图。此计算机有一个系统单元10、一个显示屏幕12、一个键盘14和一个鼠标器16。系统单元10包括微处理器22,半导体存储器(ROM/RAM,只读/随机存储器)24、以及传送数据用的总线26。图2中的计算机可以是任何常规的工作站,例如IBM的PS/2计算机。

        图2的计算机装有两块适配卡。每一块是令牌环网适配卡30。这块卡加上所带的软件可以让报文发送到图1所示的令牌环网上或从网上接收报文。令牌环网卡的运行是众所周知的,所以在这里不作详细介绍。第二块卡是音频卡28,它接到一个话筒及一个扬声器(未示出)以便作音频的相应的输入和输出之用。

        音频卡的更加详细的情况示于图3中。所示出的并且是用在这个特定实施例中的卡是一种M-波卡,这种卡是IBM提供的,但也存在着别的可以完成模拟功能的卡。这块卡有一个模数转换器42用于把从所带的话筒40来的输入音频信号数字化。模数转换器连接到一个编码译码器(CODEC)44,它以44.1千赫的采样速率把输入音频信号采样成16个二进位的样本(相当于激光唱盘的标准采样率/大小)。数字化后的样本然后通过一个双重缓冲器48送到卡上的数字信号处理器(DSP)46(即编码译码器在从双缓冲器的一半读出前一个样本的同时,把一个样本装入双缓冲器的另一半)。数字信号处理器由存放在卡上的半导体存储器52中的一个或多个程序控制。数据可以由数字信号处理器在PC的主总线上来回传送。

        需要重放的音频信号由数字信号处理器从PC总线26接收,并经过以从话筒输入音频的相反方式的处理。这就是说,输出的音频信号经过数字信号处理器46和双重缓冲器50而到编码译码器44,从那儿再到数模转换器54。最后送到扬声器56或其它合适的输出设备。

        在特定的所示实施例中,数字信号处理器在程序控制下把从编码译码器出来的样本从44.1千赫的16位用标准的再采样技术转换成相当于CCITT(国际电报电话咨询委员会)标准G.711的具有8千赫采样率并在μ-规律标度(基本上是对数标度)上有8位的样本的新的数字信号。这样,传送到工作站上以便向其它终端传输的信号的总的带宽是64千赫。数字信号处理器对从PC接收来的输入进行相反的转换,即再次用已知的再采样技术把8位8千赫的信号转换成16位44.1千赫的信号。请注意,在这两种采样形式之间的转换之所以需要,仅仅是由于对硬件的特定选择,而对本发明并无直接的影响。因此,举例来说,许多别的音频卡含有对8千赫形式的内在的支持,即编码译码器可以按照G.711格式运行从而可在整个过程中都用8千赫的形式(另外的方案是:在网络传输中仍保留44.1千赫的样本,不过这需要宽得多的带宽和大大增加的处理速度使得这种方案不太可能实现,除非有特殊的要求让传输的音频信号具有激光唱片(CD)的质量,对于一般的话音通信,G.711格式的64千赫的带宽已经足够了)。

        数据在音频适配卡和工作站之间是以64字节的块来传送的:即8毫秒的音频数据,用于以8千赫采样率的8位数据。这样,工作站只处理整块的数据,而工作站发送或接收的每个数据包一般包含单个的64字节的数据块。将块的大小选择为64个字节是一种折衷,一方面要尽量减少系统的分组程度(granularity,它引起延迟),另一方面要在既考虑到工作站内部处理又考虑到在网络上传输的情况下维持其效率。在别的系统中,举例而言,32或128字节的块大小也可能是合适的。

        计算机工作站在传输音频数据方面的运行在已有技术中是众所周知的,所以这里不作详细介绍。主要是,音频卡或者从话筒接收模拟形式的信号、或者从别的诸如激光唱机这样的音频源接收一个输入信号,并产生数字音频数据块。然后这些块被传送到工作站的主存储器,再从那儿送到局域网适配卡(在某些结构中可以把数据块直接从音频适配卡传送到局域网适配卡而不必经过工作站的存储器)。局域网适配卡产生含有数字音频数据的数据包并加上报头信息,它规定了源节点和目标节点,然后这个数据包就传输到网上以便到达所需的接收节点。应该理解,在任何双向或多路通信中,这个传输过程将在工作站上和下面叙述的接收过程同时执行。

        关于工作站接收音频数据包的处理过程如图4所示。每当一个新的数据包到达时(402步),局域网适配器就通知在工作站中的微处理器上执行的程序,向程序提供判别数据包来源的信息。然后程序就把到来的64字节的音频块传送到主存储器中的队列中(404步)。如图5所示,在主存储器500中的队列实际上是含有从各个不同的源节点来的音频块的一组独立的子队列。因此,一个队列含有从一个源节点来的音频块,另一个队列含有从另一个源节点来的音频块,如此等等。在图5中有3个子队列501、502、503,分别来自源节点B、C、D的音频数据;子队列的数量当然随音频会议中与会者的数量而变化。程序利用每个收到的数据包中关于判定源节点的信息以便把来到的音频数据块分配到正确的队列中去。指针PB、PC和PD指明队列末尾的位置并且在每当有新数据包加入后更新此位置。数据包从子队列的底端处取走以便去作进一步的处理(如图5中的“输出”所示)。因此,图5中的子队列实际上就是标准的先进先出队列,从而可以用常规的编程技术来实现。请注意,作为一直到现在所叙述的、对到来的音频包的处理,除了支持多个(并行)队列以外,都和现有技术方法完全类似,因此不论对个别的子队列或对整体的综合队列,如果需要都可以使用等价的缓冲技术。

        音频适配卡上的数字信号处理器所执行的操作示于图6中。数字信号处理器以循环方式运行,每8毫秒处理一组新的音频块以便保证连续的音频输出信号。这样,数字信号处理器每8毫秒就利用一次直接内存访问去从相应于不同节点的各个队列中读出一个音频块,即从如图5所示的队列B、C和D的底端读出一个块(602步,在此情况下M=3)。这些块以表示相同的时间段而进行处理:在最后输出时它们将被加在一起以产生在那个时间段的单一的音频输出。因此,数字信号处理器有效地执行了一种对多个音频输入流的数字混合功能。使用一个查阅表,在64字节的块中的各别的样本就从G.711格式(它主要是对数式的)转换成为线性标度的(604步)。每个各别的样本然后再乘以加权参数(606步)。对于每个收到的音频数据流,另外还带有一个单独的加权参数;即对于图5中的三个子队列,对从节点B来的音频流有一个加权参数,从节点C来的音频流有一个,从节点D来的音频流也有一个。这些加权参数用于控制从不同源来的音频信号的相对音量。

        数字信号处理器为每个音频流保留一个运行着的(连续的)均方根(rms)值的记录。一般情况下,这样一个均方根值是为每个音频数据块(即每8毫秒)通过生成该块中各个值的和及其平方的和而产生的。这个均方根值代表该各别的音频输入流的音量并用于向用户提供有关音量的信息,这将在下面叙述。

        一旦数字音频样本乘上适当的加权参数以后,它们被加在一起(608步;请注意,这可以和606步的处理工作有效地并行发生)。这样就产生了一个单一的数字音频样本的序列,它代表多个输入音频流的加权和。这个数字音频样本序列经过再采样成44.1千赫(610步,不过前面已经说明,这是取决于硬件的,并不和本发明有直接的相关性),然后再送到编码译码器(612步)以提供给扬声器。

        请注意,用于产生音量可调节的实际的数字信号处理器的处理工作和图6所示的可以有某些变化,但其最终结果实际上是类似的。引入这些变化一般说来是为了最大程度地提高计算效率或减少对数字信号处理器的要求。例如,如果处理器的能力有限,则音量控制可以在从μ-规律转换出来之时实现。这样,在找到正确的查找值后(604步),其实际读出值可以根据信号的音量是要比其正常值增加还是减小而把表格的位置提高或降低若干个预定位置而确定。在这种情况下,加权参数实际上就是调整查阅表上往上移或往下移的步数(显然考虑到这一事实:G.711格式根据原来的振幅是正还是负而将它们分开,而音量调节不能把一个(正或负)转换成另一个)。上述途径在计算上是简单的,但它只能提供分级的而不是连续可调的音量控制。另一种可能的方法是对μ-规律的数字附加上音量控制值或加权参数的对数。这个方法利用对数加法以便在604步的标度转换之前有效地执行606步中的乘法,这种加法对大多数处理器来说在计算代价上要比乘法更便宜。然后其结果可以转换回去成为线性标度(604步)以便和别的音频流混合。这个方法确定可以作精细的音量控制,如果查阅表是足够详细的话(不过,请注意其输出仍限制在16位),一般情况下,加权参数的对数可以从查阅表得到,或者也可以由控制应用程序提供已经是对数的形式。当然,当音量被调节时,只需要计算一个新的对数值即可,但这种情况很可能是极少发生的。

        类似地,如果能利用的处理能力不足以执行连续的均方根值音量测量,那么也许可以每隔一个数据块进行一次处理,或者另外的办法是可以用较为简单的计算算法,例如把相继的样本之间的差的绝对值相加。请注意,平均值的相加可以在604步之前(即在标度转换之前)用对数加法进行。一个更加简单的方法是直接使用任何一个音频块中最大的样本值作为音量指示值。

        图7表示参加音频会议的工作站用户所看到的屏幕700。像前面的讨论所说的,这包括接收三个不同的音频数据流,当然本发明并不仅仅局限于三个与会者。图7的屏幕用虚线分成三个区域701、702、703,每一区域表示一个与会者,但实际上这些虚线并不出现在屏幕上。与每个与会者相联的是一个框724,里边含有与会者的姓名(在我们的情况下就是B、C、D)。另外还有一个图象窗口720,它可以用来包括一个声音源的视频图象,它是随音频信号一起在网络上传送的,或者也可能是一个静止的位图(这可能是在会议开始时由音频源提供的,也可能是已经局部地存在于工作站中,并随着对该与会者的姓名的响应而显示出来)。对于与会者D,由于没有可用的视频信号或静止图象,所以显示的是个空窗口。对在图象窗口中选择什么样的显示(空、静止或视频图象)取决于工作站的硬件、网络的带宽、以及有关信息的可用性。

        在图象窗口下面是一个音量显示721(一个音量单位表、VU表),它指示该音频流的瞬时音量(由图6中的块608计算而得)。显示中实线的长度说明了音频流的音量。如果从该与会者处没有音频信号送来,则该实线的长度为零(即它就消失)。因此,用户可以通过观看谁的音量表是活动的来确定谁在会议上说话。

        在音量显示的下面是音量控制条722,它容许用户调节该与会者的相对音量。其实现方法是让用户按下(音量控制)条的两端中任何一端的“+”或“-”按钮以便相应地增加或减少音量。这样做具有相应地增加或减少数字混合中的加权参数的效果。在音量控制条中间的指示表明当前的音量设置(即当前的加权参数的值)。

        最后,在姓名框724的边上是静音按钮723。按下这个按钮可交替地使该与会者的音频输出被禁止或被允许。当音频输出被禁止时,加权参数被置成零,而当输出被允许时,加权参数恢复到以前的值(即由音量控制条所指示的值)。如果从某个与会者来的音频在当前被禁止输出时,则这种状态用在静音按钮上叠加一个十字叉来表示(在图7中所有三个音频输出当前都是被允许的)。注意在使用上述的数字信号处理器进行处理时,当静音按钮为通而音频输出被禁止时,则音量单位(VU)表将显示零。如果需要的话,则更为直接的办法是修改此系统,使音量单位表改为显示在音量输出实际上是被允许时的那种情况下所产生的信号电平。

        图8显示了为了向用户提供图7所示的用户界面工作站所运行的主要的软件组成部分。工作站被操作系统814所控制,这种操作系统可以是例如微软公司所提供的窗口软件Windows。在工作站上还存在着相应的通信软件816以启用局域网通信(在某些情况下通信软件可以实际上包括在操作系统内)。操作系统和通信软件通过设备驱动程序818而与两个适配卡(即令牌环网卡和音频适配卡)相互作用,这在本项技术中是熟知的。音频的总体处理工作由应用程序810控制。这利用了应用支持层812,这一支持层是用Visual Basic(一种计算机语言)实现的,这种语言可从微软公司得到。应用支持层的目的是方便应用程序的开发,特别是牵涉到用户界面的开发,但当然也可以让应用程序直接和操作系统一起工作。

        应用程序根据已知的程序设计技术控制窗口框720的内容。例如,利用Visual Basic所提供的功能可以被用在音量单位表上,这种语言可以有效地对与各表(meters)相关的所有图形作出反应,对应用程序来说所需做的一切就是提供有关的数值。由于Visual Basic是中断-驱动的,要完成上述工作是很容易的,只要让数字信号处理器把一个音频块的输出音量拷贝到工作站,然后调用中断即可。中断在应用程序中产生一个事件,向它通报新的输出音量,这个音量值就可拷贝到音量单位表中。实际上,中断被用来发出有关某一组音频块的整套音量读数可被使用的信号,即对每个音频流有一个音量读数(请注意,数字信号处理器已为每个音频块执行一次中断,这与在该工作站上所产生的、以便在网络上传输的输出音频信号有关。)。与此相同,音量控制条722也是Visual Basic所提供的一个特点(被称作“滚动条”)。Visual Basic负责与控制条相关的全部图形,包括选择器的位置,每当用户调节它时,它就向应用程序传送一个更新了的音量数值。然后应用程序可以把这个更新了的数值写入数字信号处理器以据此改变音量。静音按钮723是另一个由Visual Basic提供的显示功能,它允许对每个音频流直接进行通/断控制。请注意,每当静音按钮被启动时,应用程序必须记住以前的加权参数值,使得静音按钮在下一次被按下时可以恢复这个值。

        应该理解上述的用户界面可以有许多变动方案。例如,音量单位表可以被分段,或用一个模拟电平表代替。一个更为简单的方法是用一个通/断指示器,它根据是否从某个与会者那里有音频输出而只是作颜色的改变。音量控制功能可以用一个度盘或推拉型滑杆电位器而不是用两个按钮来实现。静音按钮也可以和音量控制条合并在一起。这些变动对于熟悉编程技术的人来说都是在他们能力范围之内的。

        虽然在上面叙述的系统中用户实际上仅限于对每个音频输入流的音量控制,但在别的系统中可以向用户提供更先进的控制,如频率控制(即高音和低音调节)。这可以由数字信号处理器对音频信号在时间域用FIR或IIR滤波器做乘法而比较容易地实现。频率控制可以用图7中对音量控制条相类似的方式向用户显示,对频率控制的改变将产生对FIR/IIR滤波器系数的相应改变。这些先进的控制随着在网络上传输的音频信号的质量改进将变得更加需要,例如在那些使用G.721而不是G.711音频传输标准的系统就是如此。

    关 键  词:
    音频 会议系统
      专利查询网所有文档均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:音频会议系统.pdf
    链接地址:https://www.zhuanlichaxun.net/p-992673.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
    经营许可证编号:粤ICP备2021068784号-1