基于直播内容识别的互动直播教学节流装置和方法.pdf

上传人:C*** 文档编号:10086591 上传时间:2021-06-03 格式:PDF 页数:17 大小:973.87KB
收藏 版权申诉 举报 下载
基于直播内容识别的互动直播教学节流装置和方法.pdf_第1页
第1页 / 共17页
基于直播内容识别的互动直播教学节流装置和方法.pdf_第2页
第2页 / 共17页
基于直播内容识别的互动直播教学节流装置和方法.pdf_第3页
第3页 / 共17页
文档描述:

《基于直播内容识别的互动直播教学节流装置和方法.pdf》由会员分享,可在线阅读,更多相关《基于直播内容识别的互动直播教学节流装置和方法.pdf(17页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010751633.1 (22)申请日 2020.07.30 (71)申请人 厦门千时科技有限公司 地址 361006 福建省厦门市湖里区江头台 湾街291号之二B栋526室 (72)发明人 何永袁立川蔡清明孙晓群 (74)专利代理机构 北京棘龙知识产权代理有限 公司 11740 代理人 戴丽伟 (51)Int.Cl. H04N 21/2187(2011.01) H04N 21/2343(2011.01) H04N 21/4402(2011.01) H04N 21/442(。

2、2011.01) H04N 21/647(2011.01) (54)发明名称 一种基于直播内容识别的互动直播教学节 流装置和方法 (57)摘要 本发明公开了一种基于直播内容识别的互 动直播教学节流装置, 包括用于多个移动设备相 互通信的连接模块、 用于学生活跃度捕捉和跟踪 的检测模块、 用于计算学生活跃度的分析模块以 及对视频码率和帧率进行改变的调节模块, 此基 于直播内容识别的互动直播教学节流装置, 通过 引入深度神经网络, 将上课活跃度的影响纳入码 率/帧率的动态调节, 对于不活跃的用户降低码 率/帧率, 提高连接稳定, 提高上课质量和用户满 意度, 同时节约服务器流量。 权利要求书2页 。

3、说明书6页 附图8页 CN 111901621 A 2020.11.06 CN 111901621 A 1.一种基于直播内容识别的互动直播教学节流装置, 其特征在于: 用于多个移动设备 相互通信的连接模块、 用于学生活跃度捕捉和跟踪的检测模块、 用于计算学生活跃度的分 析模块以及对视频码率和帧率进行改变的调节模块。 2.根据权利要求1所述的一种基于直播内容识别的互动直播教学节流装置, 其特征在 于: 所述连接模块采用可相互通信的WebRTC解决方案, WebRTC是HTML5规范, 可用于直接在 浏览器和设备之间添加实时媒体通信。 3.根据权利要求2所述的一种基于直播内容识别的互动直播教学节流。

4、装置, 其特征在 于: 所述WebRTC包括: 捕捉摄像头, 建立通信的第一步是获取用户的设备的摄像头和麦克风权限, 先检测设 备的可用性, 然后获取用户授权并与设备建立连接, 最后再从设备获取一段数据流; 视频的编解码, 对需要发送的一段音视频数据进行编码, 这个过程会将视频帧或音频 声波分解成许多很小的数据块, 再将它们锁到更小的尺寸, 从而可以让这些数据块在网络 间更快的传输, 然后在接收端将它们解压; 传输层, 主要处理数据包丢失、 数据包排序以及建立用户间连接等问题, 通过传输层 API可以轻松获知用户网络的波动, 并及时对连接状态的变化作出反应; 会话管理, 通常使用信令负责在浏览。

5、器中建立管理多个连接。 4.根据权利要求3所述的一种基于直播内容识别的互动直播教学节流装置, 其特征在 于: 所述连接模块的多人视频通信采用Router解决方案, Router的办法使得H.264SVC基础 设施普及, 基于中心点从每个客户端接受一个流并发送到每个参与者, 中心节点只做数据 包检查和转发, 而不是昂贵的编码和实际的媒体解码。 5.根据权利要求4所述的一种基于直播内容识别的互动直播教学节流装置, 其特征在 于: 所述基于直播内容识别的互动直播教学节流装置还包括Janus通用服务器, 实现与浏览 器建立WebRTC媒体通信、 与浏览器交换JSON消息, 以及在浏览器和服务器端应用程。

6、序逻辑 之间中继rtp/rtcp和消息, 任何特定的特性和应用程序都需要在服务器端插件中实现, 然 后浏览器可以通过Janus核心联系这些插件, 以利用它们提供的功能。 6.根据权利要求5所述的一种基于直播内容识别的互动直播教学节流装置, 其特征在 于: 所述检测模块包括人脸识别模块和音频识别模块。 7.一种人脸位置识别方法, 其特征在于: 使用Harrcascade特征级联分类器, 从许多正 负图像中训练级联函数, 然后用于检测其他图像中的对象。 8.一种音频人声分离方法, 其特征在于: 为每个频带计算增益以应用于信号, 由于增益 总是限制在0到1之间, 只需使用S型激活函数(其输出也在0到。

7、1之间)来计算增益, 从而确保 了不会在模型中增加噪音。 9.一种学生活跃度概率值的计算方法, 其特征在于: 当我们获得了获得人脸识别的输 出结果f和人声识别的输出结果v, 最后通过加权的方式计算出最终活跃度概率值S, 公式如 下: Sw1*f+w2*v+o; 其中, f为布尔值, v为归一化之后的值, w1和w2是权重值, 实验时都去0.4比价适合, o为 其他因素, 由当前网络状况和设备决定, 取值范围是-0.2, 0.2。 10.一种基于直播内容识别的互动直播教学节流方法, 其特征在于: 包括以下步骤: 权利要求书 1/2 页 2 CN 111901621 A 2 步骤一: 通过移动设备。

8、, 采集学生的视频流; 步骤二: 通过不同的深度学习模型, 进行人脸捕获与跟踪、 人脸检测与情绪识别、 人体 检测与姿态分析、 环境物体检测和音频检测, 计算出不同的活跃度阈值; 步骤三: 通过组合模型计算出学生的活跃度, 当活跃度大于设定阈值(0.6对应准确度 85.4), 则判定当前为高活跃状态, 提高码率, 提高帧率, 当活跃度低于(0.3)则判定当前 为低活跃状态, 降低码率, 减少帧率, 减少视频流。 11.根据权利要求10所述的一种基于直播内容识别的互动直播教学节流方法, 其特征 在于: 所述步骤一种的移动设备包括手机、 PC、 电视和平板电脑。 权利要求书 2/2 页 3 CN 。

9、111901621 A 3 一种基于直播内容识别的互动直播教学节流装置和方法 技术领域 0001 本发明涉及直播教学技术领域, 具体为一种基于直播内容识别的互动直播教学节 流装置和方法。 背景技术 0002 随着在线直播教育的普及, 教育机构的产能也被无限放大。 对于传统课堂, 在线直 播可能可以让学生获得更优质的教育资源, 更低的成本, 更好的利用碎片化时间, 不受时间 和空间的限制。 0003 直播课的核心解决方案为一般需要多端支持交互式直播, 如手机、 平板电脑和PC 电脑, 所以技术上主要使用可相互通信的WebRTC解决方案。 0004 当创建一个点对点连接时, webRTC会根据客户。

10、端的网络情况动态的改变码率以满 足稳定的会话要求, 也可以通过设定码率最大/最小值, 稳定在一个合适的范围。 但在多对 多的直播互动课时, 动态码率只会对本地客户端的码率进行动态调整, 以适应网络的抖动, 但其他客户端的情况会更复杂。 0005 如图2所示, 当clientA网络状态好时, 它的码率可能在设定最大值如2800, 但 clientB此时的网络抖动较大, 所以A的流通过server端转发给B时, 不光用户B的体验很差, 而且入流量较大也会让抖动的带宽有更大的影响, 从而进一步降低自己的码率, 甚至丢包。 那么其他用户便会和B无法建立稳定的连接。 0006 其实在线互动课时, 大部分。

11、时间主要是老师讲授(高阅读), 而学生以听讲和练习 为主(低活跃度)。 此时对低活跃度的用户动态降低码率/帧率, 可以有效减少视频流大小, 提高视频互动的稳定性。 为此, 提出一种基于直播内容识别的互动直播教学节流装置和方 法。 发明内容 0007 本发明的目的在于提供一种基于直播内容识别的互动直播教学节流装置和方法, 以解决上述背景技术中提出的问题。 0008 为实现上述目的, 本发明提供如下技术方案: 一种基于直播内容识别的互动直播 教学节流装置, 包括用于多个移动设备相互通信的连接模块、 用于学生活跃度捕捉和跟踪 的检测模块、 用于计算学生活跃度的分析模块以及对视频码率和帧率进行改变的调。

12、节模 块。 0009 优选的, 所述连接模块采用可相互通信的WebRTC解决方案, WebRTC是HTML5规范, 可用于直接在浏览器和设备之间添加实时媒体通信。 0010 优选的, 所述WebRTC包括: 0011 捕捉摄像头, 建立通信的第一步是获取用户的设备的摄像头和麦克风权限, 先检 测设备的可用性, 然后获取用户授权并与设备建立连接, 最后再从设备获取一段数据流; 0012 视频的编解码, 对需要发送的一段音视频数据进行编码, 这个过程会将视频帧或 说明书 1/6 页 4 CN 111901621 A 4 音频声波分解成许多很小的数据块, 再将它们锁到更小的尺寸, 从而可以让这些数据。

13、块在 网络间更快的传输, 然后在接收端将它们解压; 0013 传输层, 主要处理数据包丢失、 数据包排序以及建立用户间连接等问题, 通过传输 层API可以轻松获知用户网络的波动, 并及时对连接状态的变化作出反应; 0014 会话管理, 通常使用信令负责在浏览器中建立管理多个连接。 0015 优选的, 所述连接模块的多人视频通信采用Router解决方案, Router的办法使得 H.264SVC基础设施普及, 基于中心点从每个客户端接受一个流并发送到每个参与者, 中心 节点只做数据包检查和转发, 而不是昂贵的编码和实际的媒体解码。 0016 优选的, 所述基于直播内容识别的互动直播教学节流装置还。

14、包括Janus通用服务 器, 实现与浏览器建立WebRTC媒体通信、 与浏览器交换JSON消息, 以及在浏览器和服务器端 应用程序逻辑之间中继rtp/rtcp和消息, 任何特定的特性和应用程序都需要在服务器端插 件中实现, 然后浏览器可以通过Janus核心联系这些插件, 以利用它们提供的功能。 0017 优选的, 所述检测模块包括人脸识别模块和音频识别模块。 0018 一种人脸位置识别方法, 使用Harrcascade特征级联分类器, 从许多正负图像中训 练级联函数, 然后用于检测其他图像中的对象。 0019 一种音频人声分离方法, 为每个频带计算增益以应用于信号, 由于增益总是限制 在0到1。

15、之间, 只需使用S型激活函数(其输出也在0到1之间)来计算增益, 从而确保了不会在 模型中增加噪音。 0020 一种学生活跃度概率值的计算方法, 当我们获得了获得人脸识别的输出结果f和 人声识别的输出结果v, 最后通过加权的方式计算出最终活跃度概率值S, 公式如下: 0021 Sw1*f+w2*v+o; 0022 其中, f为布尔值, v为归一化之后的值, w1和w2是权重值, 实验时都去0.4比价适 合, o为其他因素, 由当前网络状况和设备决定, 取值范围是-0.2, 0.2。 0023 一种基于直播内容识别的互动直播教学节流方法, 包括以下步骤: 0024 步骤一: 通过移动设备, 采集。

16、学生的视频流; 0025 步骤二: 通过不同的深度学习模型, 进行人脸捕获与跟踪、 人脸检测与情绪识别、 人体检测与姿态分析、 环境物体检测和音频检测, 计算出不同的活跃度阈值; 0026 步骤三: 通过组合模型计算出学生的活跃度, 当活跃度大于设定阈值(0.6对应准 确度85.4), 则判定当前为高活跃状态, 提高码率, 提高帧率, 当活跃度低于(0.3)则判定 当前为低活跃状态, 降低码率, 减少帧率, 减少视频流。 0027 优选的, 所述步骤一种的移动设备包括手机、 PC、 电视和平板电脑。 0028 与现有技术相比, 本发明的有益效果是: 0029 本发明通过引入深度神经网络, 将上。

17、课活跃度的影响纳入码率/帧率的动态调节, 对于不活跃的用户降低码率/帧率, 提高连接稳定, 提高上课质量和用户满意度, 同时节约 服务器流量。 附图说明 0030 图1为本发明Router示意图; 0031 图2为本发明Router缺陷示意图; 说明书 2/6 页 5 CN 111901621 A 5 0032 图3为常规噪声抑制算法的概念图; 0033 图4为本发明活跃度分析解决方案示意图; 0034 图5为本发明训练分类器示意图; 0035 图6为本发明训练图像示意图; 0036 图7为本发明GRU示意图; 0037 图8为本发明线性频率域和Bark域同一音频下的表现示意图; 0038 图。

18、9为本发明用于计算频带增益的层示意图; 0039 图10为本发明灰度测试示意图。 具体实施方式 0040 下面将结合本发明实施例中的附图, 对本发明实施例中的技术方案进行清楚、 完 整地描述, 显然, 所描述的实施例仅仅是本发明一部分实施例, 而不是全部的实施例。 基于 本发明中的实施例, 本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例, 都属于本发明保护的范围。 0041 请参阅图1-10, 本发明提供一种技术方案: 一种基于直播内容识别的互动直播教 学节流装置, 包括用于多个移动设备相互通信的连接模块、 用于学生活跃度捕捉和跟踪的 检测模块、 用于计算学生活跃度的分析。

19、模块以及对视频码率和帧率进行改变的调节模块。 0042 所述连接模块采用可相互通信的WebRTC解决方案, WebRTC是HTML5规范, 可用于直 接在浏览器和设备之间添加实时媒体通信, 它底层基于C/C+, 上层暴露JavascriptAPI。 WebRTC的作用是允许访问设备, 可以访问设备的麦克风, 手机或笔记本电脑上的摄像头, 也 可以是屏幕本身。 可以捕获用户的显示, 然后远程共享或记录该屏幕。 同时包括音视频编解 码、 传输层以及会话(Sesstion)管理。 0043 所述WebRTC包括: 0044 捕捉摄像头, 建立通信的第一步是获取用户的设备的摄像头和麦克风权限, 先检 。

20、测设备的可用性, 然后获取用户授权并与设备建立连接, 最后再从设备获取一段数据流; 0045 视频的编解码, 对需要发送的一段音视频数据进行编码, 这个过程会将视频帧或 音频声波分解成许多很小的数据块, 再将它们锁到更小的尺寸, 从而可以让这写数据块在 网络间更快的传输, 然后在接收端将它们解压, 算法为codec, 这里的算法统称为codeca(多 媒体数字信号编解码器), WebRTC内置的几种编解码器包括: H.264,iSAC和VP9, 当客户端和 服务器会话时, 会选取最优的编解码器; 0046 传输层, 主要处理数据包丢失、 数据包排序以及建立用户间连接等问题, 通过传输 层API。

21、可以轻松获知用户网络的波动, 并及时对连接状态的变化作出反应; 0047 会话管理, 通常使用信令负责在浏览器中建立管理多个连接。 0048 所述连接模块的多人视频通信采用Router解决方案, Router的办法使得H.264SVC 基础设施普及, 基于中心点从每个客户端接受一个流并发送到每个参与者, 中心节点只做 数据包检查和转发, 而不是昂贵的编码和实际的媒体解码。 0049 WebRTC本身只支持点对点, 群聊只能客户端通过发多路音视频数据给别的客户 端, 对于客户端压力非常大, 所以无法支持更多人的群聊, 而且有些NAT是无法通过点对点 对连的, 所以需要一个中转服务器来中转, 业界。

22、比较成熟的方案为: kurento、 licode、 janus 说明书 3/6 页 6 CN 111901621 A 6 和mediasoup等开源解决方案, 综合考虑使用janus为主要架构。 0050 所述基于直播内容识别的互动直播教学节流装置还包括Janus通用服务器, 实现 与浏览器建立WebRTC媒体通信、 与浏览器交换JSON消息, 以及在浏览器和服务器端应用程 序逻辑之间中继rtp/rtcp和消息, 任何特定的特性和应用程序都需要在服务器端插件中实 现, 然后浏览器可以通过Janus核心联系这些插件, 以利用它们提供的功能。 0051 这种插件的例子可以是回声测试(echo)、。

23、 会议桥接(conferencebridges)、 媒体记 录器(mediarecorders)、 SIP网关等应用程序的实现。 0052 所述检测模块包括人脸识别模块和音频识别模块。 0053 一种人脸位置识别方法, 使用Harrcascade特征级联分类器, 从许多正负图像中训 练级联函数, 然后用于检测其他图像中的对象。 0054 图像识别中主要使用的技术为卷积神经网络, 而对于视频中学生行为的识别, 则 和时间段内学生的连续行为有关, 所有RNN神经网络会在特定的行为模式下表现更好的识 别效果。 0055 循环神经网络(Recurrentneturalnetwork)是一类用于处理序列。

24、数据的神经网 络。 独特之处在于引入了 “时间” 的维度, 因而适用于处理时间序列类型的数据。 在处理视频 时, 常常将其看作连续的图片数据, 把参数共享调整到时间的维度上, 让神经网络使用相同 的权重系统来处理具有先后顺序的数据, 得到的就是循环神经网络。 0056 视频直播互动课程, 用户的主要输入设别是摄像头。 对于活跃用户限定肯定是正 面对着屏幕, 有完全面部轮廓的。 (如果用户起身, 或者离开都视为非活跃)。 脸部识别使用 了Harrcascade特征级联分类器, 这是一种基于机器学习的方法, 其中从许多正负图像中训 练级联函数。 然后用于检测其他图像中的对象。 0057 最初需要大。

25、量正图像(面部图像)和负图像(无面部图像)来训练分类器。 然后需要 从中提取特征。 为此, 使用图5所示的haar特征。 它们就像卷积核, 每个特征都是通过从黑色 矩形下的像素总和中减去白色矩形下的像素总和而获得的单个值。 0058 每个内核所有可能大小和位置都会用于计算大量特征。 为了找到白色和黑色矩形 下的像素总和, 入了积分图像。 它简化了仅需要四个像素的操作的像素总和的计算(像素数 量可以是多少)。 0059 但是在计算出的所有这些特征中, 大多数都不相关, 如图6, 第一行显示了两个好 的特征。 选择的第一个特征似乎着眼于眼睛区域通常比鼻子和脸颊区域更暗的性质。 第二 个功能取决于眼。

26、睛比鼻子的鼻梁更黑的属性。 但是在脸颊或其他任何地方使用相同的窗又 是无关紧要的, 由Adaboost实现从160000多个功能中选择最佳功能。 0060 为了将从160000多个功能能中选择最佳的, 首先, 将所有特征应用于所有训练图 像。 对于每个特征, 它会找到最佳的阈值, 该阈值会将面部分为正面和负面, 每个图像的权 重均相等。 每次分类后, 错误分类的图像的权重都会增加, 然后再次执行相同的过程。 将计 算新的错误率, 直到达到所需的准确性或错误率或找到所需的功能数量为止。 由此, 得到了 对面部和非面部图像进行最佳分类的特征。 最终分类器是这些弱分类器的加权和。 (最终的 分类器约。

27、有6000多个特征)。 0061 对单张照片, 取24x24窗, 向其应用6000个特征来检查是否有人脸, 是效率低下又 费时的。 其实在图像中, 大多数图像区域是非面部区域。 因此, 检查的窗中不是面部区域时 说明书 4/6 页 7 CN 111901621 A 7 就将其丢弃, 把注意力集中在可以有脸的区域继续处理, 这样可以找到更多时间检查可能 的面部区域。 0062 为此, 引入了级联分类器的概念。 不要将所有6000个功能部件应用到一个窗又上, 而是将这些功能部件分组到不同的分类器阶段, 然后逐一应用。 如果窗又在第一阶段失败, 则将其丢弃。 如果通过, 则应用功能的第二阶段并继续该。

28、过程。 经过所有阶段的窗又是一个 面部区域。 探测器具有6000多个特征, 具有38个阶段, 在前五个阶段具有1、 10、 25、 25和50个 特征。 0063 噪声压缩是一个比较经典的研究课题, 它的主要目的是获取噪声信号并消除尽可 能多的噪声, 同时使目标语音的失真最小。 如图3显示了常规噪声抑制算法的概念图。 语音 活动检测(Voiceactivitydetection)模块可以检测信号何时包含语音以及何时只是噪音。 噪声频谱估计模块使用它来计算噪声的频谱特性(每个频率多少功率)。 从而知道噪声的样 子, 就可以从输入音频中 “减去” 噪声。 0064 对于课堂活跃度的设定, 用户是否。

29、在问答(即是否在做有效的发声)也是重要考虑 因素。 所以需要从前端设备的音频流中分离出人声, 通过有效人声从另一个角度验证活跃 度。 0065 深度神经网络的使用使的递归网络可以记住过去的模式, 从而使时间序列建模成 为可能。 针对方向传播时的梯度消失问题, 使得RNN网络无法过深。 但使用门控单元可以很 通过开关控制在计算新状态下使用, 从而改变了一味基于新的偏导值的更新, 使用RNN网络 可以记住更久远的状态。 其中GRU性能更好。 0066 但针对噪音过滤的问题, 并不像语音识别一样需要理解用户的语音, 功能相对简 单。 同时也对处理效率有很高的要求, 为了避免很深的网络, 产生大量神经。

30、元, 决定不直接 处理样本的音谱。 相反, 认为频率段下面的Bark尺度符合人类如何感知声音的频率刻度。 总 共使用22个频段, 而不是复杂的480个频谱值。 0067 图8显示了线性频率域和Bark域同一音频下的表现。 容易看出, 线性频率域对低频 信号不够直观, Bark域对低频具有放大作用, 高频具有压缩作用。 这点能够从转换公式明显 看出来。 回顾声音的掩蔽效应, 从Bark域来看, 能够更清晰地分析出哪些信号容易产生掩 蔽, 哪些噪声比较明显。 同时对于某些声音特征例如基音, 音调等在Bark域分析也有独特的 效果。 0068 虽然不能从22个频段中重建音频。 但可以为每个频带计算增。

31、益以应用于信号。 频 带增益工作有几个优点。 首先, 由于要计算的频段较少, 因此模型更简单。 其次, 它不可能创 建噪声伪像, 其中只有单个音调会通过, 而其相邻声音会被衰减。 使用足够宽的频段, 要么 让整个频段通过, 要么全部裁剪。 第三个优势来自如何优化模型。 由于增益总是限制在0到1 之间, 只需使用S型激活函数(其输出也在0到1之间)来计算增益, 从而确保了不会在模型中 增加噪音。 0069 使用的深度架构是受传统噪声抑制方法启发的, 大多数由3个GRU层完成。 图9显示 了用于计算频带增益的层, 以及该体系结构如何映射到噪声抑制的传统步骤。 每个方框代 表一层神经元。 Dense。

32、层是完全连接的非循环层。 网络的输出之一是一组应用于不同频率的 增益。 另一个输出是语音活动概率。 0070 另外由于使用的是RTC使用的是opus编解码。 语音通过低比特率编解码器, 更容易 说明书 5/6 页 8 CN 111901621 A 8 降低嘈杂的语音, 因此消除噪声也可使编解码器更好地工作。 0071 一种音频人声分离方法, 为每个频带计算增益以应用于信号, 由于增益总是限制 在0到1之间, 只需使用S型激活函数(其输出也在0到1之间)来计算增益, 从而确保了不会在 模型中增加噪音。 0072 一种学生活跃度概率值的计算方法, 其特征在于: 当我们获得了获得人脸识别的 输出结果。

33、f和人声识别的输出结果v, 最后通过加权的方式计算出最终活跃度概率值S, 公式 如下: 0073 Sw1*f+w2*v+o; 0074 其中, f为布尔值, v为归一化之后的值, w1和w2是权重值, 实验时都去0.4比价适 合, o为其他因素, 由当前网络状况和设备决定, 取值范围是-0.2, 0.2。 0075 通过大量训练样本验证发现, 当正向阈值设定0.6, 负向阈值设定0.3时, 效果最 好, 准确度为85.4,召回率为79.1。 未来可能会再加一层adaboost取直接拟合误差。 0076 图10显示了当灰度测试时, 实验组和对照组有相同的学生数和相同服务器资源的 情况下, 每天总。

34、流量平均下降12, 有明显效果。 同时根据检测, 实验组的网络流量也更稳 定, 符合项目要求。 0077 本项目中采用后端离线数据训练, 将训练完的模型部署到前端, 在视频流数据采 集后即通过模型计算活跃度。 优点是能最大程度的流量节约较好, 但前端客户端加入了模 型代码比较重, 而且会占用一定的CPU资源。 0078 一种基于直播内容识别的互动直播教学节流方法, 包括以下步骤: 0079 步骤一: 通过移动设备, 采集学生的视频流; 0080 步骤二: 通过不同的深度学习模型, 进行人脸捕获与跟踪、 人脸检测与情绪识别、 人体检测与姿态分析、 环境物体检测和音频检测, 计算出不同的活跃度阈值。

35、; 0081 步骤三: 通过组合模型计算出学生的活跃度, 当活跃度大于设定阈值(0.6对应准 确度85.4), 则判定当前为高活跃状态, 提高码率, 提高帧率, 当活跃度低于(0.3)则判定 当前为低活跃状态, 降低码率, 减少帧率, 减少视频流。 0082 所述步骤一种的移动设备包括手机、 PC、 电视和平板电脑。 0083 需要说明的是, 在本文中, 诸如第一和第二等之类的关系术语仅仅用来将一个实 体或者操作与另一个实体或操作区分开来, 而不一定要求或者暗示这些实体或操作之间存 在任何这种实际的关系或者顺序。 而且, 术语 “包括” 、“包含” 或者其任何其他变体意在涵盖 非排他性的包含,。

36、 从而使得包括一系列要素的过程、 方法、 物品或者设备不仅包括那些要 素, 而且还包括没有明确列出的其他要素, 或者是还包括为这种过程、 方法、 物品或者设备 所固有的要素。 0084 尽管已经示出和描述了本发明的实施例, 对于本领域的普通技术人员而言, 可以 理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、 修改、 替换 和变型, 本发明的范围由所附权利要求及其等同物限定。 说明书 6/6 页 9 CN 111901621 A 9 图1 图2 说明书附图 1/8 页 10 CN 111901621 A 10 图3 说明书附图 2/8 页 11 CN 111901621 A 11 图4 说明书附图 3/8 页 12 CN 111901621 A 12 图5 说明书附图 4/8 页 13 CN 111901621 A 13 图6 图7 说明书附图 5/8 页 14 CN 111901621 A 14 图8 说明书附图 6/8 页 15 CN 111901621 A 15 图9 说明书附图 7/8 页 16 CN 111901621 A 16 图10 说明书附图 8/8 页 17 CN 111901621 A 17 。

展开阅读全文
内容关键字: 基于 直播 内容 识别 互动 教学 节流 装置 方法
关于本文
本文标题:基于直播内容识别的互动直播教学节流装置和方法.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/10086591.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1