人体跌倒检测方法、装置、电子设备及存储介质.pdf

上传人:龙脉 文档编号:10072298 上传时间:2021-06-03 格式:PDF 页数:19 大小:1.11MB
收藏 版权申诉 举报 下载
人体跌倒检测方法、装置、电子设备及存储介质.pdf_第1页
第1页 / 共19页
人体跌倒检测方法、装置、电子设备及存储介质.pdf_第2页
第2页 / 共19页
人体跌倒检测方法、装置、电子设备及存储介质.pdf_第3页
第3页 / 共19页
文档描述:

《人体跌倒检测方法、装置、电子设备及存储介质.pdf》由会员分享,可在线阅读,更多相关《人体跌倒检测方法、装置、电子设备及存储介质.pdf(19页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010753012.7 (22)申请日 2020.07.30 (71)申请人 中国建设银行股份有限公司 地址 100033 北京市西城区金融大街25号 申请人 建信金融科技有限责任公司 (72)发明人 吴昀蓁郑邦东熊博颖万光明 (74)专利代理机构 北京品源专利代理有限公司 11332 代理人 孟金喆 (51)Int.Cl. A61B 5/11(2006.01) G06K 9/00(2006.01) (54)发明名称 一种人体跌倒检测方法、 装置、 电子设备及 存储介质 (。

2、57)摘要 本发明公开了一种人体跌倒检测方法、 装 置、 电子设备及存储介质。 该方法包括获取待检 测的音视频数据, 对所述音视频数据进行数据分 离, 得到所述音视频数据中的视频数据和音频数 据; 基于第一检测模型对所述视频数据进行跌倒 检测, 并确定检测结果; 基于第二检测模型对所 述音频数据进行跌倒检测, 并确定检测结果; 基 于所述第一时间信息和第二时间信息, 将预设时 间间隔内关联的第一跌倒行为和所述第二跌倒 行为分别对应的第一置信度信息和第二置信度 信息进行联合处理, 基于处理结果确定所述音视 频数据中是否存在跌倒行为。 解决了传统传感器 装置检测跌倒的不便捷性以及单靠视觉监控检 测。

3、的易漏检误检等问题, 提高了跌倒行为检测的 精度。 权利要求书2页 说明书11页 附图5页 CN 111904429 A 2020.11.10 CN 111904429 A 1.一种人体跌倒检测方法, 其特征在于, 包括: 获取待检测的音视频数据, 对所述音视频数据进行数据分离, 得到所述音视频数据中 的视频数据和音频数据; 基于第一检测模型对所述视频数据进行跌倒检测, 确定所述视频数据中第一跌倒行为 的第一时间信息和第一置信度信息; 基于第二检测模型对所述音频数据进行跌倒检测, 确定所述音频数据中第二跌倒行为 的第二时间信息和第二置信度信息; 基于所述第一时间信息和第二时间信息, 将预设时间。

4、间隔内关联的第一跌倒行为和所 述第二跌倒行为分别对应的第一置信度信息和第二置信度信息进行联合处理, 基于处理结 果确定所述音视频数据中是否存在跌倒行为。 2.根据权利要求1所述的方法, 其特征在于, 所述对所述音视频数据进行数据分离, 得 到所述音视频数据中的视频数据和音频数据之后, 还包括: 对所述视频信号进行视频解码, 得到多张视频图像帧; 以及, 对所述音频信号进行音频解码, 得到多个音频段。 3.根据权利要求2所述的方法, 其特征在于, 所述基于第二检测模型对所述音频数据进 行跌倒检测, 包括: 基于第二检测模型对具有音频信号的音频段进行跌倒检测。 4.根据权利要求2所述的方法, 其特。

5、征在于, 所述基于第一检测模型对所述视频数据进 行跌倒检测, 包括: 基于第一检测模型对所有图像帧中的关键图像帧进行跌倒检测。 5.根据权利要求1所述的方法, 其特征在于, 所述基于所述第一时间信息和第二时间信 息, 将预设时间间隔内关联的第一跌倒行为和所述第二跌倒行为分别对应的第一置信度信 息和第二置信度信息进行联合处理, 包括: 确定位于所述第二时间信息前/后的预设时间间隔内的关联第一时间信息; 将所述第二时间信息的第二跌倒行为和所述关联第一时间信息的第一跌倒行为分别 对应的第一置信度信息和第二置信度信息进行预设规则的处理, 确定第三置信度信息。 6.根据权利要求5所述的方法, 其特征在于。

6、, 基于处理结果确定所述音视频数据中是否 存在跌倒行为, 包括: 当所述第三置信度信息大于或等于第一预设阈值时, 确定所述音视频数据中存在跌倒 行为; 当所述第三置信度信息小于所述第一预设阈值时, 确定所述音视频数据中不存在跌倒 行为。 7.根据权利要求1所述的方法, 其特征在于, 在确定所述视频数据中第一跌倒行为的第 一时间信息和第一置信度信息之后, 还包括: 当所述第一置信度信息大于第二预设阈值时, 确定所述音视频数据中存在跌倒行为。 8.根据权利要求1所述的方法, 其特征在于, 所述方法还包括: 获取样本音视频数据, 所述样本音视频数据包括样本音频数据和样本视频数据, 所述 样本音频数据。

7、中包括对样本跌倒音频信号的标记, 所述样本跌倒音频信号包括跌倒信号、 尖叫信号、 器物落地信号和器物破碎信号中至少一项, 所述样本视频数据中包括跌倒图像 权利要求书 1/2 页 2 CN 111904429 A 2 的标记; 基于所述样本音频数据对待训练的第二检测模型进行训练; 基于所述样本视频数据对待训练的第一检测模型进行训练。 9.一种人体跌倒检测装置, 其特征在于, 包括: 数据获取模块, 用于获取待检测的音视频数据, 对所述音视频数据进行数据分离, 得到 所述音视频数据中的视频数据和音频数据; 视频数据处理模块, 用于基于第一检测模型对所述视频数据进行跌倒检测, 确定所述 视频数据中第。

8、一跌倒行为的第一时间信息和第一置信度信息; 音频数据处理模块, 用于基于第二检测模型对所述音频数据进行跌倒检测, 确定所述 音频数据中第二跌倒行为的第二时间信息和第二置信度信息; 跌倒行为确定模块, 用于基于所述第一时间信息和第二时间信息, 将预设时间间隔内 关联的第一跌倒行为和所述第二跌倒行为分别对应的第一置信度信息和第二置信度信息 进行联合处理, 基于处理结果确定所述音视频数据中是否存在跌倒行为。 10.一种电子设备, 其特征在于, 所述电子设备包括: 一个或多个处理器; 存储装置, 用于存储一个或多个程序, 当所述一个或多个程序被所述一个或多个处理器执行, 使得所述一个或多个处理器实 现。

9、如权利要求1-8中任一所述的人体跌倒检测方法。 11.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该程序被处理器 执行时实现如权利要求1-8中任一所述的人体跌倒检测方法。 权利要求书 2/2 页 3 CN 111904429 A 3 一种人体跌倒检测方法、 装置、 电子设备及存储介质 技术领域 0001 本发明实施例涉及人体检测技术领域, 尤其涉及一种人体跌倒检测方法、 装置、 电 子设备及存储介质。 背景技术 0002 随着社会老龄化趋势的日益严重, 人们越来越关注老人的日常生活安全。 例如, 希 望可以及时检测老人独自在家时是否发生跌倒等意外。 因此, 现实生活中, 如。

10、何有效、 准确 地检测是否发生跌倒, 以便及时地对老人进行救助成为一个重要的问题。 0003 目前为了检测跌倒, 现有的方法大多是事先在人体活动区域内布设多个摄像头, 以采集视频流数据, 再通过计算机视觉技术检测人体跌倒行为。 或者是佩戴传感装置, 通过 获取传感器信号检测人体跌倒行为。 上述方法具体实施时, 单靠计算机视觉技术来检测人 体跌倒行为由于受现场环境影响, 如光照、 遮挡、 运动模糊等因素, 有如下缺点: 1、 检出率偏 低, 容易漏报警; 2、 准确率偏低, 容易误告警。 0004 传统的传感装置检测人体跌倒行为具有以下几个缺点: 1、 用户须要佩戴传感装 置, 便捷可用性大大降。

11、低; 2、 传感装置往往价格昂贵, 所有用户全部佩戴该设备成本较高; 3、 传感装置与服务器通信有一定局限性, 目前市场上产品大多通过蓝牙或者wifi传输, 对 用户活动范围有较大限制; 4、 传感器须要耗电, 用户须要定期充电, 增大了不便捷性。 发明内容 0005 本发明实施例提供了一种人体跌倒检测方法、 装置、 电子设备及存储介质, 解决了 传统传感器装置检测跌倒的不便捷性以及单靠视觉监控检测的易漏检误检等问题, 使用户 在无感知的情况下, 提高了跌倒行为检测的精度。 0006 第一方面, 本发明实施例提供了一种人体跌倒检测方法, 包括: 0007 获取待检测的音视频数据, 对所述音视频。

12、数据进行数据分离, 得到所述音视频数 据中的视频数据和音频数据; 0008 基于第一检测模型对所述视频数据进行跌倒检测, 确定所述视频数据中第一跌倒 行为的第一时间信息和第一置信度信息; 0009 基于第二检测模型对所述音频数据进行跌倒检测, 确定所述音频数据中第二跌倒 行为的第二时间信息和第二置信度信息; 0010 基于所述第一时间信息和第二时间信息, 将预设时间间隔内关联的第一跌倒行为 和所述第二跌倒行为分别对应的第一置信度信息和第二置信度信息进行联合处理, 基于处 理结果确定所述音视频数据中是否存在跌倒行为。 0011 第二方面, 本发明实施例还提供了一种人体跌倒检测装置, 包括: 00。

13、12 数据获取模块, 用于获取待检测的音视频数据, 对所述音视频数据进行数据分离, 得到所述音视频数据中的视频数据和音频数据; 0013 视频数据处理模块, 用于基于第一检测模型对所述视频数据进行跌倒检测, 确定 说明书 1/11 页 4 CN 111904429 A 4 所述视频数据中第一跌倒行为的第一时间信息和第一置信度信息; 0014 音频数据处理模块, 用于基于第二检测模型对所述音频数据进行跌倒检测, 确定 所述音频数据中第二跌倒行为的第二时间信息和第二置信度信息; 0015 跌倒行为确定模块, 用于基于所述第一时间信息和第二时间信息, 将预设时间间 隔内关联的第一跌倒行为和所述第二跌。

14、倒行为分别对应的第一置信度信息和第二置信度 信息进行联合处理, 基于处理结果确定所述音视频数据中是否存在跌倒行为。 0016 第三方面, 本发明实施例还提供了一种电子设备, 所述电子设备包括: 0017 一个或多个处理器; 0018 存储装置, 用于存储一个或多个程序, 0019 当所述一个或多个程序被所述一个或多个处理器执行, 使得所述一个或多个处理 器实现如本发明任意实施例提供的人体跌倒检测方法。 0020 第四方面, 本发明实施例还提供了一种计算机可读存储介质, 其上存储有计算机 程序, 该程序被处理器执行时实现本发明任意实施例提供的人体跌倒检测方法。 0021 本发明实施例提供的人体跌。

15、倒检测方法, 通过获取待检测的音视频数据, 对所述 音视频数据进行数据分离, 得到所述音视频数据中的视频数据和音频数据; 基于第一检测 模型对所述视频数据进行跌倒检测, 确定所述视频数据中第一跌倒行为的第一时间信息和 第一置信度信息; 基于第二检测模型对所述音频数据进行跌倒检测, 确定所述音频数据中 第二跌倒行为的第二时间信息和第二置信度信息; 基于所述第一时间信息和第二时间信 息, 将预设时间间隔内关联的第一跌倒行为和所述第二跌倒行为分别对应的第一置信度信 息和第二置信度信息进行联合处理, 基于处理结果确定所述音视频数据中是否存在跌倒行 为。 通过采用计算机视觉技术与听觉技术相结合的方案, 。

16、将视频图像与音频事件关联起来, 起到相互补充的作用, 解决了传统传感器装置检测跌倒的不便捷性以及单靠视觉监控检测 的易漏检误检等问题, 使用户在无感知的情况下, 提高了跌倒行为检测的精度。 附图说明 0022 图1为本发明实施例一提供的人体跌倒检测方法的流程图; 0023 图2为本发明实施例二提供的人体跌倒检测方法的流程图; 0024 图3为本发明实施例三提供的人体跌倒检测方法的流程图; 0025 图4为本发明实施例四提供的人体跌倒检测装置的结构示意图; 0026 图5为本发明实施例五提供的电子设备的结构示意图。 具体实施方式 0027 下面结合附图和实施例对本发明作进一步的详细说明。 可以理。

17、解的是, 此处所描 述的具体实施例仅仅用于解释本发明, 而非对本发明的限定。 另外还需要说明的是, 为了便 于描述, 附图中仅示出了与本发明相关的部分而非全部结构。 0028 实施例一 0029 图1为本发明实施例一中的人体跌倒检测方法的流程图, 本实施例可以适用于检 测人体是否有跌倒的情况, 该方法可以由人体跌倒检测的装置执行, 该人体跌倒检测装置 可以采用软件和/或硬件的方式实现。 如图1所示, 该方法具体包括: 说明书 2/11 页 5 CN 111904429 A 5 0030 S110、 获取待检测的音视频数据, 对所述音视频数据进行数据分离, 得到所述音视 频数据中的视频数据和音频。

18、数据。 0031 在本发明实施例中, 音视频数据可以是摄像机直接采集到的数据包。 其中, 数据包 中包含有相对应的视频数据和音频数据。 可选的, 采用音视频编码技术将原始视频数据和 原始音频数据进行编码获取音视频数据。 具体的, 视频编码主要采取块运动估计和运动补 偿技术有效的去除图像帧间冗余度, 来完成图像的压缩; 通过抽样、 量化、 编码三个步骤将 原始音频数据中连续变化的模拟信号转换为数字信号。 示例性的, 可以采用PCM编码将语 音、 图像等模拟信号每隔一段时间进行取样, 使其离散化, 同时将抽样值按分层单位四舍五 入取整量化, 并将抽样值按一组二进制码来表示抽样脉冲的幅值, 依照此方。

19、法将原始视频 数据和原始音频数据编码处理, 得到音视频数据。 0032 在一些实施例中, 可以是实时获取音视频数据, 并对实时采集的音视频数据进行 跌倒行为的检测, 以及时发现用户的跌倒行为。 还可以是基于预设时间间隔, 将该预设时间 间隔采集的音视频数据进行跌倒行为的检测, 该预设时间间隔可以根据用户需求设置, 例 如可以是10分钟或30分钟等。 0033 当然, 上述实施例中获取音视频数据的方式只是作为可选实施例, 也可以根据音 视频数据的信号流量采用H.264格式或者WMV格式进行编码获取音视频数据; 可选的, 还可 以根据实际情况进行具体设置, 本实施例对上述数据的获取方式不加以限制。。

20、 0034 将获取到的音视频数据进行数据分离为各个基本流, 以得到单独的视频数据和音 频数据。 可选的, 通过分离得到的视频流数据格式包括但不限于: AVI(Audio Video Interleaved, 音频视频交错格式)、 MKV(MKV file format, Matroska多媒体容器格式)、 FLV (Flash Video, 流媒体格式)、 VOB(VideoObject, 视频媒体格式)等格式。 可选的, 分离得到 的音频流数据格式包括但不限于: AAC(Advanced Audio Coding, 高级音频编码格式)和 FLAC(Free LosslessAudio Cod。

21、ec, 无损压缩编码格式)等格式。 0035 可选的, 可以采用音视频分离器Media Extractor从当前的音视频数据中读取音 视频相关信息(音视频的编码格式等), 逐帧读取文件中的音视频数据, 并分离视频流的音 频流。 示例性的, 首先初始化音视频分离器Media Extracto, 并添加音视频数据的路径; 然 后获取轨道的数量, 并为每一个轨道设置索引。 具体的, 轨道包括视频轨道和音频轨道。 遍 历所有轨道, 获取视频轨道索引和音频轨道索引。 分别进行视频流和音频流的分离, 得到单 独的视频数据和音频数据。 0036 当然, 上述实施例中分离音视频数据的方式只是作为可选实施例, 。

22、也可以根据实 际情况进行具体设置, 本实施例对音视频数据的分离方式不加以限制。 0037 S120、 基于第一检测模型对所述视频数据进行跌倒检测, 确定所述视频数据中第 一跌倒行为的第一时间信息和第一置信度信息。 0038 在本发明实施例中, 基于视频数据进行跌倒检测主要是通过将获取到的视频数据 分解成多个视频图像帧, 基于第一检测模型对视频图像帧进行跌倒行为检测, 输出跌倒行 为检测结果。 可选的, 跌倒检测流程包括: 在输入的视频图像帧中提取目标候选区域, 对候 选区域提取图像帧中的目标人物的行为特征, 根据所提取的行为特征进行跌倒行为检测, 得到的检测结果即第一跌倒行为的第一时间信息和第。

23、一置信度信息。 0039 具体的, 第一检测模型为基于计算机视觉的目标检测模型。 可选的, 基于计算机视 说明书 3/11 页 6 CN 111904429 A 6 觉的目标检测模模型包括但不限于: R-CNN(Region-basedConvolutional Neural Network, 基于区域的卷积神经网络)模型、 Fast-CNN(Region-Convolutional Neural Network, 快速卷积神经网络)模型、 R-FCN模型、 FPN(Feature Pyramid Networks, 特征金字 塔网络)模型等检测模型。 具体的, 第一时间信息是基于视频数据进行。

24、跌倒检测模型检测出 的第一跌倒行为产生的时间信息; 第一置信度信息是检测产生第一跌倒行为的置信度信 息。 在本实施例中第一置信度可以理解为基于视频判断产生跌倒行为的概率。 0040 其中, 第一检测模块可以是基于跌倒样本图像和非跌倒样本图像训练得到。 跌倒 样本图像和非跌倒样本图像可以是从网络爬取得到的, 或者对跌倒行为和非跌倒行为拍摄 得到的, 并对获取的跌倒样本图像和非跌倒样本图像设置标签。 相应的, 第一检测模块的训 练过程可以是分别将跌倒样本图像或非跌倒样本图像输入至待训练的第一检测模块中, 得 到对输入图像的跌倒预测, 当该跌倒预测与输入图像的标签不同时, 生成损失函数, 对待训 练。

25、的第一检测模块中的网络参数进行调节, 循环上述训练过程, 直到满足迭代训练次数, 或 者满足训练精度确定第一检测模块训练完成, 得到具有对视频图片进行跌倒识别功能的第 一检测模块。 0041 S130、 基于第二检测模型对所述音频数据进行跌倒检测, 确定所述音频数据中第 二跌倒行为的第二时间信息和第二置信度信息。 0042 在本发明实施例中, 第二检测模型为基于深度学习的音频检测模型。 可选的, 检测 模型包括但不限于: DBN(Deep Belief Networks, 深度置信网络)模型、 DNN(Deep Neural Network, 深度神经网络)模型、 RNN(Recurrent 。

26、NeuralNetwork, 循环神经网络)模型和LSTM (Long Short Term Memory, 长短期记忆网络)模型等检测模型。 具体的, 基于音频数据进行 跌倒检测主要是将获取到的音频数据进行处理得到不同长度的音频段, 检测各音频段中是 否存在跌倒行为, 并输出检测结果。 可选的, 检测流程为: 对时域上的音频数据进行预处理 并提取数据体征, 基于第二检测模型对处理后的音频特征进行检测, 并输出检测结果。 0043 具体的, 基于音频数据进行跌倒行为检测的检测结果为第二跌倒行为对应的第二 时间信息和第二置信度信息。 第二时间信息是基于音频数据进行跌倒检测模型检测出的第 二跌倒行。

27、为产生的时间信息; 第二置信度信息是检测产生第二跌倒行为的置信度信息。 其 中, 第二检测模块可以是基于跌倒样本音频和非跌倒样本音频训练得到。 跌倒样本音频和 非跌倒样本音频可以是从网络爬取得到的, 或者对跌倒行为和非跌倒行为拾音得到的, 并 对获取的样本音频中存在跌倒行为的音频信号位置设置标签。 相应的, 第二检测模块的训 练过程可以是分别将样本音频输入至待训练的第二检测模块中, 得到对输入图像的跌倒预 测, 当该跌倒预测的位置与样本音频中的标签位置不同时, 生成损失函数, 对待训练的第二 检测模块中的网络参数进行调节, 循环上述训练过程, 直到满足迭代训练次数, 或者满足训 练精度确定第二。

28、检测模块训练完成, 得到具有对音频进行跌倒识别功能的第二检测模块。 S140、 基于所述第一时间信息和第二时间信息, 将预设时间间隔内关联的第一跌倒行为和 第二跌倒行为分别对应的第一置信度信息和第二置信度信息进行联合处理, 基于处理结果 确定所述音视频数据中是否存在跌倒行为。 0044 在本发明实施例中, 可选的, 判断产生第一跌倒行为的第一时间信息和产生第二 跌倒行为的第二时间信息之间的第一时间间隔是否小于预设时间间隔, 当第一时间间隔大 于预设时间间隔时, 忽略此次检测, 不对第一置信度信息和第二置信度信息进行处理; 当第 说明书 4/11 页 7 CN 111904429 A 7 一时间。

29、间隔小于或等于预设时间间隔时, 将第一时间信息对应的第一置信度信息和第二时 间信息对应的第二置信度信息进行联合处理。 具体的, 联合处理算法可以采用加权算法得 到基于音视频的跌倒行为结果, 并根据结果判断是当前音视频中是否存在跌倒行为。 可选 的, 分别对第一置信度信息和第二置信度信息设置权重, 并进行加权处理, 得到音视频的跌 倒行为结果, 当该音视频的跌倒行为结果满足跌倒阈值时, 确定存在跌倒行为, 相应的, 当 该音视频的跌倒行为结果不满足跌倒阈值时, 确定不存在跌倒行为。 其中, 第一置信度信息 和第二置信度信息设置权重可以是基于用户需求确定。 0045 在一些实施例中, 还可以在确定。

30、产生第一跌倒行为的第一时间信息和第一置信度 信息之后, 依据第一置信度信息判断当前音视频中是否存在跌倒行为。 可选的, 当包含有第 一置信度信息的第一跌倒行为结果满足第二跌倒阈值时, 不进行第二跌倒行为的检测, 则 此时的第一跌倒行为结果为音视频的跌倒行为结果。 0046 需要说明的是, 上述判断音视频中是否存在跌倒行为的方式只是作为可选实施 例, 可以根据实际情况进行具体的设置, 本实施例对判断的方式不加以限制。 0047 本发明实施例提供了一种人体跌倒检测方法, 通过获取待检测的音视频数据, 对 音视频数据进行数据分离, 得到音视频数据中的视频数据和音频数据; 基于第一检测模型 对视频数据。

31、进行跌倒检测, 确定视频数据中第一跌倒行为的第一时间信息和第一置信度信 息; 基于第二检测模型对音频数据进行跌倒检测, 确定音频数据中第二跌倒行为的第二时 间信息和第二置信度信息; 基于第一时间信息和第二时间信息, 将预设时间间隔内关联的 第一跌倒行为和第二跌倒行为分别对应的第一置信度信息和第二置信度信息进行联合处 理, 基于处理结果确定音视频数据中是否存在跌倒行为。 通过采用计算机视觉技术与听觉 技术相结合的方案, 将视频图像与音频事件关联起来, 起到相互补充的作用, 解决了传统传 感器装置检测跌倒的不便捷性以及单靠视觉监控检测的易漏检误检等问题, 使用户在无感 知的情况下, 提高了跌倒行为。

32、检测的精度。 0048 实施例二 0049 图2为本发明实施例二中的人体跌倒检测方法的流程图, 本实施例在上述实施例 的基础上进行进一步地优化。 如图2所示, 所述方法包括: 0050 S210、 获取待检测的音视频数据, 对所述音视频数据进行数据分离, 得到所述音视 频数据中的视频数据和音频数据。 0051 S220、 对所述视频信号进行视频解码, 得到多张视频图像帧; 以及, 对所述音频信 号进行音频解码, 得到多个音频段。 0052 在本发明实施例中, 将分离得到的视频数据和音频数据分别传送给视频解码器和 音频解码器进行解码, 得到各自对应的视频图像帧和音频段。 0053 具体的, 采用。

33、视频解码器对视频数据中的视频流进行解码, 得到所有的图像帧, 其 中图像帧为视频的最小单元。 采用关键帧提取算法提取当前视频所有帧中的关键帧, 并将 关键帧保存为图片。 其中, 关键帧通常是指角色或者物体运动或变化中的关键动作所处的 那一帧, 本实施例中的关键帧是指相对于之前的帧画面变化超过预设阈值比例, 即有目标 或物体发生移动的帧。 基于第一检测模型对所有图像帧中的关键图像帧进行跌倒检测。 可 选的, 可以采用OpenCV进行图像帧的获取; 也可以采用FFmpeg将视频流解码为视频的图像 帧。 当然上述获取图像帧的方式只是作为可选实施例, 还可以根据实际情况进行具体的设 说明书 5/11 。

34、页 8 CN 111904429 A 8 置, 本实施例对图像帧的获取不加以限制。 0054 具体的, 将当前的音频数据采用音频解码器进行解码, 得到相同时长或不同时长 的音频段。 其中, 音频段中的音频信号包括所有可以检测到信号。 由于音频信号是一种非平 稳的时变信号, 因此, 无法直接提取语音内容中的语音特征。 但是音频信号在非常短的时间 段内能够近似稳定, 因此, 可以根据预设帧长, 将音频数据分成长短不同的音频段。 可选的, 也可以根据音频数据中的信号强度进行分段, 同时将没有信号的音频段进行剔除, 只保留 有音频信号的音频段, 减少对无效音频段的检测, 提高检测针对性以及检测效率。 。

35、基于第一 检测模型对所述每一具有音频信号的音频段进行跌倒检测, 以减少无效音频段的跌倒行为 检测, 在保证检测精度的基础上, 降低检测工作量。 0055 当然, 上述实施例中获取音频段的方式只是作为可选实施例, 也可以根据实际情 况进行具体设置, 本实施例对音频段的获取方式不加以限制。 0056 S230、 基于第一检测模型对所述视频数据进行跌倒检测, 确定所述视频数据中第 一跌倒行为的第一时间信息和第一置信度信息。 0057 S240、 基于第二检测模型对所述音频数据进行跌倒检测, 确定所述音频数据中第 二跌倒行为的第二时间信息和第二置信度信息。 0058 S250、 基于所述第一时间信息和。

36、第二时间信息, 将预设时间间隔内关联的第一跌 倒行为和所述第二跌倒行为分别对应的第一置信度信息和第二置信度信息进行联合处理, 基于处理结果确定所述音视频数据中是否存在跌倒行为。 0059 在本发明实施例中基于用户需求确定设置第一置信度信息和第二置信度信息的 权重并进行加权平均计算, 得到处理结果为基于音视频数据的第三置信度信息, 其中, 第一 置信度信息和第二置信度信息的权重可以相同或不同。 当第三置信度信息大于或等于第一 预设阈值时, 确定音视频数据中存在跌倒行为; 当第三置信度信息小于所述第一预设阈值 时, 确定音视频数据中不存在跌倒行为。 示例性的, 当基于视频数据得到第一跌倒行为的第 。

37、一时间信息为2020/07/06/16:25: 53、 第一置信度信息为95.8; 基于音频数据得到的第二 跌倒行为的第二时间信息为2020/07/06/16:26:24、 第二置信度信息为93.6, 依据第一时 间信息和第二事件信息可以获得第一时间间隔信息为0:31, 将第一时间间隔与预设时间间 隔(在本实施例, 将时间间隔设置为一分钟)进行对比, 可以发现第一时间间隔小于预设时 间间隔, 将第一时间信息和第二时间信息分别对应的第一置信度信息和第二置信度信息进 行加权平均计算, 得到第三置信度信息为94.7, 将第三置信度信息和第一预设阈值(在本 实施例, 将第一预设阈值设置为90)进行对比。

38、, 发现第三置信度信息大于或等于第一预设 阈值, 则确定音视频数据中存在跌倒行为。 0060 在一些实施例中, 在步骤S250之前, 还包括: 当确定产生第一跌倒行为的第一时间 信息和第一置信度信息, 依据极大值策略确定音视频数据中是否存在跌倒行为。 具体的, 将 第一置信度信息与第二预设阈值(在本实施例, 将第二预设阈值设置为99)进行对比, 当 第一置信度信息大于第二预设阈值时, 不进行第二跌倒行为的检测, 直接判断当前音视频 数据中存在跌倒行为, 此时的第一置信度信息最终基于音视频的置信度信息。 当第一置信 度信息小于第二预设阈值时, 执行步骤S250。 0061 需要说明的是, 在上述。

39、实施例中, 第一时间间隔、 第一预设阈值和第二预设阈值的 设置只是作为可选实施例, 也可以根据实际情况进行具体设置, 本实施例对此不加以限制。 说明书 6/11 页 9 CN 111904429 A 9 0062 本发明实施例提供了一种人体跌倒检测方法, 通过获取待检测的音视频数据, 对 音视频数据进行数据分离、 解码等处理, 得到关键帧和有效音频段; 基于第一检测模型对关 键帧进行跌倒检测, 确定视频数据中第一跌倒行为的第一时间信息和第一置信度信息; 基 于第二检测模型对有效音频段进行跌倒检测, 确定音频数据中第二跌倒行为的第二时间信 息和第二置信度信息; 基于第一时间信息和第二时间信息, 。

40、将预设时间间隔内关联的第一 跌倒行为和第二跌倒行为分别对应的第一置信度信息和第二置信度信息进行联合处理, 基 于处理结果确定音视频数据中是否存在跌倒行为。 采用计算机视觉技术与听觉技术相结合 的方案, 将视频图像与音频事件关联起来, 起到相互补充的作用, 使用户在无感知的情况 下, 提高了跌倒行为检测的精度。 0063 实施例三 0064 图3为本发明实施例三中的交通数据处理方法的流程图, 本实施例以上述实施例 为基础进行进一步的优化。 如图3所示, 所述方法包括: 0065 S310、 获取样本音视频数据, 对所述样本音视频数据进行数据分离, 得到所述样本 音视频数据中的样本视频数据和样本音。

41、频数据。 0066 S320、 对所述样本视频数据中跌倒行为标记, 并基于所述样本视频数据对待训练 的第一检测模型进行训练。 0067 在本实施例中, 获取到的样本视频数据中的关键帧保存为图像, 并对图像进行预 处理。 具体的, 图像预处理包括缩放、 降噪等方法。 可选的, 采集多组样本视频数据, 并进行 处理得到大量处理后的图像作为视频跌倒检测模型的训练数据集。 对获取的图像进行跌倒 行为数据标记, 可选的, 可以采用打标签及画坐标框的方式进行跌倒行为数据标注。 具体 的, 对获取到的当前图像中的跌倒图像进行坐标框的标注, 并将当前的图像设置标签为1; 当获取到的当前的图像中没有跌倒行为时,。

42、 则将当前图像设置标签为0。 最后将已经标记的 数据输入至视频跌倒行为检测模型进行训练, 从而得到基于视频的第一跌倒检测结果。 0068 S330、 对所述样本音频数据中跌倒行为标记, 并基于所述样本音频数据对待训练 的第二检测模型进行训练。 0069 在本实施例中, 对获取到样本音频数据中有音频信号的音频段进行预处理, 具体 的, 音频预处理包括重采样、 预加重、 分帧、 加窗等方法。 并对预处理后的音频段进行音频特 征提取, 提取的特征一般分为时域特征、 频域特征和空间相关特征。 可选的, 时域特征有过 零率; 频域特征有梅尔频率倒谱MFCC等; 空间相关特征有到达时间差特征等。 可选的,。

43、 还可 以对提取的特征进行组合、 选择、 降维等处理, 以寻求更好的检测效果。 采集多个音频段并 对每个音频段进行预处理和音频特征提取, 以作为神经网络的训练特征集。 将提取到的音 频特征与预设的疑似音频跌倒音频库中的音频特征进行对比, 当当前的音频段中的音频特 征与预设音频库中的音频特征信号匹配一致时, 对当前音频特征进行标记1表示为疑似音 频跌倒的声音; 当当前的音频段中的音频特征与预设音频库中的音频特征信号匹配不一致 时, 对当前音频特征进行标记0表示为疑似音频跌倒的声音。 依照此方法标记所有的音频段 中的音频特征。 可选的, 疑似音频跌倒音频库中的音频特征信号包括但不限于: 包括跌倒信。

44、 号、 尖叫信号、 器物落地信号和器物破碎信号等音频信号。 将已标记的音频段作为输入数据 输入基于音频数据的神经网络分类器进行训练, 并得到输出结果为第二跌倒行为的检测结 果。 说明书 7/11 页 10 CN 111904429 A 10 0070 S340、 获取待检测的音视频数据, 对所述音视频数据进行数据分离, 得到所述音视 频数据中的视频数据和音频数据。 0071 S350、 基于第一检测模型对所述视频数据进行跌倒检测, 确定所述视频数据中第 一跌倒行为的第一时间信息和第一置信度信息。 0072 S360、 基于第二检测模型对所述音频数据进行跌倒检测, 确定所述音频数据中第 二跌倒行。

45、为的第二时间信息和第二置信度信息。 0073 S370、 基于所述第一时间信息和第二时间信息, 将预设时间间隔内关联的第一跌 倒行为和所述第二跌倒行为分别对应的第一置信度信息和第二置信度信息进行联合处理, 基于处理结果确定所述音视频数据中是否存在跌倒行为。 0074 本发明实施例提供了一种人体跌倒检测方法, 通过获取待检测的音视频数据, 对 音视频数据进行数据分离, 得到音视频数据中的视频数据和音频数据; 对视频数据和音频 数据进行跌倒行为标记, 基于已标记的数据分别进行跌倒行为检测模型的训练; 得到训练 好的基于视频数据检测的第一检测模型和基于音频数据检测的第二检测模型。 基于第一检 测模型。

46、对视频数据进行跌倒检测, 确定视频数据中第一跌倒行为的第一时间信息和第一置 信度信息; 基于第二检测模型对音频数据进行跌倒检测, 确定音频数据中第二跌倒行为的 第二时间信息和第二置信度信息; 基于第一时间信息和第二时间信息, 将预设时间间隔内 关联的第一跌倒行为和第二跌倒行为分别对应的第一置信度信息和第二置信度信息进行 联合处理, 基于处理结果确定音视频数据中是否存在跌倒行为。 通过采用计算机视觉技术 与听觉技术相结合的方案, 将视频图像与音频事件关联起来, 起到相互补充的作用, 使用户 在无感知的情况下, 提高了跌倒行为检测的精度。 0075 实施例四 0076 图4是本发明实施例四中的人体。

47、跌倒检测装置的结构示意图。 如图4所示, 所述装 置包括: 0077 数据获取模块410, 用于获取待检测的音视频数据, 对所述音视频数据进行数据分 离, 得到所述音视频数据中的视频数据和音频数据。 0078 视频数据处理模块420, 用于基于第一检测模型对所述视频数据进行跌倒检测, 确 定所述视频数据中第一跌倒行为的第一时间信息和第一置信度信息。 0079 音频数据处理模块430, 用于基于第二检测模型对所述音频数据进行跌倒检测, 确 定所述音频数据中第二跌倒行为的第二时间信息和第二置信度信息。 0080 跌倒行为确定模块440, 用于基于所述第一时间信息和第二时间信息, 将预设时间 间隔内。

48、关联的第一跌倒行为和所述第二跌倒行为分别对应的第一置信度信息和第二置信 度信息进行联合处理, 基于处理结果确定所述音视频数据中是否存在跌倒行为。 0081 可选的, 数据获取模块410包括: 0082 视频解码单元, 用于对所述视频信号进行视频解码, 得到多张视频图像帧; 0083 音频解码单元, 用于对所述音频信号进行音频解码, 得到多个音频段; 0084 第二跌倒行为检测单元, 用于基于第二检测模型对具有音频信号的音频段进行跌 倒检测; 0085 第一跌倒行为检测单元, 用于基于第一检测模型对所有图像帧中的关键图像帧进 行跌倒检测。 说明书 8/11 页 11 CN 111904429 A。

49、 11 0086 可选的, 跌倒行为确定模块440包括: 0087 时间信息确定单元, 用于确定位于所述第二时间信息前/后的预设时间间隔内的 关联第一时间信息; 0088 第三置信度确定单元, 用于将所述第二时间信息的第二跌倒行为和所述关联第一 时间信息的第一跌倒行为分别对应的第一置信度信息和第二置信度信息进行预设规则的 处理, 确定第三置信度信息; 0089 第一跌倒行为判断单元: 用于当所述第三置信度信息大于或等于第一预设阈值 时, 确定所述音视频数据中存在跌倒行为; 0090 第二跌倒行为判断单元: 用于当所述第三置信度信息小于所述第一预设阈值时, 确定所述音视频数据中不存在跌倒行为; 。

50、0091 第三跌倒行为判断单元: 用于当所述第一置信度信息大于第二预设阈值时, 确定 所述音视频数据中存在跌倒行为。 0092 可选的, 所述样本音视频数据包括样本音频数据和样本视频数据, 所述样本音频 数据中包括对样本跌倒音频信号的标记, 所述样本跌倒音频信号包括跌倒信号、 尖叫信号、 器物落地信号和器物破碎信号, 所述样本视频数据中包括跌倒图像的标记; 0093 可选的, 所述装置还包括: 0094 第一模型训练模块, 用于基于所述样本音频数据对待训练的第二检测模型进行训 练。 0095 第二模型训练模块, 用于基于所述样本视频数据对待训练的第一检测模型进行训 练。 0096 实施例五 0。

展开阅读全文
内容关键字: 人体 跌倒 检测 方法 装置 电子设备 存储 介质
关于本文
本文标题:人体跌倒检测方法、装置、电子设备及存储介质.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/10072298.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1