两人场景下目标个体打呼区分方法.pdf

上传人：一**** 文档编号：11169526 上传时间：2021-09-09 格式：PDF 页数：10 大小：479.53KB

收藏版权申诉举报下载

第1页 / 共10页

第2页 / 共10页

第3页 / 共10页

下载文档到电脑，查找使用更方便

30 金币

下载文档

文档描述：

《两人场景下目标个体打呼区分方法.pdf》由会员分享，可在线阅读，更多相关《两人场景下目标个体打呼区分方法.pdf（10页完成版）》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910628651.8 (22)申请日 2019.07.12 (71)申请人南京航空航天大学地址 210000 江苏省南京市将军大道29号 (72)发明人常相茂彭程 (74)专利代理机构南京钟山专利代理有限公司 32252 代理人上官凤栖 (51)Int.Cl. G10L 17/06(2013.01) G10L 17/02(2013.01) G10L 17/26(2013.01) G10L 25/51(2013.01) G10L 25/66(2013.01) G1。

2、0L 25/24(2013.01) (54)发明名称一种两人场景下目标个体打呼区分方法 (57)摘要本发明属于机器学习以及睡眠监测领域，涉及一种两人场景下目标个体打呼区分方法，区分方法分三步：（1）目标采样：负责对目标个体在单人场景下的打呼音频进行采样并提取特征存储。（2）两人场景下采样：负责对两人场景下的打呼音频进行采样并提取特征存储。（3）目标个体识别：根据目标个体单人场景下打呼采样特征将两人场景下两个人的打呼区分开来并加以识别。本发明可以在保证高精确识别打呼的前提下区分不同个体，特别适用于两人场景下的睡眠监测系统。权利要求书2页说明书4页。

3、附图3页 CN 110349587 A 2019.10.18 CN 110349587 A 1.一种两人场景下目标个体打呼区分方法，其特征在于，包括如下步骤： S1单人场景下采样：负责单独采集目标个体打呼音频并提取相关特征，通过使用移动设备采集目标个体单独睡眠时的打呼音频，提取频域特征并存储用于目标个体识别； S2两人场景下采样：负责采集目标个体和干扰个体两人打呼音频并提取相关特征，通过使用移动设备采集两人场景下睡眠时的打呼音频，提取频域特征并存储用于目标个体识别； S3目标个体识别：负责将两人场景下目标个体的打呼音频识别出来，通过将单人场景下以及两人场景下采样的频。

4、域特征混合，对混合频域特征进行降维并聚类，对单人场景下目标个体的聚类结果和两人场景下的聚类结果进行对比分析，将目标个体打呼音频识别出来。 2.如权利要求1所述的一种两人场景下目标个体打呼区分方法，其特征在于：步骤S1的处理流程如下： S1.1对于目标个体单人睡眠下的情景，使用移动设备采集目标个体睡眠时的打呼音频； S1.2将采集后的打呼音频划分帧； S1.3对每个帧计算12维梅尔频率倒谱系数以及12维线性预测倒谱系数作为频域特征； S1.4将频域特征存储用于目标个体标记。 3.如权利要求1所述的一种两人场景下目标个体打呼区分方法，其特征在于：步骤S2的处理流程如下：。

5、S2.1对于目标个体以及干扰个体两人睡眠下的情景，使用移动设备采集两人睡眠时的打呼音频； S2.2将采集后的打呼音频划分帧； S2.3对每个帧计算12维梅尔频率倒谱系数以及12维线性预测倒谱系数作为频域特征； S2.4将频域特征存储用于提取目标个体打呼音频。 4.如权利要求1所述的一种两人场景下目标个体打呼区分方法，其特征在于：步骤S3的处理流程如下： S3.1将单人场景下以及两人场景下采样的频域特征混合，使用主成分提取法降维到两维空间中； S3.2计算聚类数目分别为1， 2， 3时所对应的AIC值： AIC(2K-L)/n 其中， K是高斯混合模型参数的数量， L是对数似然值，。

6、 n是打呼帧数目， AIC值最小的聚类数目是最佳聚类数目； S3.3根据最佳聚类数目用高斯混合模型进行聚类； S3.4通过对聚类结果进行对比分析识别目标个体打呼音频。 5.如权利要求4所述的一种两人场景下目标个体打呼区分方法，其特征在于：步骤S3.4 的处理流程如下： 1)若最佳聚类数目为1，则代表两人场景下仅有目标个体一人打呼，两人场景下识别出的打呼帧均为目标个体打呼； 2)若最佳聚类数目为2，则观察两人场景下采样是否在同一聚类中心，若在同一聚类中权利要求书 1/2 页 2 CN 110349587 A 2 心，则代表两人场景下目标个体没有打呼，两人场景下识别出的打呼帧。

7、均为干扰个体打呼； 3)若最佳聚类数目为2，则观察两人场景下采样是否在同一聚类中心，若不在同一聚类中心，则代表两人场景下目标个体有打呼且两人打呼没有重叠部分，两人场景下，与单人场景采样所在聚类中心相同的聚类中心为目标个体打呼帧； 4)若最佳聚类数目为3，则代表两人场景下目标个体和干扰个体打呼有重叠部分，单人场景下采样所在聚类中心为两人场景下目标个体单独打呼帧，计算目标个体单独打呼聚类中心A与其余两个聚类中心B、 C的欧式距离：其中d12、 d13分别代表A与B、 C之间的欧式距离，1、 2、 3分别代表A、 B、 C中的样本值在特征空间里的坐标；距离A较远的聚类中。

8、心为干扰个体单独打呼帧，距离A较近的聚类中心为目标个体与干扰个体打呼重叠帧。 6.如权利要求1所述的一种两人场景下目标个体打呼区分方法，其特征在于：所述移动设备为麦克风。权利要求书 2/2 页 3 CN 110349587 A 3 一种两人场景下目标个体打呼区分方法技术领域 0001 本发明属于睡眠监测技术领域，具体涉及一种两人场景下目标个体打呼区分方法，主要用于解决如何在两人场景下将监测目标个体和干扰个体区分的问题。背景技术 0002 由于传统的医用多导睡眠监测仪价格昂贵、使用成本高并且需要专业医护人员监护，基于移动设备的睡眠质量监测正越来越受到医学界的关注。打。

9、呼声音识别是睡眠监测的重要内容之一，传统的打呼识别方法包括使用麦克风采集音频进行识别或者使用传感器与身体接触达到识别呼吸的目的，通过音频的时域或者频域特征识别分析，这种方式需要用户在单人场景下睡眠或者佩戴一些穿戴式设备，但这显然不能满足两人睡眠场景以及反感穿戴式设备的用户群体需求。因此，需要设计一种基于非穿戴式移动设备的打呼识别方法，在保障不影响用户的睡眠质量以及体验的前提下，准确识别两人场景下目标用户的打呼音频。发明内容 0003 本发明针对现有技术中的不足，提供一种两人场景下目标个体打呼区分方法。 0004 为实现上述目的，本发明采用以下技术方案： 000。

10、5 一种两人场景下目标个体打呼区分方法，其特征在于，包括如下步骤： 0006 S1单人场景下采样：负责单独采集目标个体打呼音频并提取相关特征，通过使用移动设备采集目标个体单独睡眠时的打呼音频，提取频域特征并存储用于目标个体识别； 0007 S2两人场景下采样：负责采集目标个体和干扰个体两人打呼音频并提取相关特征，通过使用移动设备采集两人场景下睡眠时的打呼音频，提取频域特征并存储用于目标个体识别； 0008 S3目标个体识别：负责将两人场景下目标个体的打呼音频识别出来，通过将单人场景下以及两人场景下采样的频域特征混合，对混合频域特征进行降维并聚类，对单人场景下目。

11、标个体的聚类结果和两人场景下的聚类结果进行对比分析，将目标个体打呼音频识别出来。 0009 为优化上述技术方案，采取的具体措施还包括： 0010 进一步地，步骤S1的处理流程如下： 0011 S1.1对于目标个体单人睡眠下的情景，使用移动设备采集目标个体睡眠时的打呼音频； 0012 S1.2将采集后的打呼音频划分帧； 0013 S1.3对每个帧计算12维梅尔频率倒谱系数以及12维线性预测倒谱系数作为频域特征； 0014 S1.4将频域特征存储用于目标个体标记。 0015 进一步地，步骤S2的处理流程如下：说明书 1/4 页 4 CN 110349587 A 4 0016 S2。

12、.1对于目标个体以及干扰个体两人睡眠下的情景，使用移动设备采集两人睡眠时的打呼音频； 0017 S2.2将采集后的打呼音频划分帧； 0018 S2.3对每个帧计算12维梅尔频率倒谱系数以及12维线性预测倒谱系数作为频域特征； 0019 S2.4将频域特征存储用于提取目标个体打呼音频。 0020 进一步地，步骤S3的处理流程如下： 0021 S3.1将单人场景下以及两人场景下采样的频域特征混合，使用主成分提取法降维到两维空间中； 0022 S3.2计算聚类数目分别为1， 2， 3时所对应的AIC值： 0023 AIC(2K-L)/n 0024 其中， K是高斯混合模型参数的数量， L。

13、是对数似然值， n是打呼帧数目， AIC值最小的聚类数目是最佳聚类数目； 0025 S3.3根据最佳聚类数目用高斯混合模型进行聚类； 0026 S3.4通过对聚类结果进行对比分析识别目标个体打呼音频。 0027 进一步地，步骤S3.4的处理流程如下： 0028 1)若最佳聚类数目为1，则代表两人场景下仅有目标个体一人打呼，两人场景下识别出的打呼帧均为目标个体打呼； 0029 2)若最佳聚类数目为2，则观察两人场景下采样是否在同一聚类中心，若在同一聚类中心，则代表两人场景下目标个体没有打呼，两人场景下识别出的打呼帧均为干扰个体打呼； 0030 3)若最佳聚类数目为2，则观。

14、察两人场景下采样是否在同一聚类中心，若不在同一聚类中心，则代表两人场景下目标个体有打呼且两人打呼没有重叠部分，两人场景下，与单人场景采样所在聚类中心相同的聚类中心为目标个体打呼帧； 0031 4)若最佳聚类数目为3，则代表两人场景下目标个体和干扰个体打呼有重叠部分，单人场景下采样所在聚类中心为两人场景下目标个体单独打呼帧，计算目标个体单独打呼聚类中心A与其余两个聚类中心B、 C的欧式距离： 0032 0033 0034 其中d12、 d13分别代表A与B、 C之间的欧式距离，1、 2、 3分别代表A、 B、 C中的样本值在特征空间里的坐标；距离A较远的聚类中心为干扰个体。

15、单独打呼帧，距离A较近的聚类中心为目标个体与干扰个体打呼重叠帧。 0035 进一步地，所述移动设备为麦克风。 0036 本发明的有益效果是：构建了一种两人场景下的打呼区分模型，用于识别目标个体的打呼音频。它将目标个体在单人场景下打呼的频域特征为标记，在两人场景下也能准确区分目标个体打呼音频，并且不需要传感器接触身体，解决了两人场景下目标个体以及干扰个体的区分问题，拓宽了睡眠监测的使用场景，对于识别出的打呼音频，可以用于目标个体的睡眠质量监测以及睡眠障碍诊断。说明书 2/4 页 5 CN 110349587 A 5 附图说明 0037 图1为两人场景下的目标个体。

16、打呼区分方法的流程框架图。 0038 图2a2d为最佳聚类数目分别为1、 2、 3、 4时一次聚类中目标个体的区分示意图，其中代表两人场景下采样，代表单人场景下采样。具体实施方式 0039 现在结合附图对本发明作进一步详细的说明。 0040 如图1所示的目标个体打呼区分方法的主要思想为：分为三个步骤对两人场景下的目标个体打呼进行区分：单人场景采样、两人场景采样和目标个体区分。前两层负责为目标个体采样作为标记以及提供二人场景下的打呼特征，最后达到识别出两人场景下目标个体打呼的目的。 0041 单人场景下采样主要负责采集目标个体打呼频域特征用做标记来用于两人场景下目标个体的。

17、识别，通过手机麦克风采集目标个体单独睡眠时打呼音频，提取这些音频的频域特征。 0042 两人场景下采样负责提取两人打呼音频的频域特征，通过手机麦克风采集目标个体以及干扰个体睡眠时打呼音频，提取这些音频的频域特征。 0043 目标个体识别负责提取出目标个体打呼音频部分，在对单人场景以及两人场景下采样频域特征混合降维后，计算AIC确定最佳聚类数目，根据高斯混合模型(GMM)聚类结果以及单人场景采样标记区分两人场景的不同打呼情况。 0044 单人场景下采样的具体步骤是：使用移动设备放于目标个体1.5米范围内采集目标睡眠时音频，将采集后的打呼音频划分帧，计算打呼帧的12维。

18、梅尔频率倒谱系数(MFCC) 以及12维线性预测倒谱系数(LPCC)作为频域特征，将频域特征存储用于目标个体标记。 0045 两人场景下采样的具体步骤是：使用移动设备放于目标个体以及干扰个体1.5米范围内采集目标睡眠时音频，将采集后的打呼音频划分帧，计算打呼帧的12维梅尔频率倒谱系数(MFCC)以及12维线性预测倒谱系数(LPCC)作为频域特征，将频域特征存储用于目标个体标记。 0046 目标个体识别的具体步骤是：将单人场景下以及两人场景下采样频域特征混合，使用主成分提取法降维到两维空间中。计算聚类数目分别为1， 2， 3时所对应的AIC值： 0047 AIC(2K-L)。

19、/n 0048 其中， K是GMM模型参数数量， n是观测值数目即打呼帧数目， L是对数似然值， L- (n/2)*ln(2*pi)-(n/2)*ln(sse/n)-n/2，为解释平方和，代表每个样本值， AIC值最小的数目是最佳聚类数目。根据最佳聚类数目输出GMM聚类结果，分析聚类结果以及单人场景下目标个体采样标记识别目标个体打呼音频。 0049 图2a2d展示了一次聚类中目标个体的区分方法，两人场景下不同的打呼情况分析如下： 0050 1)若最佳聚类数目为1，则代表两人场景下仅有目标个体一人打呼，两人场景下识别出打呼帧均为目标个体打呼，如图2a所示。 0051 2)若。

20、最佳聚类数目为2，则观察两人场景下采样是否在同一聚类中心，若在同一聚类中心，则代表两人场景下目标个体没有打呼，两人场景下识别出打呼帧均为干扰个体打说明书 3/4 页 6 CN 110349587 A 6 呼，如图2b所示。 0052 3)若最佳聚类数目为2，则观察两人场景下采样是否在同一聚类中心，若不在同一聚类中心，则代表两人场景下目标个体有打呼且两人打呼没有重叠部分，两人场景下，与单人场景采样所在聚类中心相近的聚类中心为目标个体打呼帧。如图2c所示，聚类中心有两个，黑色为单人场景下采样，其他两种为两人场景下采样，其中一种的聚类中心与单人场景下采样的聚。

21、类中心相同，则该以及所在聚类中心为目标个体打呼帧。 0053 4)若最佳聚类数目为3，则单人场景下采样所在聚类中心为两人场景下目标个体单独打呼帧，计算目标个体单独打呼聚类中心A与其余两类B、 C的欧式距离： 0054 0055 0056 其中d12、 d13分别代表A与B、 C之间的欧式距离，1、 2、 3分别代表A、 B、 C中的样本值在特征空间里的坐标。距离较远的聚类中心为干扰个体单独打呼帧，距离较近的聚类中心为目标个体与干扰个体打呼重叠帧。 0057 通过以上四种情况分析，可以得出目标个体在两人场景下的打呼音频部分。 0058 需要注意的是，发明中所引用的如 “上” 。

22、、“下” 、“左” 、“右” 、“前” 、“后” 等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。 0059 以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。说明书 4/4 页 7 CN 110349587 A 7 图1 图2a 说明书附图 1/3 页 8 CN 110349587 A 8 图2b 图2c 说明书附图 2/3 页 9 CN 110349587 A 9 图2d 说明书附图 3/3 页 10 CN 110349587 A 10 。

展开阅读全文

内容关键字: 场景目标个体打呼区分方法