基于窗口式假设检验的多媒体综合隐写分析方法技术领域
本发明涉及一种基于窗口式假设检验的多媒体综合隐写分析方法,属于信息安全
技术领域中的信息隐藏技术子领域。
背景技术
隐写(Steganography)指的是在载体信号中嵌入信息以实现隐蔽通信的技术。如
今,多媒体技术飞速发展,制作、编辑、存储和传输多媒体文件十分普遍,因此以多媒体为载
体的隐写术得到广泛研究。隐写隐藏了隐蔽通信的事实、易于否认,即便最有效的隐写分析
方法也无法完全肯定隐写的存在性。目前,适用于手机和电脑的隐写工具有上百种,很容易
被获取和使用,如果被不法分子利用,逃避有关部门的监管,对社会将存在一定的危害性。
一般地,我们将自然获取的多媒体称为原文,隐写后得到的多媒体称为隐文。一旦
隐写行为发生,隐写者将永久丢弃原文以防止被发现存在不同版本内容大致相同的图像。
隐写分析是指通过统计模式识别等手段判断给定多媒体是原文(阴性)还是隐文(阳性)或
其可行性的方法。其输出可以是二值的(是、否)或实数型的。其输出并非完全正确,其中错
误地将隐文识别为原文的概率称为漏检率,错误地将载体识别成隐文的概率称为虚警率。
在隐写分析方面,有多种模式识别方法:早期方法使用一个统计公式来预测嵌入
修改量;主流方法使用一个二类分类器来预测(即:判断)是否原文(参考文献:Cogranne,
R.,et al."Is ensemble classifier needed for steganalysis in high-dimensional
feature spaces?."IEEE International Workshop on Information Forensics and
Security IEEE,2015.),或用多类分类器(参考文献:and J.Fridrich."
Merging Markov and DCT features for multi-class JPEG steganalysis."
Proceedings of SPIE-The International Society for Optical Engineering 6505
(2007):65050301-65050313.)进一步区分不同的隐写算法生成的图像;也有使用回归型的
方法预测嵌入修改量。通常将原文视为阴性、隐文视为阳性。在训练阶段,对预先制备的原
文和隐文提取一组能反映隐写行为改变量的特征,将其中一大部分作为训练集用于确定预
测器模型中的各项参数,另一部分作为校验集用于确定该预测器的准确率,重复进行上述
过程可优选准确率高的预测器参数。在测试阶段,将测试集提取同样的特征,放入优选过的
预测器进行预测输出。
虽然传统的隐写方法大多集中考虑单个样本是否能被正确分类,但隐写行为实际
上更多是分散在多个样本中完成的。由于制作和存储多媒体的方法已经普及,事实上隐写
者有能力获得多幅原文用于嵌入(参考文献:Ker,Andrew D."Batch Steganography and
Pooled Steganalysis."International Conference on Information Hiding Springer-
Verlag,2006:265-281.)。隐写分析者能获取的样本(原文或隐文)也并非仅有一个。通常,
隐写分析者通过监控网络流量或从某个云存储或硬盘等存储设备获得大量的样本。因此,
从众多预测器输出中综合得到待测样本是否含有隐写的结论,具有实用价值。而且,大量虚
警将分散决策者的注意力,隐写分析结论的虚警率应在可控范围或较小,才能在现实实用
中得到重视(参考文献:and A.D.Ker."Towards dependable
steganalysis."Proceedings of SPIE-The International Society for Optical
Engineering 9409(2015):94090I-94090I-14.)。
本发明人认为,上述预测器的输出具备分布拟合和参数估计用于预测未来的可能
性。这些预测器在载体来源已知情况下,排除图像纹理和大小等属性的干扰,其输出可以视
为服从具体的分布模型。例如,二类分类器的输出可以视为服从二项式分布模型或正态分
布模型,多类分类器的输出可以降级为二类输出(将所有判定阳性的不区分算法归为一大
类)从而视为服从二项式分布模型,有些预测统计量的输出可以视为服从改变位置尺度的t
分布等。分布拟合是根据对一个变量的重复测量来拟和一个概率分布的方法,可以用该方
法从一系列候选的分布中得到拟合度最高的分布模型。参数估计是通过样本的统计量来估
计总体参数的方法,可以通过该方法得到分布模型中的参数的置信区间,使得将来虚警率
在可控范围内。
本发明人还认为,经过参数估计或分布拟合的结果,可以和用户所定的虚警率、漏
检率等共同作用,基于假设检验或统计推断综合判断隐写存在性。在样本总量大的情况下,
可以通过尝试选择合适的窗口大小,降低运算规模并提高综合结论的准确性。统计推断是
根据样本和模型对总体做出的判断。假设检验是一种统计推断方法,它设定多个关于总体
的假设条件由样本来推断是否接受假设条件。窗口技术指的是在样本总量大的情况下,选
择合适的样本数量进行计算,可以提高计算效率。隐写具有集中式的情况,并非均匀地以某
个概率发生隐写,即某段时间有传输需求时,集中传输隐文或集中存储隐文,其它情况下仍
传输或存储原文,因此,选择合适的窗口大小,可以避免少量隐文被大量的原文所稀释。根
据用户所定的虚警率和漏检率参数以及自适应选择的窗口大小参数,可以得到关于总体是
否为隐文的两个假设,并用检验隐写分析者截获的样本,得到在给定虚警率和漏检率下是
否接受零假设(即:总体不存在隐写)的结论。
专利申请号为201310214534X的中国专利“一种基于参数识别与估计的隐写分析
方法”公开了一种基于参数识别与估计的隐写分析方法。该方法将回归分析引入图像隐写
分析中,计算待测样本属性参数与配置方案的属性参数之间的距离作为相似度指标,选择
指标值最大的配置方案,用以保持训练样本与待测样本之间在属性上尽量接近。该方法主
要给出一种将回归分析用于待测样本和训练集的属性数值之间的函数拟合用于优选训练
集的方法。此外,该方法仅限于二类隐写分析,未能考虑多个样本之间的隐写分析问题,对
隐写分析的虚警率也没有有效的控制,也没有利用窗口技术降低运算规模提高计算效率。
专利申请号为2012103941046的中国专利“一种基于隐写测评的隐写分析方法”公
开了一种基于隐写测评的隐写分析方法。该方法选择一组基准特征集,评估基准特征集在
隐写前后的变化情况,通过主成分分析去除冗余信息,最终得到隐写分析特征,形成隐写分
析方法。该专利方法主要给出了一种通过特征优选设计新隐写分析方法的框架,并未涉及
隐写分析输出模型和参数的估计,未能兼容定量分析、多类分类等模式分类手段,不涉及多
个样本隐写分析的综合决策,也不能控制隐写分析结论的虚警率。
发明内容
本发明旨在提供一种基于窗口式假设检验的多媒体综合隐写分析方法,以解决现
有隐写分析方法不能有效控制隐写分析结论的虚警率以及运行时间相对较长的问题。为
此,本发明采用的具体方案如下:
一种基于窗口式假设检验的多媒体综合隐写分析方法,包括以下步骤:
S1、选择已知的隐写方法制备多媒体原文集和隐文集,并将其划分为训练集和校
验集,其中,训练集用于确定模式识别方法的参数,校验集用于后续的分布拟合和参数估
计;
S2、对步骤S1中所得到的训练集提取特征,训练预测器,其中,特征是能反映隐写
修改的特征集合;
S3、将步骤S1得到的校验集放入步骤S2构造的预测器中得到输出,将该输出拟合
现有的概率分布模型,选出拟合度最高的概率分布模型,并根据所述校验集中的原文集在
该预测器的输出来估计所选概率分布模型的参数;
S41、将在实用时获得的一组测试集样本放入步骤S2构造的预测器中得到输出y,
按不同窗口大小不断对该输出进行采样;
S42、根据步骤S3所选的概率分布模型及参数,得到假设检验的零假设与备择假设
为:H0:θj=θj,0,表示隐写不存在,H1:θj≠θj,0,表示隐写存在,其中θj为窗口中样本概率分布
模型的参数,θj,0为步骤S3所估计得到的概率分布模型的参数;
S43、根据用户指定的虚警率和漏检率,结合步骤S41中的待测样本数量和输出,确
定步骤S42得到的假设检验的判定条件dk=hj({y'k};CI(θj,a),wj,α,β),其中{y'k}是第k次
从y中随机采样获得的wj个预测器输出样本,CI(θj,a)是在步骤S3所选模型和参数θj处于置
信水平a下的置信区间,从而在给定的虚警率、漏检率、校验集输出的置信区间、预测器输出
的条件下得到判定结果dk,其中,dk∈{0,1},dk=0表示接受H0,dk=1表示接受H1;
S5、对步骤S43中窗口式假设检验的结果进行综合分析决策,将窗口式假设检验得
到的结果和Σ{dk}与经验阈值T进行比较,如果Σ{dk}<T,则认为隐写存在,否则认为不存
在隐写。
进一步地,所述多媒体的类型可以包括:图像、音频或音视频等。
进一步地,所述步骤S1中的原文集和隐文集制备方法可以是,通过多媒体采集设
备采集或通过网络爬虫从远程网站抓取等来制备多媒体原文集,并通过嵌入伪随机字节数
组的方法得到隐文集。
进一步地,所述步骤S2中得到的预测器类型包括:二类分类器、多类分类器、定量
预测器、单类分类器或统计公式。
进一步地,所述步骤S3拟合的概率分布模型包括:二项式分布、正态分布、泊松分
布或改变位置尺度的t分布;估计所选模型的参数的方法包括但不限于矩估计法、点估计法
或最大似然估计法。
进一步地,在所述步骤S41中,按不同窗口大小不断对测试集放入预测器得到的输
出进行采样,其中,多次采样之间互不干扰,并能进行并行运算。
本发明采用上述技术方案,具有的有益效果是:
(1)降低了隐写分析系统综合结论的虚警率。本发明采用假设检验的方法,根据置
信区间设置阈值,确保在实际不存在隐写的情形下拒绝零假设(即综合判定为有隐写)的虚
警率低于用户指定值,一旦判定为隐写置信度高。
(2)在同等虚警率水平下降低了隐写分析系统综合结论的漏检率。本发明采用窗
口式采样方法,随机选择窗口大小,分段对待测样本进行采样,能更识别集中于局部的隐写
行为。隐文往往是集中式存储或在时间上集中传输,并不是均匀分散在存储或传输中的,小
量集中的隐文容易被大量的原文所稀释,窗口式假设检验识别出它们,因而同等条件下降
低了漏检率。
(3)减少运行耗时。本发明窗口式采样在多次采样之间互不干扰,因而可以分布在
不同平台上使用,且窗口技术的使用使得每次进行处理的数据量小,运行速度提升。
附图说明
图1是本发明的基于窗口式假设检验的综合隐写分析方法的流程图;
图2是本发明构造预测器的流程图;
图3是本发明分布拟合和参数估计的流程图;
图4是本发明统计推断和假设检验的流程图。
具体实施方式
为进一步说明各实施例,本发明提供有附图。这些附图为本发明揭露内容的一部
分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参
考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。
现结合附图和具体实施方式对本发明进一步说明。本发明的整体流程框架如图1
所示:S1、制备原文集和隐文集,并划分为训练集和校验集,为后续环节处理的基础;S2、通
过从训练集中提取特征,训练得到预测器,为隐写分析提供分类依据;S3、分布拟合和参数
估计,将校验集放入预测器,将输出拟合现有的概率分布模型,并估计所选概率分布模型的
参数,为假设检验提供依据;S4、统计推断和假设检验,通过对测试集的输出进行分段式的
窗口检测,是本框架的重点环节;S5、综合分析决策,是框架的最后一个处理环节,根据之前
统计推断和假设检验的结果,得出不高于虚警率的综合结论。
对于S1和S2,过程如图2所示。
(1)制备原文集和隐文集。通过多媒体采集设备(如:相机、录音机等)采集或通过
网络爬虫从远程网站抓取等制备诸如图像(JPG、PNG、GIF等)、音频(MP3、WMA等)、音视频
(RMVB、MP4、MOV、AVI等)等的多媒体原文集,并通过嵌入隐蔽信息的方法得到隐文集。例如,
通过相机采集得到一组10,000张JPEG图像作为原文集C={c1,c2,...,cn},并通过嵌入伪随
机字节数组的方法得到隐文集S={s1,s2,...,sn},如:遍历嵌入率0至1,随机生成长度为r
的伪随机数组的隐蔽信息,通过MME3(或其它JPEG隐写方法)将该隐蔽信息嵌入ci中。然后,
将原文集和隐文集划分为训练集Ct(原文)、St(隐文)和校验集Cv(原文)、Sv(隐文),其中训
练集用于训练,即在特定的预测器模型下得到最优参数等,校验集用于后续步骤。这里,训
练集不少于9,000对(原文与其相应隐文为一对),校验集各不少于1,000对。
(2)对训练集的原文Ct和隐文St分别提取特征{Φj(cti)}和{Φj(sti)},其中涉及的
特征可能有多组,Φj为第j组特征。特征是能反映隐写修改的特征集合,以图像为例,如直
方图、灰度共生矩阵、马尔科夫过程矩阵、联合校准特征、富模型特征等。例如,可以提取2种
特征,一种为联合校准特征CCMerge548,一种为JPEG校准富模型特征(CCJRM)。每个原文或
隐文针对每种特征提取方法Φj得到一组向量,分别用于一种预测器,共分别得到1个9,
000*548维的CCMerge548特征数组,和一个9,000*22,510维的CCJRM特征数组。
(3)将训练集特征和用于训练具体模式分类方法模型Dj,即
确定其最优参数ψj,得到预测器Dj(x,Φj,ψj),后续用于对待测样本x提取Φj特征并在预测
器参数ψj下进行判断隐写存在性或存在程度。一个隐写分析系统包含一种或多种模式分类
方法预测器,构成集合D={Dj},具体预测器类型包括但不限于:二类分类器(如:支持向量
机等)、多类分类器、定量预测器(如:支持向量回归等)、单类分类器、统计公式(如:χ2分析
等)。通过计算得到的特征向量,可以采用不同分类器。例如,CCMerge548特征采用支持向量
机(SVM)作为二类分类器,CCJRM特征采用线性分类器(LCLSMR)。SVM得到的是分类决策函数
f1(x)=sign(ω*x+b*),其中sign为取符号函数。LCLSMR得到的是符合||Ax-b||2最小的矩
阵A,可以视为得到一个分类决策函数f2(x)=sign(Ax)。以上分类器得到分类决策函数以
一幅图像生成的特征为输入,以一个-1和0代表阴性、+1代表阳性的整数为输出。
对于S3,过程如图3所示,具体实施方式如下(以符合二项式分布的JPEG图像样本
为例):
(1)将校验集和提取特征和放入以上步骤
1d)构造好的预测器{Dj}中,从而得到输出和
其中特征Φj和预测器参数mj视为预测器Dj的参数。预测器的输出最终是实数,
例如:二类分类器的输出为0和1,回归定量分析的输出为一个指示对原文改变量或改变程
度的实数,多类分类器可以合并不同隐写分析算法为一大类隐文类从而视同于只输出0、1
的二类输出。对于其中含有隐写的得到输出0,不含隐写的得到输出1。例如,大小为10,000
的JPEG图像校验集中各有5,000个隐写图,5,000个载体图。
(2)将具体的预测器Dj输出和拟合具体的概率分布模型ψj,利用分布拟
合技术遍历传统的概率分布模型得到不同拟合的优度(Goodness of Fit),选择优度最高
的概率分布模型Mj作为输出。传统的概率分布模型包括但不限于:二项式分布模型、正态分
布模型、泊松分布模型和改变位置尺度的t分布等。
在一实例中,由JPEG图像样本构成的校验集大小为n=10,000,从中随机选取m=
1,000张载体图像,重复1,000次。通过预测器进行检测后得到第i次检测存在隐写的图像数
量为i的频度Ai,从而得到频度集合{Ai,i=0,1,2,…,m}。实例中,A0~A25分别为{0,0,2,2,
21,31,46,85,121,123,148,123,92,64,50,38,26,15,7,3,2,0,0,0,0,1},Ai在i>26时为0。
采用χ2检验选择具有最优拟合度的概率分布模型:
对于二项式分布模型,其参数p(即虚警率)估计量为对
于检测出隐写图像数量i的理论概率为理论频数为Ti=npi。例如,对于
i=10,A10=124,
对于泊松分布模型,其参数λ的估计量
(注意:n应大于50,npi不小于5)
因此认为二项式分布模型比泊松分布模型更符合该样本的实际分布,故
选择二项式分布模型。
同理,再从校验集中随机选取1,000张载体图像(原文),重复1,000次。通过预测器
进行检测后得到第i次不存在隐写的图像数量的为A,得到结果集{Ai,i=1,2,…,1000},同
上步骤拟合得到二项式分布更合适p′0(即漏检率)。得到的漏检率用于确定样本的安全容
量。
(3)用校验集的输出来估计所选概率分布模型的参数。在上述概率分布模型Mj确
定之后,具体的概率分布模型有具体的参数θj需要估计。例如:二项式分布模型,即正确输
出的个数服从Bi(n,p)的参数含有样本规模(数量)n和准确率p,其中p需要估计。估计方法
包括但不限于:矩估计法、点估计法、最大似然估计法。最终得到在参数θj的置信水平a(一
般取95%或99%)下的一个置信区间CI(θj,a)=[θj,1,θj,2]。
在一实例中,从中随机选取1,000张载体图像(原文),重复1,000次,共检测得到
10153个隐写结果,且个数X服从B(1000,0.0099),参数含有样本规模(数量)n和准确率p,其
中p=X/n=100/10000=0.01。置信水平a取95%,α=1-a=0.05。np≥5时二项式分布近似
于均值为np,方差为np(1-p)的正态分布,根据正态分布的概率分布函数
得得到在p置信水平a下的一个置信区间:
对于S4和S5,过程如图4所示。同样以JPEG图像为例:
(1)将获得的一组测试集样本{xi}放入预测器组{Dj},得到输出y={yj,i=D(xi,
φj,ψj)},按所选窗口大小wj(10,30,100,300等)不断对测试集得到的输出采样。例如,测试
的JPEG图像样本大小为10,000,选取窗口大小100,1个窗口中有3张图像存在隐写,放入预
测器后则得到3个+1(阳性)输出,97个0(阴性)输出,则窗口的输出结果为3;
(2)根据分布拟合和参数估计得到的概率分布模型和参数得到零假设与备择假
设,即:
H0:θj=θj,0(表示隐写不存在);H1:θj≠θj,0(表示隐写存在)。
以二项式分布为例,由分布拟合阶段得到样本服从二项式分布,参数p=p0(p0为参
数估计阶段得到的虚警率),则:
原假设H0:p=p0(隐写不存在)。
备择假设H1:p≠p0(隐写存在)。
(3)根据用户指定的虚警率α和漏检率β,结合窗口采样规模wj,确定假设检验的判
定条件dk=hj({y'k};CI(θj,a),wj,α,β),其中{y'k}是第k次从y中随机采样获得的wj个预测
器输出样本,CI(θj,a)是S3中(3)的输出,从而在给定的虚警率、漏检率、校验集输出的置信
区间、预测器输出的条件下得到判定结果dk,其中,dk∈{0,1}表示第k次判定的结果,dk=0
表示接受H0,dk=1表示接受H1。
例如,分布拟合与参数估计阶段得到概率分布模型是参数p0的二项式分布,p0置信
区间为[0.0073,0.0127],取置信区间的下限p0=0.0073,当窗口规模较大时二项式分布近
似于均值为np,方差为np(1-p)的正态分布,因此可以取检验统计量Zα为
标准正态分布的α分位点。
窗口大小w=100,预测器检测得到隐写存在的数量为1,参数p(存在隐写的概率)
的估计量在虚警率为α=0.05,漏检率为β=0.01的条件下,Z0.05=1.65,
故接受原假设H0,认为该窗口中不存在隐
写,得到第k次窗口检验的判定结果dk=0。
(4)重复对测试集进行采样,并进行上述窗口检验判决。例如,测试集大小为10,
000,同时进行100次上述窗口大小w=100的检验判决,得到窗口判定的结果集{dk,k=1,
2,…,100}(dk∈{0,1}),对所有结果dk的和与阈值进行比较。在实际实用中设定经验阈值T。
如果Σ{dk}<T,则认为隐写存在;否则认为不存在隐写,做出综合决策。例如,经过上述窗口
式检验得到窗口判定结果集合Dk={1,1,,…,1,0,…,0}(包含90个1,10个0),p0的α置信区
间为[0.0073,0.0127],窗口判定结果的和此时如果不存在隐写,则虚警率为
0.0090,在上述置信区间范围内,认为测试集中不存在隐写。
本发明方法通过计算机自动地对其输出结果进行分布拟合和参数估计,智能计算
该参数模型针对原文和隐文设置不同的假设(零假设和备择假设),再根据遍历调整窗口大
小,降低运行耗时的同时,还能有效检测出大量原文中集中地、少量地进行隐写的情况。
尽管结合优选实施方案具体展示和介绍了本发明,但所属领域的技术人员应该明
白,在不脱离所附权利要求书所限定的本发明的精神和范围内,在形式上和细节上可以对
本发明做出各种变化,均为本发明的保护范围。