《一种基于控制符编码隐写的网页链接保护方法.pdf》由会员分享,可在线阅读,更多相关《一种基于控制符编码隐写的网页链接保护方法.pdf(27页完整版)》请在专利查询网上搜索。
1、10申请公布号CN104050400A43申请公布日20140917CN104050400A21申请号201410299374822申请日20140627G06F21/1620130171申请人西南交通大学地址610031四川省成都市二环路北一段111号72发明人陈帆和红杰张玉梅何太军74专利代理机构成都博通专利事务所51208代理人陈树明54发明名称一种基于控制符编码隐写的网页链接保护方法57摘要一种基于控制符编码隐写的网页链接保护方法,它利用选出的浏览器端不显示的控制符实现水印信息嵌入,从而对网页中的链接信息进行保护。首先,将网页按链接分块,根据每个子块所有字符生成任意比特水印信息并编码为。
2、相应的控制符嵌入网页中,生成含水印网页。检测时通过比较链接块相应的提取水印和重构水印的不同比特个数与阈值的关系,判定链接块篡改与否。在检测出被篡改的链接块时,删除其包括链接地址在内的所有属性信息,并用警示标识信息标记链接块,以提示用户。本发明能有效地保护网页中的链接块信息,当链接块被篡改时,能及时检测出篡改并阻止虚假信息的传播,降低了因链接块被篡改对企事业单位的形象和业务造成的负面影响。51INTCL权利要求书4页说明书14页附图8页19中华人民共和国国家知识产权局12发明专利申请权利要求书4页说明书14页附图8页10申请公布号CN104050400ACN104050400A1/4页21一种基。
3、于控制符编码隐写的网页链接保护方法,包括如下步骤A、网页分块根据原始网页文件F,FFR|R1,2,N中的链接标签的结束符,将原始网页文件F分为M1个网页块;前M个网页块为链接块FI,FIFR|RTI1,TI2,TITI为链接块;其中,FR表示网页文件F中位置序号为R的字符,N为网页文件F包含的字符数;I为链接块FI的序号,I1,2,M;TI为第I1个链接块FI1的结束字符位置的序号,T10,TI为第I个链接块FI的字符总数;第M1个网页块FM1由原始网页文件F中位置序号从TMTM1到N之间所有的字符组成;B、水印生成与嵌入B1、水印生成将链接块FI,I1,2,M,利用密钥K1通过HASH函数生。
4、成链接块FI的160比特的摘要信息XI;同时,利用密钥K1生成大小为160K的伪随机矩阵R,K为设定的各链接块FI的水印长度,K13;第M1个网页块FM1不保护,不进行操作;再将摘要信息XI乘以伪随机矩阵R生成链接块FI的K比特的二进制核心摘要信息WI,WIXIRMOD2WI,1,WI,2,WI,K;其中为矩阵点乘运算,MOD为模运算;将所有链接块FI的二进制核心摘要信息WI依次连接,得到KM比特的二进制序列;如果KM比特的二进制序列的长度不能被7整除,则在后面补0使其长度能够被7整除,否则不进行补0操作;从而得到7G比特的二进制字符串,为向上取整运算;然后利用密钥K1将7G比特的二进制字符串。
5、置乱得到置乱的7G比特的二进制字符串;再将置乱的7G比特的二进制字符串以7比特为单位依次转化为G个十进制数值,并对其中大于98的十进制数减去64;再将G个十进制数依次相连得到对应的十进制序列YYG|G1,2,G,YG为十进制序列Y的第G个数据;B2、控制符编码将网页文件中不会影响网页正常显示的控制符作为隐写字符串,一共有99种控制符CS,将其依次编码为0到98,即CCS|S0,1,2,98,CS对应编码值为S的控制符;具体组成为如下表控制符编码表编码S控制符CS编码S控制符CS编码S控制符CS00;33X0;66X0;11;34X1;67X1;22;35X2;68X2;33;36X3;69X3。
6、;44;37X4;70X4;55;38X5;71X5;权利要求书CN104050400A2/4页366;39X6;72X6;77;40X7;73X7;88;41X8;74X8;99;42X9;75X9;1010;43XA;76XA;1111;44XB;77XB;1212;45XC;78XC;1313;46XD;79XD;1414;47XE;80XE;1515;48XF;81XF;1616;49X10;82X10;1717;50X11;83X11;1818;51X12;84X12;1919;52X13;85X13;2020;53X14;86X14;2121;54X15;87X15;2222;55。
7、X16;88X16;2323;56X17;89X17;2424;57X18;90X18;2525;58X19;91X19;2626;59X1A;92X1A;2727;60X1B;93X1B;2828;61X1C;94X1C;2929;62X1D;95X1D;权利要求书CN104050400A3/4页43030;63X1E;96X1E;3131;64X1F;97X1F;32127;65X7F;98X7F;B3、控制符序列生成根据B1步得到的十进制序列YYG|G1,2,G,生成控制符序列I,IIG|G1,2,G,其中,IG为控制符编码表中编码为YG的控制符CS,SYG;B4、控制符隐写如果控制符序。
8、列IIG|G1,2,G中的控制符个数不能被M整除,则一次或多次补入控制符序列I的第一个控制符,使其控制符个数能被M整除,否则不进行补入操作;得到长度为QM的待隐写控制符序列E,然后依次将待隐写控制符序列E平均分为M个待隐写控制符组EI,即EEI|I1,2,M;其中,EIIQI11,IQI12,IQI;将待隐写控制符组EI整体嵌入到对应的链接块FI中,生成含水印链接块FIW;其中,链接块FI的嵌入位置为链接块FI的超链接标签起始符字符之前,最后一个网页块FM1不进行水印嵌入;最终生成含水印网页文件FW;FWFIWI1,2,M,FM1;C、水印提取与重构令待检测网页文件F原始网页文件F,进行步骤A。
9、的操作得到M个链接块FII1,2,M和第M1个网页块FM1;令链接块FI待检测链接块FI,FFI|I1,2,M;令网页块FM1待检测网页块FM1;C1、隐写控制符的提取提取M个待检测链接块FI的超链接标签起始符中字符之前的所有控制符;如果不足Q个则重复第一个控制符至Q个;如果超出Q个,则删除前面的控制符使其个数为Q个;得到提取控制符组EI;所有提取的控制符组EI组成提取的控制符序列E,即EEI|I1,2,M;C2、控制符解码依次查找出提取的控制符序列E中的各个控制符在B2步中的控制符编码表中的编码S;将这些编码依次连接,构成提取的十进制序列YYG|G1,2,G;将提取的十进制序列Y中的G个十进。
10、制数YG依次转化为G个7位的二进制数;然后将G个7位的二进制数依次连接构成7G比特的二进制序列;根据密钥K1对7G比特的二进制序列进行反置乱,并依次按K比特一组进行分组,得到待测链接块FI的提取水印信息WIWI,1,WI,2,WI,K,如果最后一组不足K比特则丢弃,得到待检测网页F提取的水印信息WWI|I1,2,M;C3、水印重构将M个待检测链接块FI的超链接标签起始符中字符之前的所有控制符删除得到预处理后的待测链接块FIB;令预处理后的待测链接块FIB链接块FI,进行步骤B1的操作,得到十进制序列YYG|G1,2,G;令重构的十进制序列将重构的十进制序列YB中大于98的十进制数减去64,再将。
11、G个十进制数转化为7比特的二进制数,并依次相连得到7G比特的二进制序列;再根据密钥K1对7G比特的二进制序列权利要求书CN104050400A4/4页5进行反置乱,并依次按K比特一组进行分组,得到待测链接块FI的重构水印信息WIBWI,1B,WI,2B,WI,KB,如果最后一组不足K比特则丢弃,得到待检测网页文件F的重构水印信息WBWIB|I1,2,M;D、篡改判断与定位标示D1、篡改判断将第I个待检测链接块FI的K比特重构水印信息WIB与第I组的提取水印信息WI逐比特进行比较,如果不同,则判定该比特为改动;得到待检测链接块FI中的改动比特总数DI,DI0,K;当改动比特总数DI大于阈值时,判。
12、定待检测链接块FI被篡改,否则未被篡改,当第M1个待检测网页块FM1不判断;阈值0,K/2;D2、浏览器的定位标示前M个待检测链接块FI如果被判定为篡改,则删除待检测链接块FI超链接标签起始符后的所有属性信息,再在待检测链接块FI中加入警示标识字符信息或警示背景颜色信息。权利要求书CN104050400A1/14页6一种基于控制符编码隐写的网页链接保护方法技术领域0001本发明涉及一种基于控制符编码隐写的网页链接保护方法。背景技术0002随着网络与多媒体技术的发展,网站成为人们获取信息的重要途经之一。据国家互联网应急中心CNCERT统计国家互联网应急中心CNCERT互联网安全威胁报告2013年。
13、12月,2013年12月中国大陆地区被篡改网站数量为4845个,其中网站的仿冒页面数量为303个,网站网页被仿冒篡改影响了企事业单位正常业务的进展。网页脆弱水印作为一种有效保护网页内容真实性和完整性的方法,具有重要的研究意义和广泛的应用前景。0003为实时检测网页的真实性,ZHAO等人QZHAO,HLUPCABASEDWEBPAGEWATERMARKING,PATTERNRECOGNITION,20074,4013341341提出基于PCAPRINCIPALCOMPONENTSANALYSIS的网页水印算法,该算法对网页整体信息进行主成分分析生成水印。该算法能检测网页是否被篡改,但不能定位网页。
14、被篡改的位置。为定位网页被篡改的位置,ZHANG等人ZULINZHANG,HONGPENG,XIANZHONGLONGAFRAGILEWATERMARKINGSCHEMEBASEDONHASHFUNCTIONFORWEBPAGESC,2011INTERNATIONALCONFERENCEONNETWORKCOMPUTINGANDINFORMATIONSECURITYNCIS,GUILIN,CHINA,2011417420提出基于HASH函数的网页水印算法,该算法将每行源代码字符与每个显示在浏览器端的单词通过HASH加密生成6比特水印信息,能够以单词字符为单位检测并定位网页源代码中被篡改的位置。。
15、网页源代码的信息是以标签为单位组成的,恶意篡改一般会篡改影响语句意义的关键字符信息,当关键字符信息篡改后,语句中剩余信息将难以继续利用。结合网页的上述特性,陈帆等人陈帆,张玉梅,和红杰,翟东海可在浏览器上定位篡改的网页水印生成与认证方法中国,2012102975825P20121219按浏览器显示字符所在标签将网页分块生成水印,基于网页非标签部分及标签中的属性值部分生成的12比特水印信息嵌入在颜色属性的RGB3个分量的低4位,该算法实现了以标签为单位的在浏览器端的篡改定位。不过,该方法水印容量较少且固定,安全性较低;水印嵌入后的文件增量较大;对标签区分的所有块均进行篡改定位,复杂度高。0004。
16、另一方面,相对图像、音频等载体,网页作为一种纯文本的数字媒体,冗余信息相对较少,在其中嵌入水印信息比较困难。现有的网页信息隐藏方法主要有三类1基于标签属性字符大小写和空格字符,该类方法隐藏容量大,但隐藏的信息易于被去除;2基于等价标记的方法,如基于标签属性顺序和基于CSS类的等价方法,该类方法隐藏信息较少;3基于颜色属性的方法,该类方法通过引入冗余的属性字符隐藏水印信息,导致含水印文件增量较大。因此,如何提高网页的隐藏容量且使文件增量较小,是提高网页脆弱水印算法安全性和实用性需解决的另一个关键问题。发明内容0005本发明的目的是提供一种基于控制符编码隐写的网页链接保护方法,该方法水印说明书CN。
17、104050400A2/14页7容量大,不可见性好,安全性高,能够检测并定位出网页中被篡改的链接块,有效阻止篡改链接信息及非法网页继续传播,最大可能地降低网页链接篡改对企事业单位的信誉和业务造成的负面影响和损失;且算法复杂度低。0006本发明解决其技术问题,所采用的技术方案为一种基于控制符编码隐写的网页链接保护方法,包括如下步骤0007A、网页分块0008根据原始网页文件F,FFR|R1,2,N中的链接标签的结束符,将原始网页文件F分为M1个网页块;前M个网页块为链接块FI,FIFR|RTI1,TI2,TITI为链接块;其中,FR表示网页文件F中位置序号为R的字符,N为网页文件F包含的字符数;。
18、I为链接块FI的序号,I1,2,M;TI为第I1个链接块FI1的结束字符位置的序号,T10,TI为第I个链接块FI的字符总数;第M1个网页块FM1由原始网页文件F中位置序号从TMTM1到N之间所有的字符组成;0009B、水印生成与嵌入0010B1、水印生成将链接块FI,I1,2,M,利用密钥K1通过HASH函数生成链接块FI的160比特的摘要信息XI;同时,利用密钥K1生成大小为160K的伪随机矩阵R,K为设定的各链接块FI的水印长度,K13;第M1个网页块FM1不保护,不进行操作;0011再将摘要信息XI乘以伪随机矩阵R生成链接块FI的K比特的二进制核心摘要信息WI,WIXIRMOD2WI,。
19、1,WI,2,WI,K;其中为矩阵点乘运算,MOD为模运算;0012将所有链接块FI的二进制核心摘要信息WI依次连接,得到KM比特的二进制序列;如果KM比特的二进制序列的长度不能被7整除,则在后面补0使其长度能够被7整除,否则不进行补0操作;从而得到7G比特的二进制字符串,为向上取整运算;然后利用密钥K1将7G比特的二进制字符串置乱得到置乱的7G比特的二进制字符串;0013再将置乱的7G比特的二进制字符串以7比特为单位依次转化为G个十进制数值,并对其中大于98的十进制数减去64;再将G个十进制数依次相连得到对应的十进制序列YYG|G1,2,G,YG为十进制序列Y的第G个数据;0014B2、控制。
20、符编码将网页文件中不会影响网页正常显示的控制符作为隐写字符串,一共有99种控制符CS,将其依次编码为0到98,即CCS|S0,1,2,98,CS对应编码值为S的控制符;具体组成为如下表0015控制符编码表0016编码S控制符CS编码S控制符CS编码S控制符CS00;33X0;66X0;11;34X1;67X1;22;35X2;68X2;说明书CN104050400A3/14页833;36X3;69X3;44;37X4;70X4;55;38X5;71X5;66;39X6;72X6;77;40X7;73X7;88;41X8;74X8;99;42X9;75X9;1010;43XA;76XA;1111。
21、;44XB;77XB;1212;45XC;78XC;1313;46XD;79XD;1414;47XE;80XE;1515;48XF;81XF;1616;49X10;82X10;1717;50X11;83X11;1818;51X12;84X12;1919;52X13;85X13;2020;53X14;86X14;2121;54X15;87X15;2222;55X16;88X16;2323;56X17;89X17;2424;57X18;90X18;2525;58X19;91X19;2626;59X1A;92X1A;说明书CN104050400A4/14页92727;60X1B;93X1B;2828。
22、;61X1C;94X1C;2929;62X1D;95X1D;3030;63X1E;96X1E;3131;64X1F;97X1F;32127;65X7F;98X7F;0017B3、控制符序列生成根据B1步得到的十进制序列YYG|G1,2,G,生成控制符序列I,IIG|G1,2,G,其中,IG为控制符编码表中编码为YG的控制符CS,SYG;0018B4、控制符隐写如果控制符序列IIG|G1,2,G中的控制符个数不能被M整除,则一次或多次补入控制符序列I的第一个控制符,使其控制符个数能被M整除,否则不进行补入操作;得到长度为QM的待隐写控制符序列E,然后依次将待隐写控制符序列E平均分为M个待隐写控制。
23、符组EI,即EEI|I1,2,M;其中,EIIQI11,IQI12,IQI;0019将待隐写控制符组EI整体嵌入到对应的链接块FI中,生成含水印链接块FIW;其中,链接块FI的嵌入位置为链接块FI的超链接标签起始符字符之前,最后一个网页块FM1不进行水印嵌入;最终生成含水印网页文件FW;FWFIWI1,2,M,FM1;0020C、水印提取与重构0021令待检测网页文件F原始网页文件F,进行步骤A的操作得到M个链接块FII1,2,M和第M1个网页块FM1;令链接块FI待检测链接块FI,FFI|I1,2,M;令网页块FM1待检测网页块FM1;0022C1、隐写控制符的提取提取M个待检测链接块FI的。
24、超链接标签起始符中字符之前的所有控制符;如果不足Q个则重复第一个控制符至Q个;如果超出Q个,则删除前面的控制符使其个数为Q个;得到提取控制符组EI;所有提取的控制符组EI组成提取的控制符序列E,即EEI|I1,2,M;0023C2、控制符解码依次查找出提取的控制符序列E中的各个控制符在B2步中的控制符编码表中的编码S;将这些编码依次连接,构成提取的十进制序列YYG|G1,2,G;0024将提取的十进制序列Y中的G个十进制数YG依次转化为G个7位的二进制数;然后将G个7位的二进制数依次连接构成7G比特的二进制序列;根据密钥K1对7G比特的二进制序列进行反置乱,并依次按K比特一组进行分组,得到待测。
25、链接块FI的提取水印信息WIWI,1,WI,2,WI,K,如果最后一组不足K比特则丢弃,得到待检测网页F提取的水印信息WWI|I1,2,M;0025C3、水印重构将M个待检测链接块FI的超链接标签起始符中字符之前的所说明书CN104050400A5/14页10有控制符删除得到预处理后的待测链接块FIB;0026令预处理后的待测链接块FIB链接块FI,进行步骤B1的操作,得到十进制序列YYG|G1,2,G;令重构的十进制序列将重构的十进制序列YB中大于98的十进制数减去64,再将G个十进制数转化为7比特的二进制数,并依次相连得到7G比特的二进制序列;再根据密钥K1对7G比特的二进制序列进行反置乱。
26、,并依次按K比特一组进行分组,得到待测链接块FI的重构水印信息WIBWI,1B,WI,2B,WI,KB,如果最后一组不足K比特则丢弃,得到待检测网页文件F的重构水印信息WBWIB|I1,2,M;0027D、篡改判断与定位标示0028D1、篡改判断将第I个待检测链接块FI的K比特重构水印信息WIB与第I组的提取水印信息WI逐比特进行比较,如果不同,则判定该比特为改动;得到待检测链接块FI中的改动比特总数DI,DI0,K;当改动比特总数DI大于阈值时,判定待检测链接块FI被篡改,否则未被篡改,当第M1个待检测网页块FM1不判断;阈值0,K/2;0029D2、浏览器的定位标示前M个待检测链接块FI如。
27、果被判定为篡改,则删除待检测链接块FI超链接标签起始符后的所有属性信息,再在待检测链接块FI中加入警示标识字符信息或警示背景颜色信息。0030与现有技术相比,本发明的有益效果是0031一、本发明基于链接信息进行分块,按块进行水印生成、嵌入、检测、定位,从而是针对网页中的链接信息进行保护,能够定位到被篡改链接块的具体位置,当检测出网页被篡改后,将链接标签中所有属性信息删除,并直观显示出警示信息,有效阻止篡改链接信息及非法网页继续传播。一方面防止用户访问到非法网页上当受骗;另一方面最大可能地降低网页链接篡改对企事业单位的信誉和业务造成的负面影响和损失。0032二、网站的主页或导航大多采用网页链接组。
28、成,用户通过点击文字链接或者图片链接获取更多更具体的信息,链接信息是网页的核心信息。本发明通过对链接块篡改的检测与定位,既能有效阻止了篡改的链接信息对企事业单位和用户的损失;同时对不重要的非链接块的信息不进行定位,降低了算法复杂度。0033三、每个链接块通过动态阈值方法进行篡改检测判断,因而本发明能够有效区分水印信息的篡改和网页内容的篡改,检测准确率高。同时,本发明按链接分块保护,检测出篡改时能够定位到被篡改的具体链接块的位置,定位精度较高。0034四、申请人分析发现,某些控制符在HTML文档的标签起始符前,不会影响网页在浏览器端正常显示,找出了99个这种可用于隐藏秘密信息的控制符,用于水印信。
29、息嵌入,它隐藏在网页中不仅在源代码中难以察觉,而且不影响网页的正常显示,其不可见性好,兼容性强。0035五、网页文件增量小且水印容量大每个链接块生成嵌入KK13比特水印而最多只需增加个控制符,即一个控制符对应7比特水印信息,因而本发明方法水印容量大,含水印网页文件增量小,对网页传输和加载影响较小。0036六、由于选出的99个控制符在标签起始符前嵌入,不影响网页的显示,控制符说明书CN104050400A106/14页11的嵌入数量不受限制,即KK13可以根据需要选定,因此每个链接块可根据需要生成任意KK13比特水印信息嵌入网页中,其安全性高。0037下面结合附图和具体实施方式对本发明作进一步的。
30、详细说明。附图说明0038图1A和图1B分别为测试网页百度和测试网页METACAFE文件的部分源代码。0039图1C为用本发明实施例方法对图1A的源代码进行分块得到的链接块示意图,图1C中每个矩形框中的字符串均为一个链接块。0040图1D为用本发明实施例方法对图1B的源代码进行分块得到的链接块示意图,图1D中每个矩形框中的字符串均为一个链接块。0041图2为百度原始网页在浏览器端的显示。0042图3A与图3B分别为本发明实施例方法在图1A百度的源代码和图1BMETACAFE的源代码上嵌入水印后的源代码。0043图4A至图4D分别为本发明实施例方法在图3A对应的百度首页源代码上嵌入水印后,在不同。
31、主流浏览器端的显示效果对比。其中,图4A对应IE浏览器,图4B对应谷歌浏览器,图4C对应火狐浏览器,图4D对应360浏览器。0044图5A与图5B分别为图3A百度与图3BMETACAFE的首页链接块在浏览器端的标示。0045图6A为对图3A的嵌入水印后的百度首页源代码篡改后的源代码,即在原始网页代码作如下篡改将“加入百度推广”篡改为“加入我们推广”。0046图6B为图6A的源代码在浏览器端的显示图。0047图6C为本发明实施例方法对图6A的源代码进行篡改检测与定位标示后的网页源代码。0048图6D为图6C的源代码在浏览器端的显示图。0049图7为对含水印的西南交通大学首页的部分源代码。0050。
32、图8A、图8B、图8C为对图7的源代码进行水印信息篡改的三种情形;其中,图8A对应水印信息的增加,增加了表1中的隐写控制符“X1;”,图8B对应水印信息的替换,将隐写控制符“23;”替换为“20;”,图8C对应水印信息的删除,将隐写控制符“X18;”删除。0051图9A为对图7的源代码进行链接与水印信息同时篡改后的网页源代码;0052图9B为本发明实施例方法对图9A的源代码进行篡改检测与定位标示后的网页源代码;0053图9C为图9B的源代码在浏览器端的显示图。具体实施方式0054实施例0055本发明的一种具体实施方式是,一种基于控制符编码隐写的网页链接保护方法,包括如下步骤0056A、网页分块。
33、说明书CN104050400A117/14页120057根据原始网页文件F,FFR|R1,2,N中的链接标签的结束符,将原始网页文件F分为M1个网页块;前M个网页块为链接块FI,FIFR|RTI1,TI2,TITI为链接块;其中,FR表示网页文件F中位置序号为R的字符,N为网页文件F包含的字符数;I为链接块FI的序号,I1,2,M;TI为第I1个链接块FI1的结束字符位置的序号,T10,TI为第I个链接块FI的字符总数;第M1个网页块FM1由原始网页文件F中位置序号从TMTM1到N之间所有的字符组成;0058B、水印生成与嵌入0059B1、水印生成将链接块FI,I1,2,M,利用密钥K1通过H。
34、ASH函数生成链接块FI的160比特的摘要信息XI;同时,利用密钥K1生成大小为160K的伪随机矩阵R,K为设定的各链接块FI的水印长度,K13;第M1个网页块FM1不保护,不进行操作;0060再将摘要信息XI乘以伪随机矩阵R生成链接块FI的K比特的二进制核心摘要信息WI,WIXIRMOD2WI,1,WI,2,WI,K;其中为矩阵点乘运算,MOD为模运算;0061将所有链接块FI的二进制核心摘要信息WI依次连接,得到KM比特的二进制序列;如果KM比特的二进制序列的长度不能被7整除,则在后面补0使其长度能够被7整除,否则不进行补0操作;从而得到7G比特的二进制字符串,为向上取整运算;然后利用密钥。
35、K1将7G比特的二进制字符串置乱得到置乱的7G比特的二进制字符串;0062再将置乱的7G比特的二进制字符串以7比特为单位依次转化为G个十进制数值,并对其中大于98的十进制数减去64;再将G个十进制数依次相连得到对应的十进制序列YYG|G1,2,G,YG为十进制序列Y的第G个数据;0063B2、控制符编码将网页文件中不会影响网页正常显示的控制符作为隐写字符串,一共有99种控制符CS,将其依次编码为0到98,即CCS|S0,1,2,98,CS对应编码值为S的控制符;具体组成为如下表0064控制符编码表0065编码S控制符CS编码S控制符CS编码S控制符CS00;33X0;66X0;11;34X1;。
36、67X1;22;35X2;68X2;33;36X3;69X3;44;37X4;70X4;55;38X5;71X5;66;39X6;72X6;说明书CN104050400A128/14页1377;40X7;73X7;88;41X8;74X8;99;42X9;75X9;1010;43XA;76XA;1111;44XB;77XB;1212;45XC;78XC;1313;46XD;79XD;1414;47XE;80XE;1515;48XF;81XF;1616;49X10;82X10;1717;50X11;83X11;1818;51X12;84X12;1919;52X13;85X13;2020;53X1。
37、4;86X14;2121;54X15;87X15;2222;55X16;88X16;2323;56X17;89X17;2424;57X18;90X18;2525;58X19;91X19;2626;59X1A;92X1A;2727;60X1B;93X1B;2828;61X1C;94X1C;2929;62X1D;95X1D;3030;63X1E;96X1E;说明书CN104050400A139/14页143131;64X1F;97X1F;32127;65X7F;98X7F;00660067B3、控制符序列生成根据B1步得到的十进制序列YYG|G1,2,G,生成控制符序列I,IIG|G1,2,G,其。
38、中,IG为控制符编码表中编码为YG的控制符CS,SYG;0068B4、控制符隐写如果控制符序列IIG|G1,2,G中的控制符个数不能被M整除,则一次或多次补入控制符序列I的第一个控制符,使其控制符个数能被M整除,否则不进行补入操作;得到长度为QM的待隐写控制符序列E,然后依次将待隐写控制符序列E平均分为M个待隐写控制符组EI,即EEI|I1,2,M;其中,EIIQI11,IQI12,IQI;0069将待隐写控制符组EI整体嵌入到对应的链接块FI中,生成含水印链接块FIW;其中,链接块FI的嵌入位置为链接块FI的超链接标签起始符字符之前,最后一个网页块FM1不进行水印嵌入;最终生成含水印网页文件。
39、FW;FWFIWI1,2,M,FM1;0070C、水印提取与重构0071令待检测网页文件F原始网页文件F,进行步骤A的操作得到M个链接块FII1,2,M和第M1个网页块FM1;令链接块FI待检测链接块FI,FFI|I1,2,M;令网页块FM1待检测网页块FM1;0072C1、隐写控制符的提取提取M个待检测链接块FI的超链接标签起始符中字符之前的所有控制符;如果不足Q个则重复第一个控制符至Q个;如果超出Q个,则删除前面的控制符使其个数为Q个;得到提取控制符组EI;所有提取的控制符组EI组成提取的控制符序列E,即EEI|I1,2,M;0073C2、控制符解码依次查找出提取的控制符序列E中的各个控制。
40、符在B2步中的控制符编码表中的编码S;将这些编码依次连接,构成提取的十进制序列YYG|G1,2,G;0074将提取的十进制序列Y中的G个十进制数YG依次转化为G个7位的二进制数;然后将G个7位的二进制数依次连接构成7G比特的二进制序列;根据密钥K1对7G比特的二进制序列进行反置乱,并依次按K比特一组进行分组,得到待测链接块FI的提取水印信息WIWI,1,WI,2,WI,K,如果最后一组不足K比特则丢弃,得到待检测网页F提取的水印信息WWI|I1,2,M;0075C3、水印重构将M个待检测链接块FI的超链接标签起始符中字符之前的所有控制符删除得到预处理后的待测链接块FIB;0076令预处理后的待。
41、测链接块FIB链接块FI,进行步骤B1的操作,得到十进制序列YYG|G1,2,G;令重构的十进制序列将重构的十进制序列YB中大于98的十进制数减去64,再将G个十进制数转化为7比特的二进制数,并依次相连得到7G比特的二进制序列;再根据密钥K1对7G比特的二进制序列说明书CN104050400A1410/14页15进行反置乱,并依次按K比特一组进行分组,得到待测链接块FI的重构水印信息WIBWI,1B,WI,2B,WI,KB,如果最后一组不足K比特则丢弃,得到待检测网页文件F的重构水印信息WBWIB|I1,2,M;0077D、篡改判断与定位标示0078D1、篡改判断将第I个待检测链接块FI的K比。
42、特重构水印信息WIB与第I组的提取水印信息WI逐比特进行比较,如果不同,则判定该比特为改动;得到待检测链接块FI中的改动比特总数DI,DI0,K;当改动比特总数DI大于阈值时,判定待检测链接块FI被篡改,否则未被篡改,当第M1个待检测网页块FM1不判断;阈值0,K/2;0079D2、浏览器的定位标示前M个待检测链接块FI如果被判定为篡改,则删除待检测链接块FI超链接标签起始符后的所有属性信息,再在待检测链接块FI中加入警示标识字符信息或警示背景颜色信息。如在待检测链接块FI超链接标签起始符之前加入字符串STYLE“BACKGROUNDFF0000“。即可在该链接块上显示红色警示背景色,表示该链。
43、接块已被篡改;也可加入相应字符信息在该链接块上显示“该处内容已被篡改”等警示标识。0080本发明D1步骤中阈值可根据根据文献“数字图像安全认证水印算法及其统计检测性能分析”和红杰,西南交通大学博士学位论文,2009的方法确定,即0081确定各个链接块的水印长度K后,根据误检测率PFDK,PFAK,1PFRK,可计算出篡改比例为时误检测率PFDK,在0,K/2时的所有值,选取所有误检测率PFDK,中最小值对应的取值,作为水印长度为K,篡改比例为时的篡改检测采用的阈值。其中,0082PFRK,为虚检率,0083PFAK,为漏检率,0084通过测试K21,0,03时对应的阈值选取关系,如下表0085。
44、阈值表00860,00250025,00750075,01650165,030345600870088待检测网页F的篡改比例,可通过计算估计得到;Q为待检测网页F的水印信息中改动的比特总个数占水印总比特数的比例,当计算得到的篡改比例估计值处于阈值表中对应的取值范围时,取对应列的值作为篡改判断阈值。再在链接块FI超链接标签起始符之前加入字符串STYLE说明书CN104050400A1511/14页16“BACKGROUNDFF0000“。0089本例中的参数K取21。实施时参数K还可以取大于13的任何一个整数。当K取值越小,嵌入的水印少,检测灵敏度低,计算复杂度低;反之,嵌入的水印多,检测灵敏度。
45、高,计算复杂度高。0090本发明的效果可以通过以下性能分析及仿真试验测试得到验证和说明0091仿真试验测试时,各链接块FI的水印长度K为21。0092一、水印容量和网页增量的分析与统计0093本发明将网页按分块生成K比特水印并采用控制符编码表中的控制符进行隐写,每个控制符代表7比特水印信息。衡量网页隐写方法的指标通常为隐藏容量和隐写后的网页相对增量,其中隐藏容量指水印嵌入总比特数,隐写后的网页相对增量隐写后的网页大小原始网页大小/原始网页大小。0094为验证本发明的效果,选取具有代表性的最新文献即文献1,“可在浏览器上定位篡改的网页水印生成与认证方法”中国专利申请号2012102975825,。
46、所提出的算法进行比较0095表1为本发明实施例与文献1对常见网站首页的测试结果。由表1可见,本发明对网站首页分块数量与文献1相差不大,但隐藏容量较文献1增加较多,且文献1方法隐藏信息后的网页相对增量平均为1010,而本发明为358,含水印网页大小增长比例较小,这是因为本发明在每比特水印嵌入时引入的冗余信息较少,且隐藏的控制符字符数量也相对较少。在生成含水印文件时间上,本发明平均为2012S,文献1为8929S,时间效率大大提高。这是因为本发明的根据链接分块处理网页,分块嵌入方法更简单高效。0096表1本发明及文献1对常用网站的分块及水印容量统计结果0097说明书CN104050400A1612。
47、/14页170098注访问日期为2014年6月5日0099二、水印嵌入的不可见性及适用性01001、嵌入水印的不可见性0101为测试本发明方法中嵌入水印的不可见性,用实施例的方法对百度首页和METACAFE进行了相关测试,其测试结果如下0102图1A和图1B分别为测试网页百度和测试网页METACAFE文件的部分源代码。0103图3A与图3B分别为本实施例方法在图1A百度的源代码和图1BMETACAFE的源代码上嵌入水印后的源代码。0104对比图3A与图1A及图3B与图1B,可以看出在网页中嵌入控制符后,网页文件与原始网页文件信息变化较小,人眼不易察觉到增加的控制符,实现了隐写的效果,隐写的控制。
48、符在源代码上具有较好的不可见性。01052、浏览器端的不可见性及适用性0106图2为百度原始网页在浏览器端的显示。图4A至图4D分别为本发明实施例方法在图3A百度首页源代码上嵌入水印后,在不同主流浏览器端的显示效果对比。其中,图说明书CN104050400A1713/14页184A对应IE浏览器,图4B对应谷歌浏览器,图4C对应火狐浏览器,图4D对应360浏览器。0107图4A至图4D与图2对比,可以看出在不同浏览器端的含水印网页均能正常显示,且无明显变化,因此本发明中水印嵌入方法能够适用于多种主流浏览器,适用面广,且嵌入的水印在浏览器端有较好的不可见性。0108三、网页链接及篡改检测与定位的测试0109图5A与图5B分别为图3A百度与图3BMETACAFE的首页链接块在浏览器端的标示。由图5A与图5B可以看出,百度首页与METACAFE首页信息中链接块信息较多,且为网页的关键信息。因此,本发明基于网页链接。