《一种针对网络图片格式文件的链接方法.pdf》由会员分享,可在线阅读,更多相关《一种针对网络图片格式文件的链接方法.pdf(5页完整版)》请在专利查询网上搜索。
本发明公开了一种针对网络图片格式文件的链接方法,其具体步骤如下:通过METAFILE的关键词对包含图片格式文件的网页进行查询,初始化每个相关网页的中心度和权威度,重复投票过程,报告排好序的包含图片格式文件的网页列表,即指向网络图片格式文件地址的URL库,并且URL与网络图片格式文件的直方图建立映射以便精准检索。。
CN201410160126.5
2014.04.21
CN105005566A
2015.10.28
撤回
无权
发明专利申请公布后的视为撤回IPC(主分类):G06F 17/30申请公布日:20151028|||文件的公告送达IPC(主分类):G06F 17/30收件人:上海京知信息科技有限公司文件名称:视为撤回通知书|||文件的公告送达IPC(主分类):G06F 17/30收件人:上海京知信息科技有限公司文件名称:实审请求期限届满前通知书|||文件的公告送达IPC(主分类):G06F 17/30收件人:上海京知信息科技有限公司文件名称:发明专利申请公布通知书|||公开
G06F17/30
上海京知信息科技有限公司
张军; 宋惟忠
200060上海市普陀区陕西北路1388号1716A室
本发明公开了一种针对网络图片格式文件的链接方法,其具体步骤如下:通过METAFILE的关键词对包含图片格式文件的网页进行查询,初始化每个相关网页的中心度和权威度,重复投票过程,报告排好序的包含图片格式文件的网页列表,即指向网络图片格式文件地址的URL库,并且URL与网络图片格式文件的直方图建立映射以便精准检索。
权利要求书1. 一种针对网络图片格式文件的链接方法,其具体步骤如下:1)通过METAFILE的关键词对包含图片格式文件的网页进行查询,找出n个与该查询最为相关的包含图片格式文件的网页集合,其中n是预先设定的参数;2)向网页集合中添加所有与匹配网页存在着链接关系的包含图片格式文件的网页;3)移除所有的站内链接;4)基于被相关网页链接的入链数,为每个网页赋予一个权威权重以及基于链向权威网页的来源网页,赋予一个中心权重;5)统计每个网页链接的入链数之和,计算出每个网页的权威权重;6)统计每个网页的出链网页的权威度之和,计算出每个网页的中心权重;7)将所有包含图片格式文件的网页的中心度除以最高中心度以将其标准化,将所有包含图片格式文件的网页的权威度除以最高权威度以将其标准化;8)重复第5)步到第7)步20次;9)返回一张排好序的包含图片格式文件的网页列表,即指向网络图片格式文件地址的URL库,并且URL与网络图片格式文件的直方图建立映射以便精准检索。
说明书一种针对网络图片格式文件的链接方法 技术领域 本发明涉及一种针对网络图片格式文件的链接方法 背景技术 网络爬虫,也称网络蜘蛛、网络机器人,是一个自动提取网页的程序,它从因特网上下载网页,是搜索引擎的重要组成部分。网络爬虫利用标准的HTTP协议,根据超级链接和Web文档检索的方法遍历因特网信息空间。 因特网上有数千种不同的数据类型,HTTP给每种要通过Web传输的对象都打上了名为MIME类型的数据格式标签(常见图片格式:image/jpeg,image/gif)。统一资源定位符(URL)是资源标识符最常见的形式。URL描述了一台特定服务器上某资源的特定位置。元素文件(METAFILE)可提供有关页面的元信息,比如针对搜索引擎和更新频度的描述和关键词,可针对元素的关键词进行索引。 目前网络爬虫只爬取文本,不能爬取音乐、图片和视频等多媒体文件,原因主要是多媒体数据量太大;如何爬取多媒体文件;如何索引多媒体文件;进而对处理过的多媒体文件检索。现在因特网上有大量的多媒体文件,特别是社交网站和多媒体分享的兴起,需要对多媒体文件进行精准检索。 本发明提供了一种针对网络图片格式文件的链接方法,通过METAFILE的关键词对包含图片格式文件的网页进行查询,初始化每个相关网页的中心度和权威度,重复投票过程,报告排好序的包含图片格式文件的网页列表,即指向网络图片格式文件地址的URL库,并且URL与网络图片格式文件的直方图建立映射以便精准检索。 发明内容 本发明的目的在于提供一种针对网络图片格式文件的链接方法。本发明包括以下特征: 发明技术方案 一种针对网络图片格式文件的链接方法,其具体步骤如下: 1)通过METAFILE的关键词对包含图片格式文件的网页进行查询,找出n4与该查询最为相关的包含图片格式文件的网页集合,其中n是预先设定的参数; 2)向网页集合中添加所有与匹配网页存在着链接关系的包含图片格式文件的网页; 3)移除所有的站内链接; 4)基于被相关网页链接的入链数,为每个网页赋予一个权威权重以及基于链向权威网页的来源网页,赋予一个中心权重; 5)统计每个网页链接的入链数之和,计算出每个网页的权威权重; 6)统计每个网页的出链网页的权威度之和,计算出每个网页的中心权重; 7)将所有包含图片格式文件的网页的中心度除以最高中心度以将其标准化,将所有包含图片格式文件的网页的权威度除以最高权威度以将其标准化; 8)重复第5)步到第7)步20次; 9)返回一张排好序的包含图片格式文件的网页列表,即指向网络图片格式文件地址的URL库,并且URL与网络图片格式文件的直方图建立映射以便精准检索。 附图说明 附图1是网络图片格式文件链接流程图 具体实施方式 这种针对网络图片格式文件的链接方法,包括如下步骤: 1)通过METAFILE的关键词对包含图片格式文件的网页进行查询,找出n个与该查询最为相关的包 含图片格式文件的网页集合,其中n是预先设定的参数; 2)向网页集合中添加所有与匹配网页存在着链接关系的包含图片格式文件的网页; 3)移除所有的站内链接; 4)基于被相关网页链接的入链数,为每个网页赋予一个权威权重以及基于链向权威网页的来源网页,赋予一个中心权重; 5)统计每个网页链接的入链数之和,计算出每个网页的权威权重; 6)统计每个网页的出链网页的权威度之和,计算出每个网页的中心权重; 7)将所有包含图片格式文件的网页的中心度除以最高中心度以将其标准化,将所有包含图片格式文件的网页的权威度除以最高权威度以将其标准化; 8)重复第5)步到第7)步20次; 9)返回一张排好序的包含图片格式文件的网页列表,即指向网络图片格式文件地址的URL库,并且URL与网络图片格式文件的直方图建立映射以便精准检索。
下载文档到电脑,查找使用更方便
30 金币 0人已下载
还可以输入200字符
暂无评论,赶快抢占沙发吧。
copyright@ 2017-2018 zhuanlichaxun.net网站版权所有经营许可证编号:粤ICP备2021068784号-1