书签 分享 收藏 举报 版权申诉 / 5

一种针对网络图片格式文件的链接方法.pdf

  • 上传人:00062****4422
  • 文档编号:6353201
  • 上传时间:2019-06-03
  • 格式:PDF
  • 页数:5
  • 大小:189.01KB
  • 摘要
    申请专利号:

    CN201410160126.5

    申请日:

    2014.04.21

    公开号:

    CN105005566A

    公开日:

    2015.10.28

    当前法律状态:

    撤回

    有效性:

    无权

    法律详情:

    发明专利申请公布后的视为撤回IPC(主分类):G06F 17/30申请公布日:20151028|||文件的公告送达IPC(主分类):G06F 17/30收件人:上海京知信息科技有限公司文件名称:视为撤回通知书|||文件的公告送达IPC(主分类):G06F 17/30收件人:上海京知信息科技有限公司文件名称:实审请求期限届满前通知书|||文件的公告送达IPC(主分类):G06F 17/30收件人:上海京知信息科技有限公司文件名称:发明专利申请公布通知书|||公开

    IPC分类号:

    G06F17/30

    主分类号:

    G06F17/30

    申请人:

    上海京知信息科技有限公司

    发明人:

    张军; 宋惟忠

    地址:

    200060上海市普陀区陕西北路1388号1716A室

    优先权:

    专利代理机构:

    代理人:

    PDF完整版下载: PDF下载
    内容摘要

    本发明公开了一种针对网络图片格式文件的链接方法,其具体步骤如下:通过METAFILE的关键词对包含图片格式文件的网页进行查询,初始化每个相关网页的中心度和权威度,重复投票过程,报告排好序的包含图片格式文件的网页列表,即指向网络图片格式文件地址的URL库,并且URL与网络图片格式文件的直方图建立映射以便精准检索。

    权利要求书

    权利要求书
    1.  一种针对网络图片格式文件的链接方法,其具体步骤如下:
    1)通过METAFILE的关键词对包含图片格式文件的网页进行查询,找出n个与该查询最为相关的包含图片格式文件的网页集合,其中n是预先设定的参数;
    2)向网页集合中添加所有与匹配网页存在着链接关系的包含图片格式文件的网页;
    3)移除所有的站内链接;
    4)基于被相关网页链接的入链数,为每个网页赋予一个权威权重以及基于链向权威网页的来源网页,赋予一个中心权重;
    5)统计每个网页链接的入链数之和,计算出每个网页的权威权重;
    6)统计每个网页的出链网页的权威度之和,计算出每个网页的中心权重;
    7)将所有包含图片格式文件的网页的中心度除以最高中心度以将其标准化,将所有包含图片格式文件的网页的权威度除以最高权威度以将其标准化;
    8)重复第5)步到第7)步20次;
    9)返回一张排好序的包含图片格式文件的网页列表,即指向网络图片格式文件地址的URL库,并且URL与网络图片格式文件的直方图建立映射以便精准检索。

    说明书

    说明书一种针对网络图片格式文件的链接方法
    技术领域
    本发明涉及一种针对网络图片格式文件的链接方法
    背景技术
    网络爬虫,也称网络蜘蛛、网络机器人,是一个自动提取网页的程序,它从因特网上下载网页,是搜索引擎的重要组成部分。网络爬虫利用标准的HTTP协议,根据超级链接和Web文档检索的方法遍历因特网信息空间。
    因特网上有数千种不同的数据类型,HTTP给每种要通过Web传输的对象都打上了名为MIME类型的数据格式标签(常见图片格式:image/jpeg,image/gif)。统一资源定位符(URL)是资源标识符最常见的形式。URL描述了一台特定服务器上某资源的特定位置。元素文件(METAFILE)可提供有关页面的元信息,比如针对搜索引擎和更新频度的描述和关键词,可针对元素的关键词进行索引。
    目前网络爬虫只爬取文本,不能爬取音乐、图片和视频等多媒体文件,原因主要是多媒体数据量太大;如何爬取多媒体文件;如何索引多媒体文件;进而对处理过的多媒体文件检索。现在因特网上有大量的多媒体文件,特别是社交网站和多媒体分享的兴起,需要对多媒体文件进行精准检索。
    本发明提供了一种针对网络图片格式文件的链接方法,通过METAFILE的关键词对包含图片格式文件的网页进行查询,初始化每个相关网页的中心度和权威度,重复投票过程,报告排好序的包含图片格式文件的网页列表,即指向网络图片格式文件地址的URL库,并且URL与网络图片格式文件的直方图建立映射以便精准检索。
    发明内容
    本发明的目的在于提供一种针对网络图片格式文件的链接方法。本发明包括以下特征:
    发明技术方案
    一种针对网络图片格式文件的链接方法,其具体步骤如下:
    1)通过METAFILE的关键词对包含图片格式文件的网页进行查询,找出n4与该查询最为相关的包含图片格式文件的网页集合,其中n是预先设定的参数;
    2)向网页集合中添加所有与匹配网页存在着链接关系的包含图片格式文件的网页;
    3)移除所有的站内链接;
    4)基于被相关网页链接的入链数,为每个网页赋予一个权威权重以及基于链向权威网页的来源网页,赋予一个中心权重;
    5)统计每个网页链接的入链数之和,计算出每个网页的权威权重;
    6)统计每个网页的出链网页的权威度之和,计算出每个网页的中心权重;
    7)将所有包含图片格式文件的网页的中心度除以最高中心度以将其标准化,将所有包含图片格式文件的网页的权威度除以最高权威度以将其标准化;
    8)重复第5)步到第7)步20次;
    9)返回一张排好序的包含图片格式文件的网页列表,即指向网络图片格式文件地址的URL库,并且URL与网络图片格式文件的直方图建立映射以便精准检索。
    附图说明
    附图1是网络图片格式文件链接流程图
    具体实施方式
    这种针对网络图片格式文件的链接方法,包括如下步骤:
    1)通过METAFILE的关键词对包含图片格式文件的网页进行查询,找出n个与该查询最为相关的包 含图片格式文件的网页集合,其中n是预先设定的参数;
    2)向网页集合中添加所有与匹配网页存在着链接关系的包含图片格式文件的网页;
    3)移除所有的站内链接;
    4)基于被相关网页链接的入链数,为每个网页赋予一个权威权重以及基于链向权威网页的来源网页,赋予一个中心权重;
    5)统计每个网页链接的入链数之和,计算出每个网页的权威权重;
    6)统计每个网页的出链网页的权威度之和,计算出每个网页的中心权重;
    7)将所有包含图片格式文件的网页的中心度除以最高中心度以将其标准化,将所有包含图片格式文件的网页的权威度除以最高权威度以将其标准化;
    8)重复第5)步到第7)步20次;
    9)返回一张排好序的包含图片格式文件的网页列表,即指向网络图片格式文件地址的URL库,并且URL与网络图片格式文件的直方图建立映射以便精准检索。

    关 键  词:
    一种 针对 网络 图片 格式文件 链接 方法
      专利查询网所有文档均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:一种针对网络图片格式文件的链接方法.pdf
    链接地址:https://www.zhuanlichaxun.net/p-6353201.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
    经营许可证编号:粤ICP备2021068784号-1