一种数据采集方法及装置技术领域
本发明涉及互联网技术领域,特别是涉及一种数据采集方法及装置。
背景技术
随着互联网技术的快速发展,大数据的应用越来越多。在大数据场景下,数据采集
的需求逐渐增加。
在现有技术中,当需要某种主题的数据时,多是通过非定向爬虫从互联网中获取
海量数据,然后以获取到的海量数据为基础,通过复杂的数据匹配算法,筛选出与主题相关
的数据。
这种方法存在一定的缺点,基础数据的数据量太大,非相关数据占比较高,往往很
难正确挑选出与主题密切相关的数据,精准度较低。在大数据时代,呈现的数据价值密度较
低。
发明内容
本发明的目的是提供一种数据采集方法及装置,以提高数据采集的精准度及数据
价值密度。
为解决上述技术问题,本发明提供如下技术方案:
一种数据采集方法,包括:
确定目标主题和目标采集网站;
在所述目标采集网站包含的多个网页链接中,确定所述目标主题对应的目标网页
链接;
采集每个目标网页链接对应的网页中的内容,获得多条采集数据;
根据所述目标主题与每条采集数据的匹配程度,确定结果数据集合。
在本发明的一种具体实施方式中,在所述确定所述目标主题对应的目标网页链接
之后、所述采集每个目标网页链接对应的网页上的内容之前,还包括:
对确定的所述目标主题对应的目标网页链接进行过滤处理。
在本发明的一种具体实施方式中,所述确定目标主题和目标采集网站,包括:
根据用户输入的关键词,确定目标主题和目标采集网站。
在本发明的一种具体实施方式中,所述根据所述目标主题与每条采集数据的匹配
程度,确定结果数据集合,包括:
确定每条采集数据的关键词;
确定所述目标主题与每条采集数据的关键词的文本相似度;
针对每条采集数据,如果所述目标主题与该条采集数据的关键词的文本相似度高
于预设第一阈值,则将该条采集数据归并到结果数据集合中。
在本发明的一种具体实施方式中,所述确定每条采集数据的关键词,包括:
针对每条采集数据,对该条采集数据进行分词处理,获得该条采集数据的基础词
的集合;
确定每个基础词在该条采集数据中出现的频度;
将频度高于预设第二阈值的基础词确定为该条采集数据的关键词。
一种数据采集装置,包括:
目标确定模块,用于确定目标主题和目标采集网站;
链接确定模块,用于在所述目标采集网站包含的多个网页链接中,确定所述目标
主题对应的目标网页链接;
采集数据获得模块,用于采集每个目标网页链接对应的网页中的内容,获得多条
采集数据;
结果数据确定模块,用于根据所述目标主题与每条采集数据的匹配程度,确定结
果数据集合。
在本发明的一种具体实施方式中,还包括:
链接过滤模块,用于在所述确定所述目标主题对应的目标网页链接之后、所述采
集每个目标网页链接对应的网页上的内容之前,对确定的所述目标主题对应的目标网页链
接进行过滤处理。
在本发明的一种具体实施方式中,所述目标确定模块,具体用于:
根据用户输入的关键词,确定目标主题和目标采集网站。
在本发明的一种具体实施方式中,所述结果数据确定模块,包括:
关键词确定子模块,用于确定每条采集数据的关键词;
文本相似度确定子模块,用于确定所述目标主题与每条采集数据的关键词的文本
相似度;
结果数据确定子模块,用于针对每条采集数据,如果所述目标主题与该条采集数
据的关键词的文本相似度高于预设第一阈值,则将该条采集数据归并到结果数据集合中。
在本发明的一种具体实施方式中,所述关键词确定子模块,具体用于:
针对每条采集数据,对该条采集数据进行分词处理,获得该条采集数据的基础词
的集合;
确定每个基础词在该条采集数据中出现的频度;
将频度高于预设第二阈值的基础词确定为该条采集数据的关键词。
应用本发明实施例所提供的技术方案,在确定目标主题和目标采集网站后,在目
标采集网站包含的多个网页链接中,确定出目标主题对应的目标网页链接,采集每个目标
网页链接对应的网页中的内容,获得多条采集数据,根据目标主题与每条采集数据的匹配
程度,可以确定结果数据集合。定向确定出目标主题对应的目标网页链接,使得从每个目标
网页链接对应的网页中采集到的内容较少,与目标主题的相关性较大,提高了数据采集的
精准度及数据价值密度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现
有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本
发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以
根据这些附图获得其他的附图。
图1为本发明实施例中一种数据采集方法的实施流程图;
图2为本发明实施例中一种数据采集装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式
对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是
全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提
下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种数据采集方法,该方法可以应用于搜索引擎为用户提供
检索服务的应用场景中。搜索引擎是指从互联网上搜集信息,在对信息进行组织和处理后,
为用户提供检索服务,将用户检索相关的信息展示给用户的系统。
本发明实施例所提供的技术方案可以智能地进行数据采集,根据确定的目标主
题,利用搜索引擎的定向过滤能力,结合二次内容过滤方法,可以较为准确的筛选出目标采
集网站内与目标主题密切相关的内容。
参见图1所示,为本发明实施例所提供的一种数据采集方法的实施流程图,该方法
可以包括以下步骤:
S110:确定目标主题和目标采集网站。
在用户有采集数据的需求时,可以先确定要采集的数据的目标主题和目标采集网
站。
在本发明的一种具体实施方式中,可以根据用户输入的关键词,确定目标主题和
目标采集网站。
在本发明实施例中,可以为用户提供输入接口,用户根据自身需求,通过该输入接
口可以输入关键词。该关键词可以是企业名、人名、事件、关系等任意一个或多个名词。可以
将用户输入的关键词直接确定为目标主题。
用户通过该输入接口还可以输入目标采集网站的链接地址,从而根据用户输入的
链接地址,可以确定目标采集网站。
或者,可以通过确定的目标主题,自动确定目标采集网站。比如,预先建立大量的
主题与网站的对应关系,当确定目标主题后,可以在预先建立的对应关系中找到与目标主
题对应的目标采集网站。
本发明实施例适用于任一主题和任一采集网站的数据采集,通用性较高。
S120:在目标采集网站包含的多个网页链接中,确定目标主题对应的目标网页链
接。
在步骤S110,确定了目标主题和目标采集网站。每个网站都包含有多个网页链接,
不同网页链接对应的网页中包含不同的内容。目标采集网站同样包含多个网页链接。
在目标采集网站包含的多个网页链接中,可以确定目标主题对应的目标网页链
接。具体的,可以以目标采集网站为靶,筛选出与目标主题相关的一系列目标网页链接。目
标网页链接可以有一个或多个,每个目标网页链接包含的内容与目标主题相关。
S130:采集每个目标网页链接对应的网页中的内容,获得多条采集数据。
在本发明实施例中,可以针对每个目标网页链接,通过非定向方式采集该目标网
页链接对应的网页中的全部内容,获得多条采集数据。
在实际应用中,可以开启多线程,分别对不同的目标网页链接对应的网页内容进
行采集,避免资源竞争,提高采集效率。
先确定出目标主题对应的目标网页链接,再采集每个目标网页链接对应的网页中
的内容,使得采集到的内容数据量较少,减小了后续处理的难度。
在本发明的一种具体实施方式中,在步骤S120之后、步骤S130之前,还可以包括以
下步骤:
对确定的目标主题对应的目标网页链接进行过滤处理。
在确定目标主题对应的目标网页链接之后,可以对确定的目标主题对应的目标网
页链接进行过滤处理。具体的,可以对目标网页链接的正确性进行分析,挑选出正确的网页
链接,删除重复的网页链接、无效网页链接等。
进而,在步骤S130中,采集经过过滤处理的每个网页链接对应的网页中的内容,以
提高数据采集的效率。
S140:根据目标主题与每条采集数据的匹配程度,确定结果数据集合。
目标主题是根据用户需求确定的主题,最终要得到的数据应该是与目标主题匹配
程度较大的数据。
在步骤S130获得了多条采集数据,可以计算目标主题与每条采集数据的匹配程
度。根据目标主题与每条采集数据的匹配程度,可以确定结果数据集合。
在本发明的一种具体实施方式中,步骤S140可以包括以下步骤:
步骤一:确定每条采集数据的关键词;
步骤二:确定目标主题与每条采集数据的关键词的文本相似度;
步骤三:针对每条采集数据,如果目标主题与该条采集数据的关键词的文本相似
度高于预设第一阈值,则将该条采集数据归并到结果数据集合中。
为便于描述,将上述三个步骤结合起来进行说明。
每条采集数据可以认为是由多个基础词构成。针对每条采集数据而言,可以从该
条采集数据包含的基础词中确定出该条采集数据的关键词。
在本发明的一种具体实施方式中,上述步骤一可以包括以下步骤:
第一个步骤:针对每条采集数据,对该条采集数据进行分词处理,获得该条采集数
据的基础词的集合;
第二个步骤:确定每个基础词在该条采集数据中出现的频度;
第三个步骤:将频度高于预设第二阈值的基础词确定为该条采集数据的关键词。
针对每条采集数据,对该条采集数据进行分词处理后,可以获得该条采集数据的
基础词的集合。在本发明实施例中,基础词为具有实际意义的词,如人名、地名、动作及动作
对象等,可以排除无实际意义的虚词,如“的”、“地”、“得”等。
可以理解的是,基础词在采集数据中出现的频度越多,则该基础词越能代表该采
集数据要表达的含义。对于一条采集数据的一个基础词而言,该基础词在该采集数据中出
现的频度为:该基础词在该采集数据中出现的频次/该采集数据的所有基础词出现的频次
的累加和。
针对每条采集数据,获得该条采集数据的基础词的集合后,可以确定每个基础词
在该条采集数据中出现的频度,将频度高于预设第二阈值的基础词确定为该条采集数据的
关键词。
进一步的,可以确定目标主题与每条采集数据的关键词的文本相似度。具体的,可
以应用现有技术中文本相似度的算法,本发明实施例对此不再赘述。
针对每条采集数据,如果目标主题与该条采集数据的关键词的文本相似度高于预
设第一阈值,则表明该条采集数据与目标主题比较接近,可以将该条采集数据归并到结果
数据集合中。
需要说明的是,第一阈值和第二阈值可以根据实际情况进行设定和调整,本发明
实施例对此不做限制。
应用本发明实施例所提供的方法,在确定目标主题和目标采集网站后,在目标采
集网站包含的多个网页链接中,确定出目标主题对应的目标网页链接,采集每个目标网页
链接对应的网页中的内容,获得多条采集数据,根据目标主题与每条采集数据的匹配程度,
可以确定结果数据集合。定向确定出目标主题对应的目标网页链接,使得从每个目标网页
链接对应的网页中采集到的内容较少,与目标主题的相关性较大,提高了数据采集的精准
度及数据价值密度。
另外,本发明实施例借助了搜索引擎的毫秒级搜索能力,可以在数秒内完成定向
采集任务。
相应于上面的方法实施例,本发明实施例还提供了一种数据采集装置,下文描述
的一种数据采集装置与上文描述的一种数据采集方法可相互对应参照。
参见图2所示,该装置可以包括以下模块:
目标确定模块210,用于确定目标主题和目标采集网站;
链接确定模块220,用于在目标采集网站包含的多个网页链接中,确定目标主题对
应的目标网页链接;
采集数据获得模块230,用于采集每个目标网页链接对应的网页中的内容,获得多
条采集数据;
结果数据确定模块240,用于根据目标主题与每条采集数据的匹配程度,确定结果
数据集合。
应用本发明实施例所提供的装置,在确定目标主题和目标采集网站后,在目标采
集网站包含的多个网页链接中,确定出目标主题对应的目标网页链接,采集每个目标网页
链接对应的网页中的内容,获得多条采集数据,根据目标主题与每条采集数据的匹配程度,
可以确定结果数据集合。定向确定出目标主题对应的目标网页链接,使得从每个目标网页
链接对应的网页中采集到的内容较少,与目标主题的相关性较大,提高了数据采集的精准
度及数据价值密度。
在本发明的一种具体实施方式中,还包括:
链接过滤模块,用于在确定目标主题对应的目标网页链接之后、采集每个目标网
页链接对应的网页上的内容之前,对确定的目标主题对应的目标网页链接进行过滤处理。
在本发明的一种具体实施方式中,目标确定模块210,具体用于:
根据用户输入的关键词,确定目标主题和目标采集网站。
在本发明的一种具体实施方式中,结果数据确定模块240,包括:
关键词确定子模块,用于确定每条采集数据的关键词;
文本相似度确定子模块,用于确定目标主题与每条采集数据的关键词的文本相似
度;
结果数据确定子模块,用于针对每条采集数据,如果目标主题与该条采集数据的
关键词的文本相似度高于预设第一阈值,则将该条采集数据归并到结果数据集合中。
在本发明的一种具体实施方式中,关键词确定子模块,具体用于:
针对每条采集数据,对该条采集数据进行分词处理,获得该条采集数据的基础词
的集合;
确定每个基础词在该条采集数据中出现的频度;
将频度高于预设第二阈值的基础词确定为该条采集数据的关键词。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它
实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装
置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分
说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元
及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和
软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些
功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业
技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应
认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执
行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存
储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术
领域内所公知的任意其它形式的存储介质中。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说
明只是用于帮助理解本发明的技术方案及其核心思想。应当指出,对于本技术领域的普通
技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些
改进和修饰也落入本发明权利要求的保护范围内。