用户行为数据的处理方法及装置【技术领域】
本发明涉及互联网技术,尤其涉及一种用户行为数据的处理方法及装置。
【背景技术】
随着互联网行业的发展,应用(Application,APP)例如,Windows应用、安卓
(Android)应用、ios应用等,所提供的信息日渐丰富,其页面所展示的数据内容也随之越来
越丰富。用户几乎每天都在使用这些应用,获取自己想要的信息与服务。用户在操作每个应
用的时候,都会产生该用户的用户行为数据,对这些用户行为数据进行数据分析处理,能够
获得用户的某些特征,例如,用户年龄、用户爱好等。
然而,由于单独对用户操作某个应用所产生的用户行为数据进行数据分析处理所
获得的分析结果,可能会无法满足分析意图,例如,无法获得准确的用户特征,使得需要获
取额外的用户数据进行数据分析处理,才能够获得满足分析意图的分析结果,这样,会增加
处理引擎的数据处理量,从而导致了处理引擎的处理负担的增加。
【发明内容】
本发明的多个方面提供一种用户行为数据的处理方法及装置,用以降低处理引擎
的处理负担。
本发明的一方面,提供一种用户行为数据的处理方法,包括:
获取用户操作至少两个应用所产生的用户行为数据;
根据所述至少两个应用所产生的用户行为数据,进行数据融合处理,以获得融合
数据;
根据所述融合行为数据,获得所述用户的用户特征。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述应用包
括:
桌面电脑类型应用;或者
平板电脑类型应用;或者
手机类型应用。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述数据融
合处理采用下列融合方式中的至少一项:
特征融合方式;
权重融合方式;以及
预估值融合方式。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所
述至少两个应用所产生的用户行为数据,进行数据融合处理,以获得融合数据,包括:
对所述用户操作所述至少两个应用所产生的用户行为数据中每个应用所产生的
用户行为数据的用户标识进行映射处理,以建立所述用户的全局唯一标识;
根据所述用户的全局唯一标识,对所述每个应用所产生的用户行为数据,进行数
据融合处理,以获得所述融合数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所
述融合行为数据,获得所述用户的用户特征之后,还包括:
利用所述用户的用户特征和所述用户的当前操作,获得所述用户的行为意图。
本发明的另一方面,提供一种用户行为数据的处理装置,包括:
获取单元,用于获取用户操作至少两个应用所产生的用户行为数据;
融合单元,用于根据所述至少两个应用所产生的用户行为数据,进行数据融合处
理,以获得融合数据;
分析单元,用于根据所述融合行为数据,获得所述用户的用户特征。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述应用包
括:
桌面电脑类型应用;或者
平板电脑类型应用;或者
手机类型应用。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述数据融
合处理采用下列融合方式中的至少一项:
特征融合方式;
权重融合方式;以及
预估值融合方式。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述融合单
元,具体用于
对所述用户操作所述至少两个应用所产生的用户行为数据中每个应用所产生的
用户行为数据的用户标识进行映射处理,以建立所述用户的全局唯一标识;以及
根据所述用户的全局唯一标识,对所述每个应用所产生的用户行为数据,进行数
据融合处理,以获得所述融合数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述装置还
包括意图单元,用于
利用所述用户的用户特征和所述用户的当前操作,获得所述用户的行为意图。
由上述技术方案可知,本发明实施例通过获取用户操作至少两个应用所产生的用
户行为数据,进而根据所述至少两个应用所产生的用户行为数据,进行数据融合处理,以获
得融合数据,使得能够根据所述融合行为数据,获得所述用户的用户特征,由于不再单独对
用户操作某个应用所产生的用户行为数据进行数据分析处理,而是综合考虑了多个用户操
作多个应用所产生的用户行为数据,使得分析结果能够基本满足用户的分析意图,因此,能
够避免现有技术中由于获取额外的用户数据进行数据分析处理而导致的增加处理引擎的
数据处理量的问题,从而降低了处理引擎的处理负担。
另外,采用本发明所提供的技术方案,由于不再单独对用户操作某个应用所产生
的用户行为数据进行数据分析处理,而是综合考虑了多个用户操作多个应用所产生的用户
行为数据,使得分析结果能够基本满足用户的分析意图,因此,有效提高用户行为数据的处
理的可靠性和有效性。
另外,采用本发明所提供的技术方案,由于不再单独对用户操作某个应用所产生
的用户行为数据进行数据分析处理,而是综合考虑了多个用户操作多个应用所产生的用户
行为数据,使得分析结果能够基本满足用户的分析意图,因此,能够极大提升用户体验。
【附图说明】
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述
中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实
施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附
图获得其他的附图。
图1为本发明一实施例提供的用户行为数据的处理方法的流程示意图;
图2为本发明另一实施例提供的用户行为数据的处理装置的结构示意图;
图3为本发明另一实施例提供的用户行为数据的处理装置的结构示意图。
【具体实施方式】
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例
中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是
本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员
在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例中所涉及的终端可以包括但不限于手机、个人数字
助理(Personal Digital Assistant,PDA)、无线手持设备、平板电脑(Tablet Computer)、
个人电脑(Personal Computer,PC)、MP3播放器、MP4播放器、可穿戴设备(例如,智能眼镜、
智能手表、智能手环等)等。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在
三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另
外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
图1为本发明一实施例提供的用户行为数据的处理方法的流程示意图,如图1所
示。
101、获取用户操作至少两个应用所产生的用户行为数据。
可选地,在本实施例的一个可能的实现方式中,在101中,所谓的应用可以为不同
类型的应用,可以为桌面电脑类型应用,或者还可以为平板电脑类型应用,或者还可以为手
机类型应用,本实施例对此不进行特别限定。
102、根据所述至少两个应用所产生的用户行为数据,进行数据融合处理,以获得
融合数据。
103、根据所述融合行为数据,获得所述用户的用户特征。
本发明中,所获得的所述用户的用户特征,是指用于刻画与定位用户的相关信息,
可以包括但不限于下列信息中的至少一项:
用户的性别;
用户的年龄;
用户的职业;
用户的学历;以及
用户的爱好。
需要说明的是,101~103的执行主体的部分或全部可以为位于本地终端的应用,
例如,输入法应用、手机百度应用、手机淘宝应用、PC浏览器应用等,或者还可以为设置在位
于本地终端的应用中的插件或软件开发工具包(Software Development Kit,SDK)等功能
单元,或者还可以为位于网络侧服务器中的处理引擎,或者还可以为位于网络侧的分布式
系统,本实施例对此不进行特别限定。
可以理解的是,所述应用可以是安装在终端上的本地程序(nativeApp),或者还可
以是终端上的浏览器的一个网页程序(webApp),本实施例对此不进行特别限定。
这样,通过获取用户操作至少两个应用所产生的用户行为数据,进而根据所述至
少两个应用所产生的用户行为数据,进行数据融合处理,以获得融合数据,使得能够根据所
述融合行为数据,获得所述用户的用户特征,由于不再单独对用户操作某个应用所产生的
用户行为数据进行数据分析处理,而是综合考虑了多个用户操作多个应用所产生的用户行
为数据,使得分析结果能够基本满足用户的分析意图,因此,能够避免现有技术中由于获取
额外的用户数据进行数据分析处理而导致的增加处理引擎的数据处理量的问题,从而降低
了处理引擎的处理负担。
可选地,在本实施例的一个可能的实现方式中,在101中,所获取的所述用户行为
数据可以包括但不限于用户搜索日志、用户浏览日志和用户输入日志中的至少一项,本实
施例对此不进行特别限定。
在一个具体的实现过程中,具体可以从全网数据源(即产品线的数据来源)例如,
百度百科(baike)、百度论坛(forum)或百度地图(map)等中,获取用户行为数据。
具体地,在全网的数据源中,用户的一个行为日志可以为如下格式:[uid URL
source query title date time ip actid actname actattr unifyUrl PtNumber
commonQuery]。其中,共包括14个字段,各字段的含义如下所述:
用户标识(User ID,uid):baiduid映射出来的用户id,由若干数字组成;
统一资源定位符(Uniform Resource Locator,URL):可能为空,或可能不以
“http”开头;
数据源(source):产品线的数据来源,例如,百度百科(baike)、百度论坛(forum)
或百度地图(map);
检索关键词(query):可能为空;
题目(title):网页名称;
日期(date):例如,2013年6月3日,其格式一般可以为“20120603”;
时间(time):例如,12点34分02秒,其格式一般可以为12:34:02;
ip:IP地址;
动作标识(actid):网页动作的标识;
动作名称(actname):网页动作的名称;
动作属性(actattr):网页动作的属性;
归一化URL(unifyUrl):URL的归一化结果;
URL资源类型(PtNumber):整数显示,默认‘‐’(即‘0’);
通用Query(commonQuery):URL最常用的Query。
由于每个应用对用户的标识可能会不一致,使得每个应用所产生的用户行为数据
中,用户标识可能并不一致,从而无法识别哪些用户行为数据是属于同一个用户的。因此,
需要对不同应用所产生的同一个用户的用户行为数据进行标识。
可选地,在本实施例的一个可能的实现方式中,在102中,具体可以对所述用户操
作所述至少两个应用所产生的用户行为数据中每个应用所产生的用户行为数据的用户标
识进行映射处理,以建立所述用户的全局唯一标识,进而,可以根据所述用户的全局唯一标
识,对所述每个应用所产生的用户行为数据,进行数据融合处理,以获得所述融合数据。
具体地,在102中,所进行的所述数据融合处理可以采用但不限于下列融合方式中
的至少一项:
特征融合方式;
权重融合方式;以及
预估值融合方式。
上述每种融合方式的详细描述可以参见现有技术中的相关内容,此处不再赘述。
可选地,在本实施例的一个可能的实现方式中,在103之后,还可以进一步利用所
述用户的用户特征和所述用户的当前操作,获得所述用户的行为意图。
本发明,考虑用户的多途径的上网方式,通过网络闭环,将用户在多个终端间的上
网行为或同一个终端不同应用间的上网行为,进行归一化分析。同时辅以数据融合处理例
如,特征融合处理方式、权重融合处理方式、预估值融合处理方式等融合方式,将用户在多
个终端间上网行为所产生的用户行为数据或同一个终端不同应用间上网行为所产生的用
户行为数据进行迁移和共享。通过上述方式,从理论上可以更准确细致地刻画用户行为,理
解用户意图,从而使得互联网服务公司能更准确的为用户提供需要的服务,减少用户请求
服务的时间和空间成本,实现用户和互联网公司的共赢。
本实施例中,通过获取用户操作至少两个应用所产生的用户行为数据,进而根据
所述至少两个应用所产生的用户行为数据,进行数据融合处理,以获得融合数据,使得能够
根据所述融合行为数据,获得所述用户的用户特征,由于不再单独对用户操作某个应用所
产生的用户行为数据进行数据分析处理,而是综合考虑了多个用户操作多个应用所产生的
用户行为数据,使得分析结果能够基本满足用户的分析意图,因此,能够避免现有技术中由
于获取额外的用户数据进行数据分析处理而导致的增加处理引擎的数据处理量的问题,从
而降低了处理引擎的处理负担。
另外,采用本发明所提供的技术方案,由于不再单独对用户操作某个应用所产生
的用户行为数据进行数据分析处理,而是综合考虑了多个用户操作多个应用所产生的用户
行为数据,使得分析结果能够基本满足用户的分析意图,因此,有效提高用户行为数据的处
理的可靠性和有效性。
另外,采用本发明所提供的技术方案,由于不再单独对用户操作某个应用所产生
的用户行为数据进行数据分析处理,而是综合考虑了多个用户操作多个应用所产生的用户
行为数据,使得分析结果能够基本满足用户的分析意图,因此,能够极大提升用户体验。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列
的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为
依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知
悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明
所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部
分,可以参见其他实施例的相关描述。
图2为本发明另一实施例提供的用户行为数据的处理装置的结构示意图,如图2所
示。本实施例的用户行为数据的处理装置可以包括获取单元21、融合单元22和分析单元23。
其中,获取单元21,用于获取用户操作至少两个应用所产生的用户行为数据;融合单元22,
用于根据所述至少两个应用所产生的用户行为数据,进行数据融合处理,以获得融合数据;
分析单元23,用于根据所述融合行为数据,获得所述用户的用户特征。
可选地,在本实施例的一个可能的实现方式中,所谓的应用可以为不同类型的应
用,可以为桌面电脑类型应用,或者还可以为平板电脑类型应用,或者还可以为手机类型应
用,本实施例对此不进行特别限定。
需要说明的是,本实施例所提供的用户行为数据的处理装置的部分或全部可以为
位于本地终端的应用,例如,输入法应用等,或者还可以为设置在位于本地终端的应用中的
插件或软件开发工具包(Software Development Kit,SDK)等功能单元,或者还可以为位于
网络侧服务器中的处理引擎,或者还可以为位于网络侧的分布式系统,本实施例对此不进
行特别限定。
可以理解的是,所述应用可以是安装在终端上的本地程序(nativeApp),或者还可
以是终端上的浏览器的一个网页程序(webApp),本实施例对此不进行特别限定。
可选地,在本实施例的一个可能的实现方式中,所述融合单元22所进行的所述数
据融合处理可以采用但不限于下列融合方式中的至少一项:
特征融合方式;
权重融合方式;以及
预估值融合方式。
可选地,在本实施例的一个可能的实现方式中,所述融合单元22,具体可以用于对
所述用户操作所述至少两个应用所产生的用户行为数据中每个应用所产生的用户行为数
据的用户标识进行映射处理,以建立所述用户的全局唯一标识;以及根据所述用户的全局
唯一标识,对所述每个应用所产生的用户行为数据,进行数据融合处理,以获得所述融合数
据。
可选地,在本实施例的一个可能的实现方式中,如图3所示,本实施例所提供的用
户行为数据的处理装置还可以进一步包括意图单元31,用于利用所述用户的用户特征和所
述用户的当前操作,获得所述用户的行为意图。
本发明,考虑用户的多途径的上网方式,通过网络闭环,将用户在多个终端间的上
网行为或同一个终端不同应用间的上网行为,进行归一化分析。同时辅以数据融合处理例
如,特征融合处理方式、权重融合处理方式、预估值融合处理方式等融合方式,将用户在多
个终端间上网行为所产生的用户行为数据或同一个终端不同应用间上网行为所产生的用
户行为数据进行迁移和共享。通过上述方式,从理论上可以更准确细致地刻画用户行为,理
解用户意图,从而使得互联网服务公司能更准确的为用户提供需要的服务,减少用户请求
服务的时间和空间成本,实现用户和互联网公司的共赢。
需要说明的是,图1对应的实施例中方法,可以由本实施例提供的用户行为数据的
处理装置实现。详细描述可以参见图1对应的实施例中的相关内容,此处不再赘述。
本实施例中,通过获取单元获取用户操作至少两个应用所产生的用户行为数据,
进而由融合单元根据所述至少两个应用所产生的用户行为数据,进行数据融合处理,以获
得融合数据,使得分析单元能够根据所述融合行为数据,获得所述用户的用户特征,由于不
再单独对用户操作某个应用所产生的用户行为数据进行数据分析处理,而是综合考虑了多
个用户操作多个应用所产生的用户行为数据,使得分析结果能够基本满足用户的分析意
图,因此,能够避免现有技术中由于获取额外的用户数据进行数据分析处理而导致的增加
处理引擎的数据处理量的问题,从而降低了处理引擎的处理负担。
另外,采用本发明所提供的技术方案,由于不再单独对用户操作某个应用所产生
的用户行为数据进行数据分析处理,而是综合考虑了多个用户操作多个应用所产生的用户
行为数据,使得分析结果能够基本满足用户的分析意图,因此,有效提高用户行为数据的处
理的可靠性和有效性。
另外,采用本发明所提供的技术方案,由于不再单独对用户操作某个应用所产生
的用户行为数据进行数据分析处理,而是综合考虑了多个用户操作多个应用所产生的用户
行为数据,使得分析结果能够基本满足用户的分析意图,因此,能够极大提升用户体验。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,
装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以
通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的
划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组
件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示
或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接
耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显
示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个
网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目
的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以
是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单
元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存
储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机
装置(可以是个人计算机,服务器,或者网络装置等)或处理器(processor)执行本发明各个
实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-
Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种
可以存储程序代码的介质。
最后应说明的是,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管
参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可
以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;
而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和
范围。