书签 分享 收藏 举报 版权申诉 / 23

多媒体资源的推荐方法及装置.pdf

  • 上传人:Y0****01
  • 文档编号:6027120
  • 上传时间:2019-04-03
  • 格式:PDF
  • 页数:23
  • 大小:1.42MB
  • 摘要
    申请专利号:

    CN201610817968.2

    申请日:

    2016.09.12

    公开号:

    CN106354867A

    公开日:

    2017.01.25

    当前法律状态:

    实审

    有效性:

    审中

    法律详情:

    实质审查的生效IPC(主分类):G06F 17/30申请日:20160912|||公开

    IPC分类号:

    G06F17/30

    主分类号:

    G06F17/30

    申请人:

    传线网络科技(上海)有限公司

    发明人:

    刘荣; 赵磊; 单明辉; 王建宇; 顾思斌; 潘柏宇; 王冀

    地址:

    200241 上海市闵行区东川路555号戊楼2层02室

    优先权:

    专利代理机构:

    北京林达刘知识产权代理事务所(普通合伙) 11277

    代理人:

    刘新宇

    PDF完整版下载: PDF下载
    内容摘要

    本发明涉及一种多媒体资源的推荐方法及装置。所述多媒体资源的推荐方法,包括:根据各待推荐多媒体资源的标题信息,分别确定各所述待推荐多媒体资源的特征;根据各所述待推荐多媒体资源的特征,分别确定各所述待推荐多媒体资源所归属的类别;根据各所述待推荐多媒体资源所归属的类别,生成多媒体资源推荐结果。本发明实施例的多媒体资源的推荐方法,能够丰富推荐信息中多媒体资源的类别,提高多媒体资源的多样性。

    权利要求书

    1.一种多媒体资源的推荐方法,其特征在于,包括:
    根据各待推荐多媒体资源的标题信息,分别确定各所述待推荐多媒体资源的特征;
    根据各所述待推荐多媒体资源的特征,分别确定各所述待推荐多媒体资源所归属的类
    别;
    根据各所述待推荐多媒体资源所归属的类别,生成多媒体资源推荐结果。
    2.根据权利要求1所述的方法,其特征在于,根据各待推荐多媒体资源的标题信息,分
    别确定各所述待推荐多媒体资源的特征,包括:
    获取各所述待推荐多媒体资源的标题信息;
    对各所述标题信息进行分词,得到各所述标题信息对应的词;
    根据各所述标题信息对应的词,分别确定各所述待推荐多媒体资源的特征。
    3.根据权利要求1所述的方法,其特征在于,根据各所述待推荐多媒体资源的特征,分
    别确定各所述待推荐多媒体资源所归属的类别,包括:
    根据各所述待推荐多媒体资源的特征和各类别的中心向量,分别计算各所述待推荐多
    媒体资源与各类别的距离;
    根据各所述待推荐多媒体资源与各类别的距离,分别确定各所述待推荐多媒体资源所
    归属的类别。
    4.根据权利要求2所述的方法,其特征在于,根据各所述标题信息对应的词,分别确定
    各所述待推荐多媒体资源的特征,包括:
    根据各所述标题信息对应的词,分别采用式1计算各所述标题信息的第一特征,

    其中,所述标题信息对应的词为Title(v)={w1,w2,…,wk};k表示所述标题信息对应
    的词的总个数;Ni表示第i个词wi在所述标题信息中出现的次数;Nj表示第j个词wj在所述标
    题信息中出现的次数;i,j表示所述标题信息对应的词的标号,i,j的取值范围为[1,k];tfi
    表示第i个词wi对应的第一特征;
    根据各所述标题信息对应的词和多媒体资源的总数,分别采用式2计算各所述标题信
    息的第二特征,

    其中,|D|表示多媒体资源的总个数;|Di|表示标题信息中包括第i个词wi的多媒体资源
    的个数;idfi表示第i个词wi对应的第二特征;
    根据所述第一特征和所述第二特征,分别采用式3计算各所述标题信息的第三特征,
    tfidfi=tfi×idfi 式3,
    其中,tfidfi表示第i个词wi对应的第三特征。
    5.根据权利要求3所述的方法,其特征在于,根据各所述待推荐多媒体资源的特征和各
    类别的中心向量,分别计算各所述待推荐多媒体资源与各类别的距离,包括:
    根据各所述待推荐多媒体资源的特征和各类别的中心向量,分别采用式4计算各所述
    待推荐多媒体资源与各类别的距离,
    s(vn,cm)=cosin(f(vn),qm) 式4,
    其中,n表示待推荐多媒体资源vn对应的标号,n为整数;m表示类别cm对应的标号,m为整
    数;qm表示类别cm的中心向量;f(vn)表示待推荐多媒体资源vn的特征;s(vn,cm)表示待推荐
    多媒体资源vn与类别cm的距离。
    6.根据权利要求5所述的方法,其特征在于,根据各所述待推荐多媒体资源与各类别的
    距离,分别确定各所述待推荐多媒体资源所归属的类别,包括:
    根据各所述待推荐多媒体资源与各类别的距离,分别采用式5确定各所述待推荐多媒
    体资源所归属的类别,

    其中,h(vn)表示s(vn,cm)取最大值时m的值,各所述待推荐多媒体资源所归属的类别为
    与各所述多媒体资源距离最近的类别。
    7.根据权利要求1至6中任一项所述的方法,其特征在于,根据各所述待推荐多媒体资
    源所归属的类别,生成多媒体资源推荐结果,包括:
    根据各所述待推荐多媒体资源所归属的类别,确定各类别中所包括的各所述待推荐多
    媒体资源的排序结果;
    根据所述排序结果,生成所述多媒体资源推荐结果。
    8.一种多媒体资源的推荐装置,其特征在于,包括:
    特征确定模块,用于根据各待推荐多媒体资源的标题信息,分别确定各所述待推荐多
    媒体资源的特征;
    类别确定模块,与所述特征确定模块连接,用于根据各所述待推荐多媒体资源的特征,
    分别确定各所述待推荐多媒体资源所归属的类别;
    推荐结果生成模块,与所述类别确定模块连接,用于根据各所述待推荐多媒体资源所
    归属的类别,生成多媒体资源推荐结果。
    9.根据权利要求8所述的装置,其特征在于,所述特征确定模块包括:
    标题信息获取单元,用于获取各所述待推荐多媒体资源的标题信息;
    标题信息分词单元,与所述标题信息获取单元连接,用于对各所述标题信息进行分词,
    得到各所述标题信息对应的词;
    特征确定单元,与所述标题信息分词单元连接,用于根据各所述标题信息对应的词,分
    别确定各所述待推荐多媒体资源的特征。
    10.根据权利要求8所述的装置,其特征在于,所述类别确定模块包括:
    距离计算单元,用于根据各所述待推荐多媒体资源的特征和各类别的中心向量,分别
    计算各所述待推荐多媒体资源与各类别的距离;
    类别确定单元,与所述距离计算单元连接,用于根据各所述待推荐多媒体资源与各类
    别的距离,分别确定各所述待推荐多媒体资源所归属的类别。
    11.根据权利要求9所述的装置,其特征在于,
    所述特征确定单元,用于根据各所述标题信息对应的词,分别采用式1计算各所述标题
    信息的第一特征,

    其中,所述标题信息对应的词为Title(v)={w1,w2,…,wk};k表示所述标题信息对应
    的词的总个数;Ni表示第i个词wi在所述标题信息中出现的次数;Nj表示第j个词wj在所述标
    题信息中出现的次数;i,j表示所述标题信息对应的词的标号,i,j的取值范围为[1,k];tfi
    表示第i个词wi对应的第一特征;
    所述特征确定单元,还用于根据各所述标题信息对应的词和多媒体资源的总数,分别
    采用式2计算各所述标题信息的第二特征,

    其中,|D|表示多媒体资源的总个数;|Di|表示标题信息中包括第i个词wi的多媒体资源
    的个数;idfi表示第i个词wi对应的第二特征;
    所述特征确定单元,还用于根据所述第一特征和所述第二特征,分别采用式3计算各所
    述标题信息的第三特征,
    tfidfi=tfi×idfi 式3,
    其中,tfidfi表示第i个词wi对应的第三特征。
    12.根据权利要求10所述的装置,其特征在于,
    所述距离计算单元,用于根据各所述待推荐多媒体资源的特征和各类别的中心向量,
    分别采用式4计算各所述待推荐多媒体资源与各类别的距离,
    s(vn,cm)=cosin(f(vn),qm) 式4,
    其中,n表示待推荐多媒体资源vn对应的标号,n为整数;m表示类别cm对应的标号,m为整
    数;qm表示类别cm的中心向量;f(vn)表示待推荐多媒体资源vn的特征;s(vn,cm)表示待推荐
    多媒体资源vn与类别cm的距离。
    13.根据权利要求12所述的装置,其特征在于,
    所述类别确定单元,用于根据各所述待推荐多媒体资源与各类别的距离,分别采用式5
    确定各所述待推荐多媒体资源所归属的类别,

    其中,h(vn)表示s(vn,cm)取最大值时m的值,各所述待推荐多媒体资源所归属的类别为
    与各所述多媒体资源距离最近的类别。
    14.根据权利要求8至13中任一项所述的装置,其特征在于,所述推荐结果生成模块包
    括:
    排序结果确定单元,用于根据各所述待推荐多媒体资源所归属的类别,确定各类别中
    所包括的各所述待推荐多媒体资源的排序结果;
    推荐结果生成单元,与所述排序结果确定单元连接,用于根据所述排序结果,生成所述
    多媒体资源推荐结果。

    说明书

    多媒体资源的推荐方法及装置

    技术领域

    本发明涉及多媒体领域,尤其涉及一种多媒体资源的推荐方法及装置。

    背景技术

    在互联网时代,特别是移动互联网时代,如何为用户提供及时且有价值的信息是
    众多互联网公司研究的热点。近年来,随着机器学习系统的发展,推荐系统开始支持个性化
    的推荐策略。

    目前,对多媒体资源的推荐,大多致力于改进推荐系统的预测准确性,从而提高推
    荐信息的点击率。相关技术中,对多媒体资源的多样性往往考虑不多。以视频推荐为例,视
    频的多样性往往依靠视频频道、兴趣标签以及上传者的标注等信息,例如,控制每个视频频
    道下的视频的推荐个数。

    采用上述推荐方法,视频的多样性来源于人工规则(视频频道、兴趣标签以及上传
    者的标注等信息),具有较多的噪声且多样性选择不具有自适应性。

    发明内容

    技术问题

    有鉴于此,本发明要解决的技术问题是,提供一种多媒体资源的推荐方法,丰富推
    荐信息中多媒体资源的类别,提高多媒体资源的多样性。

    解决方案

    为了解决上述技术问题,根据本发明的一实施例,提供了一种多媒体资源的推荐
    方法,包括:

    根据各待推荐多媒体资源的标题信息,分别确定各所述待推荐多媒体资源的特
    征;

    根据各所述待推荐多媒体资源的特征,分别确定各所述待推荐多媒体资源所归属
    的类别;

    根据各所述待推荐多媒体资源所归属的类别,生成多媒体资源推荐结果。

    对于上述方法,在一种可能的实现方式中,根据各待推荐多媒体资源的标题信息,
    分别确定各所述待推荐多媒体资源的特征,包括:

    获取各所述待推荐多媒体资源的标题信息;

    对各所述标题信息进行分词,得到各所述标题信息对应的词;

    根据各所述标题信息对应的词,分别确定各所述待推荐多媒体资源的特征。

    对于上述方法,在一种可能的实现方式中,根据各所述待推荐多媒体资源的特征,
    分别确定各所述待推荐多媒体资源所归属的类别,包括:

    根据各所述待推荐多媒体资源的特征和各类别的中心向量,分别计算各所述待推
    荐多媒体资源与各类别的距离;

    根据各所述待推荐多媒体资源与各类别的距离,分别确定各所述待推荐多媒体资
    源所归属的类别。

    对于上述方法,在一种可能的实现方式中,根据各所述标题信息对应的词,分别确
    定各所述待推荐多媒体资源的特征,包括:

    根据各所述标题信息对应的词,分别采用式1计算各所述标题信息的第一特征,



    其中,所述标题信息对应的词为Title(v)={w1,w2,…,wk};k表示所述标题信息
    对应的词的总个数;Ni表示第i个词wi在所述标题信息中出现的次数;Nj表示第j个词wj在所
    述标题信息中出现的次数;i,j表示所述标题信息对应的词的标号,i,j的取值范围为[1,
    k];tfi表示第i个词wi对应的第一特征;

    根据各所述标题信息对应的词和多媒体资源的总数,分别采用式2计算各所述标
    题信息的第二特征,



    其中,|D|表示多媒体资源的总个数;|Di|表示标题信息中包括第i个词wi的多媒
    体资源的个数;idfi表示第i个词wi对应的第二特征;

    根据所述第一特征和所述第二特征,分别采用式3计算各所述标题信息的第三特
    征,

    tfidfi=tfi×idfi 式3,

    其中,tfidfi表示第i个词wi对应的第三特征。

    对于上述方法,在一种可能的实现方式中,根据各所述待推荐多媒体资源的特征
    和各类别的中心向量,分别计算各所述待推荐多媒体资源与各类别的距离,包括:

    根据各所述待推荐多媒体资源的特征和各类别的中心向量,分别采用式4计算各
    所述待推荐多媒体资源与各类别的距离,

    s(vn,cm)=cosin(f(vn),qm) 式4,

    其中,n表示待推荐多媒体资源vn对应的标号,n为整数;m表示类别cm对应的标号,m
    为整数;qm表示类别cm的中心向量;f(vn)表示待推荐多媒体资源vn的特征;s(vn,cm)表示待
    推荐多媒体资源vn与类别cm的距离。

    对于上述方法,在一种可能的实现方式中,根据各所述待推荐多媒体资源与各类
    别的距离,分别确定各所述待推荐多媒体资源所归属的类别,包括:

    根据各所述待推荐多媒体资源与各类别的距离,分别采用式5确定各所述待推荐
    多媒体资源所归属的类别,



    其中,h(vn)表示s(vn,cm)取最大值时m的值,各所述待推荐多媒体资源所归属的类
    别为与各所述多媒体资源距离最近的类别。

    对于上述方法,在一种可能的实现方式中,根据各所述待推荐多媒体资源所归属
    的类别,生成多媒体资源推荐结果,包括:

    根据各所述待推荐多媒体资源所归属的类别,确定各类别中所包括的各所述待推
    荐多媒体资源的排序结果;

    根据所述排序结果,生成所述多媒体资源推荐结果。

    为了解决上述技术问题,根据本发明的另一实施例,提供了一种多媒体资源的推
    荐装置,包括:

    特征确定模块,用于根据各待推荐多媒体资源的标题信息,分别确定各所述待推
    荐多媒体资源的特征;

    类别确定模块,与所述特征确定模块连接,用于根据各所述待推荐多媒体资源的
    特征,分别确定各所述待推荐多媒体资源所归属的类别;

    推荐结果生成模块,与所述类别确定模块连接,用于根据各所述待推荐多媒体资
    源所归属的类别,生成多媒体资源推荐结果。

    对于上述装置,在一种可能的实现方式中,所述特征确定模块包括:

    标题信息获取单元,用于获取各所述待推荐多媒体资源的标题信息;

    标题信息分词单元,与所述标题信息获取单元连接,用于对各所述标题信息进行
    分词,得到各所述标题信息对应的词;

    特征确定单元,与所述标题信息分词单元连接,用于根据各所述标题信息对应的
    词,分别确定各所述待推荐多媒体资源的特征。

    对于上述装置,在一种可能的实现方式中,所述类别确定模块包括:

    距离计算单元,用于根据各所述待推荐多媒体资源的特征和各类别的中心向量,
    分别计算各所述待推荐多媒体资源与各类别的距离;

    类别确定单元,与所述距离计算单元连接,用于根据各所述待推荐多媒体资源与
    各类别的距离,分别确定各所述待推荐多媒体资源所归属的类别。

    对于上述装置,在一种可能的实现方式中,

    所述特征确定单元,用于根据各所述标题信息对应的词,分别采用式1计算各所述
    标题信息的第一特征,



    其中,所述标题信息对应的词为Title(v)={w1,w2,…,wk};k表示所述标题信息
    对应的词的总个数;Ni表示第i个词wi在所述标题信息中出现的次数;Nj表示第j个词wj在所
    述标题信息中出现的次数;i,j表示所述标题信息对应的词的标号,i,j的取值范围为[1,
    k];tfi表示第i个词wi对应的第一特征;

    所述特征确定单元,还用于根据各所述标题信息对应的词和多媒体资源的总数,
    分别采用式2计算各所述标题信息的第二特征,



    其中,|D|表示多媒体资源的总个数;|Di|表示标题信息中包括第i个词wi的多媒
    体资源的个数;idfi表示第i个词wi对应的第二特征;

    所述特征确定单元,还用于根据所述第一特征和所述第二特征,分别采用式3计算
    各所述标题信息的第三特征,

    tfidfi=tfi×idfi 式3,

    其中,tfidfi表示第i个词wi对应的第三特征。

    对于上述装置,在一种可能的实现方式中,

    所述距离计算单元,用于根据各所述待推荐多媒体资源的特征和各类别的中心向
    量,分别采用式4计算各所述待推荐多媒体资源与各类别的距离,

    s(vn,cm)=cosin(f(vn),qm) 式4,

    其中,n表示待推荐多媒体资源vn对应的标号,n为整数;m表示类别cm对应的标号,m
    为整数;qm表示类别cm的中心向量;f(vn)表示待推荐多媒体资源vn的特征;s(vn,cm)表示待
    推荐多媒体资源vn与类别cm的距离。

    对于上述装置,在一种可能的实现方式中,

    所述类别确定单元,用于根据各所述待推荐多媒体资源与各类别的距离,分别采
    用式5确定各所述待推荐多媒体资源所归属的类别,



    其中,h(vn)表示s(vn,cm)取最大值时m的值,各所述待推荐多媒体资源所归属的类
    别为与各所述多媒体资源距离最近的类别。

    对于上述装置,在一种可能的实现方式中,所述推荐结果生成模块包括:

    排序结果确定单元,用于根据各所述待推荐多媒体资源所归属的类别,确定各类
    别中所包括的各所述待推荐多媒体资源的排序结果;

    推荐结果生成单元,与所述排序结果确定单元连接,用于根据所述排序结果,生成
    所述多媒体资源推荐结果。

    有益效果

    本发明实施例的多媒体资源的推荐方法,可以根据各待推荐多媒体资源的标题信
    息,分别确定各待推荐多媒体资源所归属的类别,并根据各待推荐多媒体资源所归属的类
    别,生成多媒体资源推荐结果。本发明实施例的多媒体资源的推荐方法,能够丰富推荐信息
    中多媒体资源的类别,提高多媒体资源的多样性。

    根据下面参考附图对示例性实施例的详细说明,本发明的其它特征及方面将变得
    清楚。

    附图说明

    包括在说明书中并且构成说明书的一部分的附图与说明书一起示出了本发明的
    示例性实施例、特征和方面,并且用于解释本发明的原理。

    图1示出根据本发明一实施例的多媒体资源的推荐方法的流程图;

    图2示出根据本发明一实施例的多媒体资源的推荐方法的另一流程图;

    图3示出根据本发明一实施例的多媒体资源的推荐方法的另一流程图;

    图4示出根据本发明一实施例的多媒体资源的推荐方法的另一流程图;

    图5示出根据本发明另一实施例的多媒体资源的推荐装置的结构框图;

    图6示出根据本发明另一实施例的多媒体资源的推荐装置的另一结构框图;

    图7示出根据本发明另一实施例的多媒体资源的推荐装置的另一结构框图;

    图8示出根据本发明另一实施例的多媒体资源的推荐装置的另一结构框图;

    图9示出根据本发明另一实施例的多媒体资源的推荐装置的另一结构框图。

    具体实施方式

    以下将参考附图详细说明本发明的各种示例性实施例、特征和方面。附图中相同
    的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除
    非特别指出,不必按比例绘制附图。

    在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”
    所说明的任何实施例不必解释为优于或好于其它实施例。

    另外,为了更好的说明本发明,在下文的具体实施方式中给出了众多的具体细节。
    本领域技术人员应当理解,没有某些具体细节,本发明同样可以实施。在一些实例中,对于
    本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本发明的主旨。

    实施例1

    图1示出根据本发明一实施例的多媒体资源的推荐方法的流程图。如图1所示,该
    多媒体资源的推荐方法,可以包括:

    在步骤S101中,根据各待推荐多媒体资源的标题信息,分别确定各所述待推荐多
    媒体资源的特征。

    在步骤S102中,根据各所述待推荐多媒体资源的特征,分别确定各所述待推荐多
    媒体资源所归属的类别。

    在步骤S103中,根据各所述待推荐多媒体资源所归属的类别,生成多媒体资源推
    荐结果。

    本发明实施例的多媒体资源(Multimedia),可以包括例如文本、声音、视频和图像
    等各种媒体形式。其中,待推荐多媒体资源可以包括从多媒体资源库中获取的能够用于生
    成多媒体资源推荐结果的多媒体资源。本发明实施例不限定待推荐多媒体资源的具体应用
    场景。举例而言,在视频网站上,在用户输入搜索关键词的情况下,可以获取与搜索关键词
    相关的待推荐视频;在用户请求播放目标视频的情况下,可以获取与目标视频相关的待推
    荐视频。

    需要说明的是,本领域技术人员应当能够理解,可以采用各种方式获取各待推荐
    多媒体资源,对此不作限定。例如,针对用户正在观看的目标视频进行推荐,可以根据与目
    标视频的相关度(例如属于系列片、具有相同的演员或导演等)获取待推荐视频,也可以根
    据一段时间(例如3天或1周)内的浏览热度获取待推荐视频,对此不作限定。

    其中,待推荐多媒体资源的标题信息可以是用于标明多媒体资源的简短语句。本
    发明实施例不限定标题信息的具体形式。举例而言,标题信息可以是能够反映多媒体资源
    内容的标题信息,例如,“中国女排隔12年再夺奥运冠军”。标题信息也可以是多媒体资源常
    用的名称,例如,“西游记”、“使徒行者”。本发明实施例的待推荐多媒体资源的特征可以包
    括与待推荐多媒体资源的标题信息相关的参数。例如,特征可以是TF(Term Frequency,词
    频)、IDF(Inverse Document Frequency,逆向文件频率)等,对此不作限定。

    进一步地,根据待推荐多媒体资源的特征,可以确定待推荐多媒体资源所归属的
    类别。其中,类别可以用于对多媒体资源进行分类。本发明实施例不限定待推荐多媒体资源
    的类别的确定方式。例如,可以通过K-mens(K均值)聚类算法对多媒体资源的标题信息进行
    聚类,找到标题信息聚类的中心向量,从而确定多媒体资源所归属的类别。

    本发明实施例不限定待推荐多媒体资源所归属的类别的确定时间。作为本发明实
    施例的一个示例,可以针对多媒体资源库中包括的各种多媒体资源,在线下确定每个多媒
    体资源所归属的类别并进行存储。在推荐过程中,可以针对线上获取的待推荐多媒体资源,
    从已经存储的多媒体资源对应的类别库中获取每个待推荐多媒体资源所归属的类别。作为
    本发明实施例的另一个示例,在推荐过程中,可以针对线上获取的待推荐多媒体资源,在线
    上或线下确定每个待推荐多媒体资源所归属的类别。

    在一种可能的实现方式中,如图2所示,根据各待推荐多媒体资源的标题信息,分
    别确定各所述待推荐多媒体资源的特征(步骤101),可以包括:

    在步骤S201中,获取各所述待推荐多媒体资源的标题信息。

    在步骤S202中,对各所述标题信息进行分词,得到各所述标题信息对应的词。

    在步骤S203中,根据各所述标题信息对应的词,分别确定各所述待推荐多媒体资
    源的特征。

    本发明实施例中,对标题信息进行分词可以是将标题信息中的汉字序列切分成一
    个个单独的词。分词通常是文本挖掘的基础,对于输入的一段文字进行合理的分词,可以使
    得设备(例如计算机、手机、服务器等)达到自动识别语句含义的效果。分词的方法以及准确
    度通常可以直接影响到对推荐结果的相关度排序。本发明实施例不限定分词的具体方法,
    例如,可以包括基于字符串匹配的分词方法、基于理解的分词方法或基于统计的分词方法
    等。

    作为本发明实施例的一个示例,假设获取的各待推荐多媒体资源为例如
    Multimedia={v1,v2,…,vK}。其中,K表示待推荐多媒体资源的总个数,v1表示第1个待推荐
    多媒体资源,v2表示第2个待推荐多媒体资源,依次类推,vK表示第K个多媒体资源。进一步
    地,对于第n个待推荐多媒体资源vn的标题信息行分词,得到标题信息对应的词为Title(vn)
    ={w1,w2,…,wk}。其中,k表示标题信息对应的词的总个数,w1表示第1个词,w2表示第2个
    词,依次类推,wk表示第k个词。

    在一种可能的实现方式中,根据各所述标题信息对应的词,分别确定各所述待推
    荐多媒体资源的特征(步骤203),可以包括:

    根据各所述标题信息对应的词,分别采用式1计算各所述标题信息的第一特征,



    其中,所述标题信息对应的词为Title(vn)={w1,w2,…,wk};k表示所述标题信息
    对应的词的总个数,通常为大于或等于1的正整数;Ni表示第i个词wi在所述标题信息中出
    现的次数;Nj表示第j个词wj在所述标题信息中出现的次数;i,j表示所述标题信息对应的
    词的标号,i,j的取值范围为[1,k];tfi表示第i个词wi对应的第一特征;

    根据各所述标题信息对应的词和多媒体资源的总数,分别采用式2计算各所述标
    题信息的第二特征,



    其中,|D|表示多媒体资源的总个数,通常为大于或等于1的正整数;|Di表示标题
    信息中包括第i个词wi的多媒体资源的个数;idfi表示第i个词wi对应的第二特征;

    根据所述第一特征和所述第二特征,分别采用式3计算各所述标题信息的第三特
    征,

    tfidfi=tfi×idfi 式3,

    其中,tfidfi表示第i个词wi对应的第三特征。

    本发明实施例可以采用TF-IDF(Term Frequency–Inverse Document Frequency,
    词频--逆向文件频率)算法获取待推荐多媒体资源的特征。其中,TF-IDF算法可以用于评估
    一个词对于一个文件或者一个语料库中的一个领域文件集的重要程度。可以理解的是,词
    的重要性随着它在文件中出现的次数成正比增加,但同时也会随着它在语料库中出现的频
    率成反比下降。TF-IDF算法的各种形式通常被应用于情报检索与文本挖掘领域,作为文件
    与用户查询之间相关程度的度量或评级。

    本发明实施例的多媒体资源的特征可以评估多媒体资源对于多媒体资源库的重
    要程度。进一步地,多媒体资源的特征可以包括第一特征、第二特征和第三特征。其中,第一
    特征可以是TF特征,第二特征可以是IDF特征,第三特征可以是TF-IDF特征。在一份给定的
    文件里,TF特征可以是某一个给定的词在该文件中出现的频率。这个数字可以是对词数
    (Term Count)的归一化,以防止它偏向长的文件。IDF特征可以是一个词普遍重要性的度
    量。某一特定词的IDF特征,可以由文件的总个数除以包括该词的文件的个数,再将得到的
    商取对数得到。由于如果该词不在语料库中,就会导致被除数为零,因此,如式2所示,一般
    情况下会将包括该词的文件的个数加上1。TF-IDF特征可以是TF特征和IDF特征的乘积。

    在本发明实施例中,对于第n个待推荐多媒体资源vn的标题信息进行分词,得到标
    题信息对应的词为Title(vn)={w1,w2,…,wk}。进一步地,可以通过式1计算得到第1个词
    w1的TF特征tf(w1),可以通过式2计算得到第1个词w1的IDF特征idf(w1),可以通过式3计算
    得到第1个词w1的TF-IDF特征tfidf(w1)。依次类推,可以计算得到第i个词wi的TF特征tf
    (wi)、IDF特征idf(wi)和TF-IDF特征tfidf(wi)等。其中,i表示标题信息对应的词wi的标
    号,i的取值范围为[1,k]。

    进一步地,通过以上推导步骤,可以计算得到待推荐多媒体资源vn的特征f(vn)=
    {tf(w1),idf(w1),tfidf(w1),...,tf(wk),idf(wk),tfidf(wk)}。为了方便后续运算,可以
    统一特征的标识符号,例如,用x表示待推荐多媒体资源vn的特征,得到f(vn)={f(v1)=
    {x1,x2,x3,...,x(3k)}。其中,x1,x2,x3可以分别对应tf(w1),idf(w1),tfidf(w1),也可以
    分别对应tf(w1),tf(w2),tf(w3),对此不作限定。

    作为本发明实施例的一个示例,对待推荐视频的标题信息例如“中国女排隔12年
    再夺奥运冠军”进行分词,可以得到例如“中国、女排、隔12年、再夺、奥运冠军”的分词结果。
    其中,标题信息对应的词的总个数是5,词“奥运冠军”出现1次,那么词“奥运冠军”的TF特征
    为0.20(1/5)。假设视频库包括4个视频,例如,“中国女排隔12年再夺奥运冠军”、“西游记”、
    “行者使徒”、“谌龙胜李宗伟夺奥运冠军”。其中,视频库包括的视频的总个数是4,标题信息
    中包括词“奥运冠军”的个数是2,那么词“奥运冠军”的IDF特征为0.50(2/4)。进一步地,词
    “奥运冠军”的TF-IDF特征为0.10(0.20×0.50)。

    需要说明的是,本领域技术人员应当能够理解,对于待推荐多媒体资源的标题信
    息采用不同的分词方法,可能会影响待推荐多媒体资源的特征的计算结果。在实际应用过
    程中,可以根据各种指标参数(例如精确度、召回结果等),选择采用粗粒度分词方法或采用
    细粒度分词方法,对此不作限定。

    在一种可能的实现方式中,如图3所示,根据各所述待推荐多媒体资源的特征,分
    别确定各所述待推荐多媒体资源所归属的类别(步骤102),可以包括:

    在步骤S301中,根据各所述待推荐多媒体资源的特征和各类别的中心向量,分别
    计算各所述待推荐多媒体资源与各类别的距离。

    在步骤S302中,根据各所述待推荐多媒体资源与各类别的距离,分别确定各所述
    待推荐多媒体资源所归属的类别。

    在本发明实施例中,可以先通过K-mens聚类算法获取M个聚类的中心向量,q1,
    q2,…,qM。其中,每个聚类的中心向量对应一个类别。例如,q1表示类别c1的中心向量,q2表示
    类别c2的中心向量,依此类推,qM表示类别cM的中心向量。需要说明的是,K-means算法是基
    于距离的聚类算法,主要采用距离作为相似度的评价指标,即认为两个对象的距离越近,其
    相似度就越大。K-means算法认为簇可以由距离靠近的对象组成,因此,把得到紧凑且独立
    的簇作为最终目标。

    进一步地,在K-means算法中,M个初始聚类的中心向量的选取对聚类结果具有较
    大的影响。具体地,K-means算法的第一步可以是随机的选取任意M个对象作为初始聚类的
    中心,初始地代表一个簇。K-means算法在每次迭代中对数据集中剩余的每个对象,根据其
    与各个簇中心的距离将每个对象重新赋给最近的簇。当考察完所有数据对象后,一次迭代
    运算完成,新的聚类的中向量被计算出来。如果在一次迭代前后,评价指标的值没有发生变
    化,说明算法已经收敛。

    以视频为例,具体过程如下所述:第一步,从P个视频中随机选取M个视频的标题信
    息作为初始聚类的中心向量。第二步,对剩余的每个视频的标题信息,测量其到每个初始聚
    类的中心向量的距离,并把它归到最近的中心向量的类别。第三步,重新计算已经得到的各
    个类别新的聚类的中心向量。迭代第二步和第三步,直至新的聚类的中心向量与原聚类的
    中心向量相等或小于指定阈值,结束迭代。由此,通过K-mens聚类算法获取M个聚类的中心
    向量,q1,q2,…,qM。

    在一种可能的实现方式中,根据各所述待推荐多媒体资源的特征和各类别的中心
    向量,分别采用式4计算各所述待推荐多媒体资源与各类别的距离,

    s(vn,cm)=cosin(f(vn),qm) 式4,

    其中,n表示待推荐多媒体资源vn对应的标号,n为整数;m表示类别cm对应的标号,m
    为整数;qm表示类别cm的中心向量;f(vn)表示待推荐多媒体资源vn的特征;s(vn,cm)表示待
    推荐多媒体资源vn与类别cm的距离。

    在一种可能的实现方式中,根据各所述待推荐多媒体资源与各类别的距离,分别
    采用式5确定各所述待推荐多媒体资源所归属的类别,



    其中,h(vn)表示s(vn,cm)取最大值时m的值,各所述待推荐多媒体资源所归属的类
    别为与各所述多媒体资源距离最近的类别。

    作为本发明实施例的一个示例,假设用户观看视频v,视频v对应的待推荐视频可
    以包括L={v1,v2,…,vn},那么待推荐视频对应的标题信息对应的词可以包括LT={Title
    (v1),Title(v2),…,Title(vn)},进一步地,待推荐视频对应的特征可以包括FLT={f(v1),
    f(v2),…,f(vn)}。根据式4和式5可以计算出每个待推荐视频对应的类别,CL={h(v1),h
    (v2),…,h(vn)}。

    需要说明的是,s(vn,cm)=cosin(f(vn),qm),其中,cosine0°的取值为1,
    cosine90°的取值为0。因而当s(vn,cm)取最大值的情况下,视频vn和类别cm的相似度最高。

    在一种可能的实现方式中,如图4所示,根据各所述待推荐多媒体资源所归属的类
    别,生成多媒体资源推荐结果(步骤103),包括:

    在步骤S401中,根据各所述待推荐多媒体资源所归属的类别,确定各类别中所包
    括的各所述待推荐多媒体资源的排序结果。

    在步骤S402中,根据所述排序结果,生成所述多媒体资源推荐结果。

    作为本发明实施例的一个示例,假设用户观看视频v,获取视频v对应的待推荐视
    频包括L={v1,v2,…,v8},计算得到每个待推荐视频对应的类别,CL={h(v1-c2),h(v2-c4),
    h(v3-c4),h(v4-c2),h(v5-c1),h(v6-c2),h(v7-c1),h(v8-c3)}。通过整理归类后得到,归属于
    类别c1的待推荐视频有v5,v7,归属于类别c2的待推荐视频有v1,v4,v6,归属于类别c3的待推
    荐视频有v8,归属于类别c4的待推荐视频有v2,v3。

    进一步地,本发明实施例还可以对待推荐视频L={v1,v2,…,v8}进行排序。例如,
    可以在确定待推荐视频所归属的类别之前,对待推荐视频进行排序,得到排序结果(按照推
    荐降序排列)为LP={v5,v2,v8,v6,v3,v1,v7,v4}。因此,确定各类别中所包括的各待推荐视频
    的排序结果,可以得到归属于类别c1的待推荐视频的排序结果为v5,v7,归属于类别c2的待
    推荐视频的排序结果为v6,v1,v4,归属于类别c3的待推荐视频的排序结果为v8,归属于类别
    c4的待推荐视频的排序结果为v2,v3。

    在本发明实施例中,可以从待推荐视频L={v1,v2,…,v8}中选取部分视频(例如4
    个等)生成视频推荐结果。本发明实施例不限定从待推荐视频中选取生成视频推荐结果的
    视频的具体方式。举例而言,可以采用交叉选取视频的方法。具体地,可以分别依次获取每
    个类别下的排序靠前的视频,用于生成视频推荐结果。例如,从归属于类别c1的待推荐视频
    中选取视频v5,再从归属于类别c2的待推荐视频中选取视频v6,依次类推,最终得到视频推
    荐结果为v5,v6,v8,v2。本发明实施例不限定视频推荐结果的展现形式,例如,可以通过列
    表、表格等形式展现。

    需要说明的是,本发明实施例不限定对待推荐视频排序的具体时间点。例如,可以
    在确定待推荐视频所归属的类别之前,对待推荐视频进行排序;也可以在确定待推荐视频
    所归属的类别之后,对待推荐视频进行排序。此外,本发明实施例不限定对待推荐视频排序
    的方法,例如可以根据待推荐视频的热度进行排序,也可以根据待推荐视频与视频v的相关
    度进行排序,还可以根据待推荐视频的综合参数(例如行为特征、属性特征等)进行排序。其
    中,行为特征可以用于表示用户对待推荐视频做出的行为的情况,例如观看时长、评论数、
    评分、顶踩数等。资源特征可以用于表示待推荐视频的属性的情况,例如视频频道、兴趣标
    签等。

    在对用户进行视频的个性化推荐时,不仅需要预测用户的兴趣视频,还要考虑视
    频是否可播放等状态信息。基于以上原则,可以对视频序列预测的视频进行筛选,生成满足
    要求的视频推荐列表。另外,将不满足推荐列表长度的视频列表进行热点视频补充,并返回
    给请求用户。在本发明实施例中热点视频例如可以是预设时间段(例如一周)内视频点击排
    序靠前的视频。

    本发明实施例的多媒体资源的推荐方法,利用多媒体资源的标题信息进行自动聚
    类,而非人工规则的多媒体资源分类,具有自适应和挖掘视频隐性类别的性能,有效的进行
    多媒体资源类别标记。在保证准确预测用户兴趣的同时,保证用户多媒体资源推荐列表的
    多样性,提高用户体验,挖掘长尾多媒体资源。

    本发明实施例的多媒体资源的推荐方法,可以根据各待推荐多媒体资源的标题信
    息,分别确定各待推荐多媒体资源所归属的类别,并根据各待推荐多媒体资源所归属的类
    别,生成多媒体资源推荐结果。本发明实施例的多媒体资源的推荐方法,能够丰富推荐信息
    中多媒体资源的类别,提高多媒体资源的多样性。

    实施例2

    图5示出根据本发明另一实施例的多媒体资源的推荐装置的结构框图。图5可以用
    于运行图1至图4所示的视频播放方法。

    如图5所示,所述多媒体资源的推荐装置,可以包括:特征确定模块11,用于根据各
    待推荐多媒体资源的标题信息,分别确定各所述待推荐多媒体资源的特征;类别确定模块
    13,与所述特征确定模块11连接,用于根据各所述待推荐多媒体资源的特征,分别确定各所
    述待推荐多媒体资源所归属的类别;推荐结果生成模块15,与所述类别确定模块13连接,用
    于根据各所述待推荐多媒体资源所归属的类别,生成多媒体资源推荐结果。具体原理和示
    例可以参见实施例1以及图1的相关描述。

    在一种可能的实现方式中,如图6所示,所述特征确定模块11包括:标题信息获取
    单元111,用于获取各所述待推荐多媒体资源的标题信息;标题信息分词单元113,与所述标
    题信息获取单元111连接,用于对各所述标题信息进行分词,得到各所述标题信息对应的
    词;特征确定单元115,与所述标题信息分词单元113连接,用于根据各所述标题信息对应的
    词,分别确定各所述待推荐多媒体资源的特征。具体原理和示例可以参见实施例1以及图2
    的相关描述。

    在一种可能的实现方式中,如图7所示,所述类别确定模块13包括:距离计算单元
    131,用于根据各所述待推荐多媒体资源的特征和各类别的中心向量,分别计算各所述待推
    荐多媒体资源与各类别的距离;类别确定单元133,与所述距离计算单元131连接,用于根据
    各所述待推荐多媒体资源与各类别的距离,分别确定各所述待推荐多媒体资源所归属的类
    别。具体原理和示例可以参见实施例1以及图3的相关描述。

    在一种可能的实现方式中,所述特征确定单元115,用于根据各所述标题信息对应
    的词,分别采用式1计算各所述标题信息的第一特征,



    其中,所述标题信息对应的词为Titile(v)={w1,w2,…,wk};k表示所述标题信息
    对应的词的总个数;Ni表示第i个词wi在所述标题信息中出现的次数;Nj表示第j个词wj在所
    述标题信息中出现的次数;i,j表示所述标题信息对应的词的标号,i,j的取值范围为[1,
    k];tfi表示第i个词wi对应的第一特征;

    所述特征确定单元115,还用于根据各所述标题信息对应的词和多媒体资源的总
    数,分别采用式2计算各所述标题信息的第二特征,



    其中,|D|表示多媒体资源的总个数;|Di|表示标题信息中包括第i个词wi的多媒
    体资源的个数;idfi表示第i个词wi对应的第二特征;

    所述特征确定单元115,还用于根据所述第一特征和所述第二特征,分别采用式3
    计算各所述标题信息的第三特征,

    tfidfi=tfi×idfi 式3,

    其中,tfidfi表示第i个词wi对应的第三特征。

    在一种可能的实现方式中,所述距离计算单元131,用于根据各所述待推荐多媒体
    资源的特征和各类别的中心向量,分别采用式4计算各所述待推荐多媒体资源与各类别的
    距离,

    s(vn,cm)=cosin(f(vn),qm) 式4,

    其中,n表示待推荐多媒体资源vn对应的标号,n为整数;m表示类别cm对应的标号,m
    为整数;qm表示类别cm的中心向量;f(vn)表示待推荐多媒体资源vn的特征;s(vn,cm)表示待
    推荐多媒体资源vn与类别cm的距离。

    在一种可能的实现方式中,所述类别确定单元133,用于根据各所述待推荐多媒体
    资源与各类别的距离,分别采用式5确定各所述待推荐多媒体资源所归属的类别,



    其中,h(vn)表示s(vn,cm)取最大值时m的值,各所述待推荐多媒体资源所归属的类
    别为与各所述多媒体资源距离最近的类别。

    在一种可能的实现方式中,如图8所示,所述推荐结果生成模块15包括:排序结果
    确定单元151,用于根据各所述待推荐多媒体资源所归属的类别,确定各类别中所包括的各
    所述待推荐多媒体资源的排序结果;推荐结果生成单元153,与所述排序结果确定单元连
    接,用于根据所述排序结果,生成所述多媒体资源推荐结果。具体原理和示例可以参见实施
    例1以及图4的相关描述。

    本发明实施例的多媒体资源的推荐装置,可以根据各待推荐多媒体资源的标题信
    息,分别确定各待推荐多媒体资源所归属的类别,并根据各待推荐多媒体资源所归属的类
    别,生成多媒体资源推荐结果。本发明实施例的多媒体资源的推荐装置,能够丰富推荐信息
    中多媒体资源的类别,提高多媒体资源的多样性。

    实施例3

    图9示出根据本发明另一实施例的多媒体资源的推荐装置的另一结构框图。所述
    多媒体资源的推荐装置1100可以是具备计算能力的主机服务器、个人计算机PC、或者可携
    带的便携式计算机或终端等。本发明具体实施例并不对计算节点的具体实现做限定。

    所述多媒体资源的推荐装置1100包括处理器(processor)1110、通信接口
    (Communications Interface)1120、存储器(memory)1130和总线1140。其中,处理器1110、
    通信接口1120、以及存储器1130通过总线1140完成相互间的通信。

    通信接口1120用于与网络设备通信,其中网络设备包括例如虚拟机管理中心、共
    享存储等。

    处理器1110用于执行程序。处理器1110可能是一个中央处理器CPU,或者是专用集
    成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明
    实施例的一个或多个集成电路。

    存储器1130用于存放文件。存储器1130可能包括高速RAM存储器,也可能还包括非
    易失性存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1130也可以是存
    储器阵列。存储器1130还可能被分块,并且所述块可按一定的规则组合成虚拟卷。

    在一种可能的实施方式中,上述程序可为包括计算机操作指令的程序代码。该程
    序具体可用于:实现实施例1中各步骤的操作。

    本领域普通技术人员可以意识到,本文所描述的实施例中的各示例性单元及算法
    步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还
    是软件形式来实现,取决于技术方案的特定应用和设计约束条件。专业技术人员可以针对
    特定的应用选择不同的方法来实现所描述的功能,但是这种实现不应认为超出本发明的范
    围。

    如果以计算机软件的形式来实现所述功能并作为独立的产品销售或使用时,则在
    一定程度上可认为本发明的技术方案的全部或部分(例如对现有技术做出贡献的部分)是
    以计算机软件产品的形式体现的。该计算机软件产品通常存储在计算机可读取的非易失性
    存储介质中,包括若干指令用以使得计算机设备(可以是个人计算机、服务器、或者网络设
    备等)执行本发明各实施例方法的全部或部分步骤。而前述的存储介质包括U盘、移动硬盘、
    只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁
    碟或者光盘等各种可以存储程序代码的介质。

    以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何
    熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵
    盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

    关 键  词:
    多媒体 资源 推荐 方法 装置
      专利查询网所有文档均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:多媒体资源的推荐方法及装置.pdf
    链接地址:https://www.zhuanlichaxun.net/p-6027120.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
    经营许可证编号:粤ICP备2021068784号-1