书签 分享 收藏 举报 版权申诉 / 21

一种数据处理方法及装置.pdf

  • 上传人:r5
  • 文档编号:6096859
  • 上传时间:2019-04-10
  • 格式:PDF
  • 页数:21
  • 大小:1.30MB
  • 摘要
    申请专利号:

    CN201510345408.7

    申请日:

    2015.06.19

    公开号:

    CN106326243A

    公开日:

    2017.01.11

    当前法律状态:

    实审

    有效性:

    审中

    法律详情:

    实质审查的生效IPC(主分类):G06F 17/30申请日:20150619|||公开

    IPC分类号:

    G06F17/30

    主分类号:

    G06F17/30

    申请人:

    苏宁云商集团股份有限公司

    发明人:

    肖建; 王建健; 石业明

    地址:

    210042 江苏省南京市玄武区苏宁大道1号苏宁总部

    优先权:

    专利代理机构:

    江苏圣典律师事务所 32237

    代理人:

    苏一帜

    PDF完整版下载: PDF下载
    内容摘要

    本发明实施例公开了一种数据处理方法及装置,涉及电子商务技术领域,能够减少数据库在建立索引过程中所耗时间,从而减少计算资源消耗。本发明的方法包括:获取表示商品信息的数据表,并根据数据表中的数据分别生成对应于表示商品信息的各数据表的lucene文件;获取数据表的主键,并根据主键从生成的lucene文件中读取对应于所获取的主键的数据;根据对应于所述主键的数据,组建所生成的lucene文件之间的关联,并向指定存储区域提交。本发明适用于快速创建检索。

    权利要求书

    1.一种数据处理方法,其特征在于,包括:
    获取表示商品信息的数据表,并根据数据表中的数据分别生成对应于所述
    表示商品信息的各数据表的lucene文件;
    获取数据表的主键,并根据所述主键从生成的lucene文件中读取对应于所获
    取的主键的数据;
    根据对应于所述主键的数据,组建所生成的lucene文件之间的关联,并向指
    定存储区域提交。
    2.根据权利要求1所述的数据处理方法,其特征在于,所述表示商品信息
    的数据表包括:商品主表和表示商品属性的数据表,所述表示商品属性的数据
    表至少包括:商品基本属性表、商品价格信息表和商品库存信息表。
    3.根据权利要求2所述的数据处理方法,其特征在于,所述获取数据表的
    主键,并根据所述主键从生成的lucene文件中读取对应于所获取的主键的数据,
    包括:
    获取所述商品主表中记载的商品唯一标识;
    查询得到将所述商品唯一标识作为主键的数据表的lucene文件,并从所查询
    到的lucene文件中读取商品属性数据,所述商品属性数据至少包括:商品基本属
    性数据、商品价格数据和商品库存数据。
    4.根据权利要求3所述的数据处理方法,其特征在于,所述根据对应于所
    述主键的数据,组建所生成的lucene文件之间的关联,并向指定存储区域提交,
    包括:
    根据所述商品唯一标识将各项商品属性数据加工并得到关联结果;
    将所述关联结果提交至solrcloud。
    5.根据权利要求1所述的数据处理方法,其特征在于,还包括:
    根据接收到的查询请求,确定与所述查询请求关联的主键;
    根据与所述查询请求关联的主键,从所述指定存储区域读取数据。
    6.根据权利要求1-5中任意一项所述的数据处理方法,其特征在于,还包括:
    当检测到所述表示商品信息的数据表出现增量数据时,获取所述增量数据
    所在数据表的主键;
    读取所确定的数据表的数据,并更新至所述所确定的数据表的lucene文件。
    7.根据权利要求1-5中任意一项所述的数据处理方法,其特征在于,还包括:
    当缓冲队列中出现增量数据时,确定与所述增量数据关联的数据表;
    将所述增量数据更新至与所述增量数据关联的数据表的lucene文件。
    8.一种数据处理装置,其特征在于,包括:
    预处理模块,用于获取表示商品信息的数据表,并根据数据表中的数据分
    别生成对应于所述表示商品信息的各数据表的lucene文件;
    提取模块,用于获取数据表的主键,并根据所述主键从生成的lucene文件中
    读取对应于所获取的主键的数据;
    分析模块,用于获取根据对应于所述主键的数据,组建所生成的lucene文件
    之间的关联,并向指定存储区域提交。
    9.根据权利要求8所述的数据处理装置,其特征在于,所述表示商品信息
    的数据表包括:商品主表和表示商品属性的数据表,所述表示商品属性的数据
    表至少包括:商品基本属性表、商品价格信息表和商品库存信息表。
    10.根据权利要求9所述的数据处理装置,其特征在于,所述提取模块,具
    体用于获取所述商品主表中记载的商品唯一标识;
    查询得到将所述商品唯一标识作为主键的数据表的lucene文件,并从所查询
    到的lucene文件中读取商品属性数据,所述商品属性数据至少包括:商品基本属
    性数据、商品价格数据和商品库存数据。
    11.根据权利要求10所述的数据处理装置,其特征在于,所述分析模块,
    具体用于根据所述商品唯一标识将各项商品属性数据加工并得到关联结果;并
    将所述关联结果提交至solrcloud。
    12.根据权利要求8所述的数据处理装置,其特征在于,还包括:查询模块,
    用于根据接收到的查询请求,确定与所述查询请求关联的主键;并根据与所述
    查询请求关联的主键,从所述指定存储区域读取数据。
    13.根据权利要求8-12中任意一项所述的数据处理装置,其特征在于,还包
    括第一更新模块,用于当检测到所述表示商品信息的数据表出现增量数据时,
    获取所述增量数据所在数据表的主键;读取所确定的数据表的数据,并更新至
    所述所确定的数据表的lucene文件。
    14.根据权利要求8-12中任意一项所述的数据处理装置,其特征在于,还包
    括第二更新模块,用于当缓冲队列中出现增量数据时,确定与所述增量数据关
    联的数据表;并将所述增量数据更新至与所述增量数据关联的数据表的lucene文
    件。

    说明书

    一种数据处理方法及装置

    技术领域

    本发明涉及电子商务技术领域,尤其涉及一种数据处理方法及装置。

    背景技术

    近年来,电子商务行业发展迅猛,市场上的大部分商品都已能通过在线平
    台进行交易。为了能够扩大在线平台的交易范围,增强交易业务能力,需要较
    高性能的数据库系统来管理商品信息。为了保证在线平台的稳定运行,大部分
    电商偏向于采用架构成熟的数据库,如关系数据库。

    由于一个商品往往包含很多属性,例如:品牌名称、类目名称等基本属性,
    库存、价格、销售状态、销售区域、卖点等销售属性。在关系数据库中,商品
    的每一种属性会以数据表的形式进行存储,对于同一商品的不同属性数据,需
    要记录不同数据表的关联关系,并根据关联关系建立索引,以便于顾客及电商
    能够快速查询商品信息。

    针对每一个商品的商品信息,数据库都需要先关联记载商品属性数据的各
    项数据表,再通过数数据表间的关联关系查询这一个商品的属性数据,之后再
    建立索引。但是在实际应用中,由于商品数量巨大,数据库必须处理海量的商
    品信息,索引准备工作的耗时很长且占用计算资源很多。

    发明内容

    本发明的实施例提供一种数据处理方法及装置,能够减少数据库在建立索
    引过程中所耗时间,从而减少计算资源消耗。

    为达到上述目的,本发明的实施例采用如下技术方案:

    第一方面,本发明的实施例提供一种数据处理方法,数据处理方法,包括:

    获取表示商品信息的数据表,并根据数据表中的数据分别生成对应于所述
    表示商品信息的各数据表的lucene文件;

    获取数据表的主键,并根据所述主键从生成的lucene文件中读取对应于所获
    取的主键的数据;

    根据对应于所述主键的数据,组建所生成的lucene文件之间的关联,并向
    指定存储区域提交。

    结合第一方面,在第一方面的第一种可能的实现方式中,所述表示商品信
    息的数据表包括:商品主表和表示商品属性的数据表,所述表示商品属性的数
    据表至少包括:商品基本属性表、商品价格信息表和商品库存信息表。

    结合第一方面的第一种可能的实现方式,在第二种可能的实现方式中,所
    述获取数据表的主键,并根据所述主键从生成的lucene文件中读取对应于所获取
    的主键的数据,包括:

    获取所述商品主表中记载的商品唯一标识;

    查询得到将所述商品唯一标识作为主键的数据表的lucene文件,并从所查
    询到的lucene文件中读取商品属性数据,所述商品属性数据至少包括:商品基
    本属性数据、商品价格数据和商品库存数据。

    结合第一方面的第二种可能的实现方式,在第三种可能的实现方式中,根
    据对应于所述主键的数据,组建所生成的lucene文件之间的关联,并向指定存储
    区域提交,包括:

    根据所述商品唯一标识将各项商品属性数据加工并得到关联结果;

    将所述关联结果提交至solrcloud。

    结合第一方面,在第一方面的第四种可能的实现方式中,还包括:

    根据接收到的查询请求,确定与所述查询请求关联的主键;

    根据与所述查询请求关联的主键,从所述指定存储区域读取数据。

    结合第一方面或第一方面的第一至四种可能的实现方式,在第五种可能的
    实现方式中,还包括:

    当检测到所述表示商品信息的数据表出现增量数据时,获取所述增量数据
    所在数据表的主键;

    读取所确定的数据表的数据,并更新至所述所确定的数据表的lucene文件。

    结合第一方面或第一方面的第一至四种可能的实现方式,在第六种可能的
    实现方式中,还包括:

    当缓冲队列中出现增量数据时,确定与所述增量数据关联的数据表;

    并将所述增量数据更新至与所述增量数据关联的数据表的lucene文件。

    第二方面,本发明的实施例提供一种数据处理装置,包括:预处理模块,
    用于获取表示商品信息的数据表,并根据数据表中的数据分别生成对应于所述
    表示商品信息的各数据表的lucene文件;

    提取模块,用于获取数据表的主键,并根据所述主键从生成的lucene文件中
    读取对应于所获取的主键的数据;

    分析模块,用于获取根据对应于所述主键的数据,组建所生成的lucene文
    件之间的关联,并向指定存储区域提交。

    结合第二方面,在第二方面的第一种可能的实现方式中,所述表示商品信
    息的数据表包括:商品主表和表示商品属性的数据表,所述表示商品属性的数
    据表至少包括:商品基本属性表、商品价格信息表和商品库存信息表。

    结合第二方面的第一种可能的实现方式,在第二种可能的实现方式中,所
    述提取模块,具体用于获取所述商品主表中记载的商品唯一标识;

    查询得到将所述商品唯一标识作为主键的数据表的lucene文件,并从所查
    询到的lucene文件中读取商品属性数据,所述商品属性数据至少包括:商品基
    本属性数据、商品价格数据和商品库存数据。

    结合第二方面的第二种可能的实现方式,在第三种可能的实现方式中,所
    述分析模块,具体用于根据所述商品唯一标识将各项商品属性数据加工并得到
    关联结果;并将所述关联结果提交至solrcloud。

    结合第二方面,在第二方面的第四种可能的实现方式中,还包括:查询模
    块,用于根据接收到的查询请求,确定与所述查询请求关联的主键;并根据与
    所述查询请求关联的主键,从所述指定存储区域读取数据。

    结合第二方面或第二方面的第一至四种可能的实现方式,在第五种可能的
    实现方式中,还包括第一更新模块,用于当检测到所述表示商品信息的数据表
    出现增量数据时,获取所述增量数据所在数据表的主键;读取所确定的数据表
    的数据,并更新至所述所确定的数据表的lucene文件。

    结合第二方面或第二方面的第一至四种可能的实现方式,在第六种可能的
    实现方式中,还包括第二更新模块,用于当缓冲队列中出现增量数据时,确定
    与所述增量数据关联的数据表;并将所述增量数据更新至与所述增量数据关联
    的数据表的lucene文件。

    本发明实施例提供的数据处理方法及装置,能够将现有数据库中数据表转
    化为相应的lucene文件,再按照商品主表中的主键从lucene文件中获取商品信息,
    以便用于用户检索。本发明在处理海量商品时,通过商品主表的主键和商品信
    息生成用于用户检索的lucene文件以及关联结果,避免了针对每一个商品的关联
    关系建立索引的方式,减少索引准备工作所耗时间,从而减小计算资源的占用。

    附图说明

    为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要
    使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一
    些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还
    可以根据这些附图获得其它的附图。

    图1为本发明实施例提供的运算设备的结构示意图;

    图2为本发明实施例提供的数据处理方法的流程图;

    图3为本发明实施例提供的具体实例的示意图;

    图4a-4d为本发明实施例提供的具体实例的系统架构示意图;

    图5为本发明实施例提供的另一种数据处理方法的流程图;

    图6a-6b为本发明实施例提供的再一种数据处理方法的流程图;

    图7为本发明实施例提供的数据处理装置的结构示意图。

    具体实施方式

    为使本领域技术人员更好地理解本发明的技术方案,下面结合附图和具体
    实施方式对本发明作进一步详细描述。下文中将详细描述本发明的实施方式,
    所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同
    或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方
    式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。

    本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、
    “一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明
    的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件
    和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、
    元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到
    另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。
    此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的
    措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

    本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包
    括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解
    相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为
    具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不
    会用理想化或过于正式的含义来解释。

    在下文的描述中,将以包括触控显示器的智能终端为实施例,其显示器上
    配置有可触控界面。在以下详细描述中,许多具体细节被示出以提供对本发明
    的深入了解。然而,本发明可能在没有这些具体细节的情况下被实施对于本领
    域的普通技术人员将是显而易见的。在其他情况下,众所周知的方法、规程、
    部件、电路和网络未被详细描述以免不必要地模糊实施例的各个方面。

    本发明所揭示的数据处理方法可以由一台单独的设备作为执行主体执行,
    或整合于各种不同的运算设备中,诸如服务器、工作站、超级计算机等。如图1
    所示为根据本发明一个具体实施方式的运算设备。所述运算设备包括输入单元、
    处理器单元、通信单元、存储单元、外设单元等组件。这些组件通过一条或多
    条总线进行通信。本领域技术人员可以理解,图中示出的运算设备的结构并不
    构成对本发明的限定,它既可以是总线形结构,也可以是星型结构,还可以包
    括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

    输入单元用于实现用户与运算设备的交互和/或信息输入到运算设备中。例
    如,输入单元可以接收用户输入的数字或字符信息,以产生与用户设置或功能
    控制有关的信号输入。在本发明具体实施方式中,输入单元可以是触控面板,
    也可以是其他人机交互界面,例如实体输入键、麦克风等,还可是其他外部信
    息撷取装置,例如摄像头等。

    处理器单元为运算设备的控制中心,利用各种接口和线路连接整个运算设
    备的各个部分,通过运行或执行存储在存储单元内的软件程序和/或模块,以及
    调用存储在存储单元内的数据,以执行运算设备的各种功能和/或处理数据。所
    述处理器单元可以由集成电路(Integrated Circuit,简称IC)组成,例如可以
    由单颗封装的IC所组成,也可以由连接多颗相同功能或不同功能的封装IC而组
    成。举例来说,处理器单元可以仅包括中央处理器(Central Processing Unit,
    简称CPU),也可以是GPU、数字信号处理器(Digital Signal Processor,简称
    DSP)、及通信单元中的控制芯片(例如基带芯片)的组合。在本发明实施方式
    中,CPU可以是单运算核心,也可以包括多运算核心。

    所述通信单元用于建立通信信道,使运算设备通过所述通信信道以连接至
    存储商品信息的数据库,并从数据库的远程服务器下媒体数据。由于需要处理
    海量的商品信息,因此在优选方案中应该采用具备较高传输带宽的通信方式以
    及与该通信方式相应类型的通信单元。例如:LC、SC、SFP等接口的光纤网卡。
    所述通信单元也可以包括无线局域网(Wireless Local Area Network,简称
    wireless LAN)模块、蓝牙模块、基带(Base Band)模块等通信模块,以及所
    述通信模块对应的射频(Radio Frequency,简称RF)电路,用于进行无线局域
    网络通信、蓝牙通信、红外线通信及/或蜂窝式通信系统通信,例如宽带码分多
    重接入(Wideband Code Division Multiple Access,简称W-CDMA)及/或高速
    下行封包存取(High Speed Downlink Packet Access,简称HSDPA)。所述通信
    模块用于控制运算设备中的各组件的通信,并且可以支持直接内存存取(Direct
    Memory Access)。

    存储单元可用于存储软件程序以及模块,处理单元通过运行存储在存储单
    元的软件程序以及模块,从而执行运算设备的各种功能应用以及实现数据处理。
    存储单元主要包括程序存储区和数据存储区,其中,程序存储区可存储操作系
    统、至少一个功能所需的应用程序,比如数据提交下载程序、数据分析程序等
    等;数据存储区可存储从数据库的服务器下载的商品信息、数据表等。在本发
    明具体实施方式中,存储单元可以包括易失性存储器,例如非挥发性动态随机
    存取内存(Nonvolatile Random Access Memory,简称NVRAM)、相变化随机存
    取内存(Phase Change RAM,简称PRAM)、磁阻式随机存取内存(Magetoresistive
    RAM,简称MRAM)等,还可以包括非易失性存储器,例如至少一个磁盘存储器件、
    电子可擦除可编程只读存储器(Electrically Erasable Programmable
    Read-Only Memory,简称EEPROM)、闪存器件,例如反或闪存(NOR flash memory)
    或是反及闪存(NAND flash memory)。非易失存储器储存处理单元所执行的操作
    系统及应用程序。所述处理单元从所述非易失存储器加载运行程序与数据到内
    存并将数字内容储存于大量储存装置中。所述操作系统包括用于控制和管理常
    规系统任务,例如内存管理、存储设备控制、电源管理等,以及有助于各种软
    硬件之间通信的各种组件和/或驱动器。

    需要说明的是,也可以借助外部存储设备作为运算设备存储单元或是与存
    储单元结合用于存储运算设备的数据,例如:通过通信单元与分布式存储设备
    进行数据交互,将下载得到的待处理的商品信息存储在分布式存储设备中,并
    排队等待处理器单元采用本发明实施例提供的数据处理方法进行处理并得到
    lucene文件及各lucene文件之间的关联结果。或者,也可以通过通信单元将数
    据处理过程中的中间数据或临时数据存储在分布式存储设备中。本实施例所述
    的lucene文件基于lucene得到,Lucene指的是apache软件基金会发布的一个开
    放源代码的全文检索引擎工具包,该工具包基于一个全文检索引擎的架构,提
    供了完整的查询引擎和索引引擎,以及部分文本分析引擎。

    电源用于给运算设备的不同部件进行供电以维持其运行。作为一般性理解,
    所述电源可以是内置的电池,例如常见的锂离子电池、镍氢电池等,也包括直
    接向运算设备供电的外接电源,例如AC适配器等。在本发明的一些实施方式中,
    所述电源还可以作更为广泛的定义,例如还可以包括电源管理系统、充电系统、
    电源故障检测电路、电源转换器或逆变器、电源状态指示器(如发光二极管),
    以及与运算设备的电能生成、管理及分布相关联的其他任何组件。

    本发明实施例提供一种如图2所示的数据处理方法,包括:

    101,获取表示商品信息的数据表,并根据数据表中的数据分别生成对应于
    所述表示商品信息的各数据表的lucene文件。

    其中,运算设备可以从数据库中读取用于表示商品信息的数据表,例如:
    可以直接从在线交易平台的数据库中读取数据表;也可以从数据库的数据备份
    系统中读取数据表,以避免增加数据库的传输压力。其中,若运算设备是一台
    单独的设备,则可以通过运算设备的通信单元,通过有线或无线网络从数据库
    或数据备份系统读取数据表。若运算设备集成在数据库或数据备份系统的服务
    器中,则可以从数据库的存储设备或数据备份系统的存储设备读取。

    在本实施例中,表示商品信息的数据表可以包括:商品主表和表示商品属
    性的数据表。其中,商品主表中至少包括商品唯一标识、所属商家等数据。数
    据库中为已登记的商品自动分配的识别码,每一个商品的识别码与任一其他商
    品不同,该种识别码可以称为商品唯一标识;或者也可以将商品名称、型号、
    类型信息等数据的组合作为商品唯一标识。表示商品属性的数据表至少包括:
    商品基本属性表、商品价格信息表和商品库存信息表。需要说明的是,在本实
    施例中,将记录了用于描述商品的性质、形态、销售情况等方面的数据的数据
    表称为表示商品属性的数据表,比如:上述的商品基本属性表、商品价格信息
    表和商品库存信息表,但并不仅限于此。商品基本属性表具体可以包括商品的
    产地、生产日期、上市时间(该型产品投入市场的时间)等数据。

    对于表示商品信息的各数据表,运算设备生成分别对应于每一个数据表的
    lucene文件,例如:对应于商品基本属性表的商品基本属性lucene文件、对应于
    商品价格信息表的商品价格信息lucene文件和对应于商品库存信息表的商品库
    存信息lucene文件等。以商品价格信息表为例:运算设备可以先读取商品价格信
    息表中的数据,并直接得到或通过对数据转化得到表示商品价格的文本信息。
    并利用基于Lucene的软件包根据文本信息进行索引并创建索引文件,作为商品
    价格信息表的lucene文件。所得到的对应于表示商品信息的各数据表的lucene文
    件可以存储在运算设备的存储器中,或是提交至数据库中开辟的专用存储空间。

    102,获取数据表的主键,并根据所述主键从生成的lucene文件中读取对应
    于所获取的主键的数据。

    数据表的主键为数据表中具有唯一性的字段,即数据表中任意两条记录不
    具有相同的主键字段。可以理解的,运算设备从获取数据表中获取的主键应为
    由多条主键字段组成的集合。在本实施例中,可以将商品唯一标识作为主键,
    则运算设备获取的是商品主表中所有商品的唯一标识字段的集合。

    在本实施例中,各数据表中的数据以文本信息的形式分别加入各个数据表
    的lucene文件中,以商品唯一标识作为主键为例:数据表的主键为商品1至商品
    10的唯一标识字段的集合,则商品基本属性lucene文件中对应于主键的数据为:
    商品1-10的产地、生产日期、上市时间等商品基本属性的文本信息;商品价格信
    息lucene文件中对应于主键的数据为:表示商品1-10价格的文本信息;商品库存
    信息lucene文件中对应于主键的数据为:表示商品1-10库存数量、库存地点、库
    存时间等方面的文本信息。

    103,根据对应于所述主键的数据,组建所生成的lucene文件之间的关联,
    并向指定存储区域提交。

    其中,运算设备向指定存储区域提交的数据包括:由表示商品信息的数据
    表加工得到的lucene文件,以及lucene文件之间的关联关系。

    lucene文件之间的关联关系可以表示为lucene文件各自的标识字符(比如:
    可以将主表的ID作为该由表加工得到的lucene文件的标识字符、lucene文件生成
    时的编号等)与主键的字符的集合。lucene文件各自的标识字符与主键的字符的
    集合即可作为本实施例中的关联结果。需要说明的是,关联结果中还可以包括
    商品基本属性、价格和库存等其他商品信息,以便于可以根据关联结果快速得
    到某些商品信息。

    在本实施例中,以商品唯一标识作为主键为例:运算设备将商品1-商品10
    的唯一标识字段的集合,以及分别表示商品1-10的商品基本属性、价格和库存的
    文本信息合并作为关联结果,以商品主表的ID作为文件标识,以便检索阶段通
    过ID检索到主表所示商品。

    本发明实施例提供的数据处理方法,能够将现有数据库中数据表转化为相
    应的lucene文件,再按照商品主表中的主键从lucene文件中获取商品信息,以便
    用于用户检索。本发明在处理海量商品时,通过商品主表的主键和商品信息生
    成用于用户检索的lucene文件以及关联结果,避免了针对每一个商品的关联关系
    建立索引的方式,减少索引准备工作所耗时间,从而减小计算资源的占用。

    作为一种实现方式,步骤102的具体可以实现为:

    1011,获取所述商品主表中记载的商品唯一标识。

    其中,商品唯一标识可以是数据库在将商品信息写入数据表时,分配的商
    品编号。如图3所示,商品主表中记载了商品编号和所属商家名称,其中商品编
    号在主表中具有唯一性,可以作为主键。

    1012,查询得到将所述商品唯一标识作为主键的数据表的lucene文件,并从
    所查询到的lucene文件中读取商品属性数据。

    其中,商品属性数据至少包括:商品基本属性数据、商品价格数据和商品
    库存数据。以如图3所示为例:商品基本属性lucene文件、商品价格信息lucene
    文件和商品库存信息lucene文件为步骤101中运算设备分别根据商品基本属性表
    的、商品价格信息表的和商品库存信息表得到的,而在商品基本属性表的、商
    品价格信息表的和商品库存信息表中,商品编号为主键,则上述3个数据表与商
    品主表具有相同主键,运算设备从上述3个lucene文件中分别读取商品基本属性、
    价格和库存数据。

    商品主表的主键已存在于数据库中,运算设备无需重新设置lucene文件的识
    别信息,并且在实际应用中,lucene文件具有读取速度快的特点,利用商品主表
    的主键确定lucene文件并从中读取商品属性数据,进一步减少了加工得到lucene
    文件及关联结果所需时间。

    作为一种实现方式,步骤103的具体可以实现为:根据所述商品唯一标识将
    各项商品属性数据加工并得到关联结果;将所述关联结果提交至solrcloud。

    在本实施例的优选方案中,在生成lucene文件以及关联结果后,也可以将
    关联结果提交solrCloud,其中,SolrCloud指的是Solr4.0版本以后,Solr的基于
    Zookeeper一种部署方式,Solr是一种采用Java5开发,基于Lucene的全文搜
    索服务器,ZooKeeper是一种分布式的,开放源码的分布式应用程序协调服务技
    术。如图4a所示,对于运算设备集成在数据库中的场景,运算设备可将得到的
    lucene文件以及关联结果传输至其他存储设备中开辟的专用存储空间,以便于
    数据库接收到商品的检索请求后,运算设备或数据库从其他存储设备中读取所
    查商品的lucene文件以及关联结果,并向用户返还有关该商品的商品基本属性、
    价格和库存等信息。其中,其他存储设备可以包括:云盘、共享的存储设备、
    分布式存储系统以及其他能支持运算设备或数据库进行数据读写的存储设备或
    存储系统。

    可选的,如图4b所示,lucene文件以及关联结果也可以存储至运算设备的
    存储器中,数据库在将检索请求转发给运算设备,运算设备向数据库返还lucene
    文件以及关联结果中有关商品的商品信息,从而减小数据库的传输压力,需要
    说明的是,在图4b所示的场景中运算设备与数据库之间可以通过数据传输接口
    相连,运算设备通过接口向数据库发送请求以获取用于加工成lucene文件以及关
    联关系的原始表项(即表示商品信息的数据表),数据库查询得到运算设备所请
    求获取的原始表项并通过该接口发送给运算设备;如图4c所示,运算设备同时
    也可直接接收用户终端发送的检索请求并向用户终端返还lucene文件以及关联
    结果中有关商品的商品信息,从而进一步减小数据库的传输压力,需要说明的
    是,需要说明的是,在图4c所示的场景中运算设备与数据库之间可以直接进行
    数据读写操作,即运算设备中存储数据库中各原始表项的存储地址,因而运算
    设备直接根据存储地址从数据库中读取原始表项,并加工成lucene文件以及关联
    关系;如图4d所示,运算设备也可以将关联结果提交至solrCloud,以便用户终
    端通过solrCloud检索商品信息,从而利用已有solrCloud,减小数据库和运算设备
    的传输压力。运算设备将关联结果提交至solrCloud,同时可以将lucene文件存
    储在运算设备中,或是如图4d所示的提交并存储在其他存储设备中。在生成
    lucene文件以及关联结果之后,还可以包括商品信息的检索步骤,如图5所示,
    还可以包括:

    104,根据接收到的查询请求,确定与所述查询请求关联的主键。

    在本实施例中,主键为商品主表中的商品唯一标示(比如:商品编号),用
    户终端所发送的查询请求用于查询某一种商品的属性信息,查询请求中包括商
    品名称、所属商家等信息。执行检索步骤的设备(比如:运算设备)根据查询
    请求确定所需查询商品的唯一标示,作为与查询请求关联的主键。

    105,根据与所述查询请求关联的主键,从所述指定存储区域读取数据。

    本实施例中,lucene文件以及关联结果包括主键和对应于主键的数据。执行
    检索步骤的设备获取与所述查询请求关联的主键对应的lucene文件以及关联结
    果,具体可以实现为:检测所存储的lucene文件以及关联结果的主键中,是否存
    在由查询请求确定得到的商品唯一标示,若存在,则该lucene文件以及关联结果
    为与所述查询请求关联的主键对应的lucene文件以及关联结果。

    需要说明的是,在本实施例中执行检索步骤的设备应为存储lucene文件以及
    关联结果的设备,结合如图4a-4d所示的方案,图4a中执行检索步骤的设备为数
    据库,图4b、图4c中执行检索步骤的设备为运算设备,图4d中执行检索步骤的
    设备为solrCloud。lucene文件以及关联结果可以存储在数据库以外的设备中,减
    少了数据库在商品查询过程中的传输压力。

    在生成lucene文件以及关联结果之后,还可以包括商品信息的增量更新过
    程,如图6a所示,还可以包括:

    106a,当检测到所述表示商品信息的数据表出现增量数据时,获取所述增
    量数据所在数据表的主键。

    以商品编号为主键为例:商品价格信息表出现增量数据,运算设备获取商
    品价格信息表的主键,并查询具有相同主键的商品基本属性表、商品库存信息
    表和商品主表。需要说明的是,这里所获取的主键可以包括数据表中所有的商
    品编号,也可以只包括增量数据所对应的商品编号。

    107a,读取所确定的数据表的数据,并更新至所述所确定的数据表的lucene
    文件。

    运算设备重新生成所确定的数据表的lucene文件,用以替换原lucene文件;
    或者根据增量数据,生成符合lucene文件的代码信息,并更新至所确定的数据表
    的lucene文件。若lucene文件以及关联结果存储于solrCloud,则运算设备更新
    lucene文件,并根据增量数据原子更新至solrCloud。

    根据具体应用环境的不同,本发明实施例中的增量更新过程,还可以实现
    为如图6b所示的流程:

    106b,当缓冲队列中出现增量数据时,确定与所述增量数据关联的数据表。

    107b,将所述增量数据更新至与所述增量数据关联的数据表的lucene文件。

    运算设备也可实时检测缓冲队列中是否出现增量数据,若出现增量数据,
    则原子更新至存储lucene文件的设备,以及关联结果的solrCloud。

    通过上述数据处理方法生成lucene文件以及关联结果之后,若出现增量数
    据,能够同步更新至lucene文件及lucene文件以及关联结果,避免现有技术中重
    新建立索引的数据更新方式,减少更新索引所耗时间,从而减小数据更新过程
    中计算资源的占用。

    本发明实施例还提供一种如图7所示的数据处理装置70,其中包括:

    预处理模块71,用于获取表示商品信息的数据表,并根据数据表中的数据
    分别生成对应于所述表示商品信息的各数据表的lucene文件。

    提取模块72,用于获取数据表的主键,并根据所述主键从生成的lucene文件
    中读取对应于所获取的主键的数据。

    分析模块73,用于获取根据对应于所述主键的数据,组建所生成的lucene文
    件之间的关联,并向指定存储区域提交。

    其中,所述表示商品信息的数据表包括:商品主表和表示商品属性的数据
    表,所述表示商品属性的数据表至少包括:商品基本属性表、商品价格信息表
    和商品库存信息表。

    进一步的,所述提取模块72,具体用于获取所述商品主表中记载的商品唯
    一标识。查询得到将所述商品唯一标识作为主键的数据表的lucene文件,并从所
    查询到的lucene文件中读取商品属性数据,所述商品属性数据至少包括:商品基
    本属性数据、商品价格数据和商品库存数据。

    所述分析模块73,具体根据所述商品唯一标识将各项商品属性数据加工并
    得到关联结果;并将所述关联结果提交至solrcloud。

    进一步的,装置70还包括:查询模块75,用于根据接收到的查询请求,确
    定与所述查询请求关联的主键;并根据与所述查询请求关联的主键,从所述指
    定存储区域读取数据。

    进一步的,装置70还包括第一更新模块76,用于当检测到所述表示商品信
    息的数据表出现增量数据时,获取所述增量数据所在数据表的主键;读取所确
    定的数据表的数据,并更新至所述所确定的数据表的lucene文件。

    可选的,装置70还包括第二更新模块77,用于当缓冲队列中出现增量数据
    时,确定与所述增量数据关联的数据表;并将所述增量数据更新至与所述增量
    数据关联的数据表的lucene文件。

    本发明实施例提供的数据处理装置,能够将现有数据库中数据表转化为相
    应的lucene文件,再按照商品主表中的主键从lucene文件中获取商品信息,以便
    用于用户检索。本发明在处理海量商品时,通过商品主表的主键和商品信息生
    成用于用户检索的lucene文件以及关联结果,避免了针对每一个商品的关联关系
    建立索引的方式,减少索引准备工作所耗时间,从而减小计算资源的占用。

    本技术领域技术人员可以理解,本发明可以涉及用于执行本申请中所述操
    作中的一项或多项操作的设备。所述设备可以为所需的目的而专门设计和制
    造,或者也可以包括通用计算机中的已知设备,所述通用计算机有存储在其内
    的程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计
    算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型
    的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、
    光盘、CD-ROM、和磁光盘)、随即存储器(RAM)、只读存储器(ROM)、电可编程
    ROM、电可擦ROM(EPROM)、电可擦除可编程ROM(EEPROM)、闪存、磁性卡片或
    光线卡片。可读介质包括用于以由设备(例如,计算机)可读的形式存储或传
    输信息的任何机构。例如,可读介质包括随即存储器(RAM)、只读存储器(ROM)、
    磁盘存储介质、光学存储介质、闪存装置、以电的、光的、声的或其他的形式
    传播的信号(例如载波、红外信号、数字信号)等。

    本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图
    和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的
    组合。可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编
    程数据处理方法的处理器来生成机器,从而通过计算机或其他可编程数据处理
    方法的处理器来执行的指令创建了用于实现结构图和/或框图和/或流图的框或
    多个框中指定的方法。

    本技术领域技术人员可以理解,本发明中已经讨论过的各种操作、方法、
    流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有
    本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可
    以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与
    本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、
    更改、重排、分解、组合或删除。

    以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通
    技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,
    这些改进和润饰也应视为本发明的保护范围。

    关 键  词:
    一种 数据处理 方法 装置
      专利查询网所有文档均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:一种数据处理方法及装置.pdf
    链接地址:https://www.zhuanlichaxun.net/p-6096859.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
    经营许可证编号:粤ICP备2021068784号-1