试卷扫描图像中作文区域书写评级方法.pdf
《试卷扫描图像中作文区域书写评级方法.pdf》由会员分享,可在线阅读,更多相关《试卷扫描图像中作文区域书写评级方法.pdf(10页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201911218971.2 (22)申请日 2019.11.29 (71)申请人 安徽七天教育科技有限公司 地址 230012 安徽省合肥市新站区铜陵北 路与颍河路交口新站总部经济大厦B 楼1201室 (72)发明人 侯冲严军峰陈家海叶家鸣 吴波 (74)专利代理机构 北京力量专利代理事务所 (特殊普通合伙) 11504 代理人 姚远方 (51)Int.Cl. G06K 9/00(2006.01) G06K 9/62(2006.01) (54)发明名称 一种试卷扫描图像中作文区。
2、域书写评级方 法 (57)摘要 本发明公开一种试卷扫描图像中作文区域 书写评级方法, 涉及图像分类领域。 针对试卷扫 描图像中的作文区域的书写评级问题, 提出将作 文图像切分成小图, 对小图预测类别后再通过小 图类别预测大图书写级别的方法。 方法中包括作 文图像切分、 密集连接卷积网络denseNet预测小 图、 预测数据再处理、 XGBoost集成预测四个部 分。 本方法可减少作文图像中非手写体区域对书 写评级的影响, 同时综合手写区域各部分特征进 行预测, 预测良好效果。 权利要求书1页 说明书4页 附图4页 CN 110929674 A 2020.03.27 CN 110929674 A。
3、 1.一种试卷扫描图像中作文区域书写评级方法, 其特征在于, 将作文图像切分成小图, 对小图预测类别后再通过小图类别预测大图书写级别。 方法包括图像切分、 小图预测、 预测 数据再处理、 集成预测四个部分。 2.根据权利要求1所述的一种试卷扫描图像中作文区域书写评级方法, 其特征在于, 所 述图像切分具体描述为: 作文区域图像先按比例缩放到560宽度即尺寸为(560*(560*h/ w), 再对缩放后的图像以112为步长切分成224*224的小图。 3.根据权利要求1所述的一种试卷扫描图像中作文区域书写评级方法, 其特征在于, 所 述小图预测具体描述为: 构建小图分类训练数据, 采用密集连接卷。
4、积网络denseNet训练分 类模型, 对224*224的小图预测书写级别。 4.根据权利要求3所述的构建小图分类训练数据, 其特征在于, 所述具体为: 将作文图 像切分成224*224小图, 并标注成 “非手写体” 、“较差” 、“一般” 、“良好” 、“优秀” 五类。 5.根据权利要求1所述的一种试卷扫描图像中作文区域书写评级方法, 其特征在于, 所 述预测数据再处理具体描述为: 以每张作文大图为单位, 对由denseNet网络模型预测的小 图类别结果再处理, 计算对应大图切分出的小图中各类别数量以及各类别小图数量占该大 图切出的小图总数量百分比。 6.一种试卷扫描图像中作文区域书写评级方。
5、法, 其特征在于, 包括以下具体步骤: 步骤一、 收集数据: 准备作文区块的扫描图像500张, 尽可能包含应用场景的各种答题 试卷类型; 步骤二、 数据切分: 将该500张图片分别缩放到(560*(560*h/w)尺寸, 再从上往下、 从 左往右将大图以112为步长切分出尺寸为224*224图像保存; 步骤三、 小图数据标注: 将步骤二切分出的小图进行五分类, 非手写体的label为0, 其 他部分根据手写字体是否美观分为1、 2、 3、 4(对应 “较差” 、“一般” 、“良好” 、“优秀” ), 每类数 据1000张; 步骤四、 模型训练: 将步骤三标注的小图利用密集连接卷积网络dense。
6、Net进行五分类 训练, 保存模型; 步骤五、 大图标注: 将步骤二缩放后的大图数据进行四分类(对应 “较差” 、“一般” 、“良 好” 、“优秀” )标注, 每类数据约100张; 步骤六、 构建XGBoost训练数据: 以作文大图为单位, 对标注好的大图进行小图切分并 利用denseNet模型预测小图类别, 对每张大图所切出的小图所预测的类别分别计算0类数 量、 1类数量、 2类数量、 3类数量、 4类数量、 0类数量占总数百分比、 1类数量占总数百分比、 2 类数量占总数百分比、 3类数量占总数百分比、 4类数量占总数百分比作为样本特征值, 大图 的类别作为样本label, 构建XGBoo。
7、st训练数据; 步骤七、 训练XGBoost模型: 用XGBoost训练数据训练集成模型XGBoost; 步骤八、 整合方法流程: 将大图缩放、 切成小图、 denseNet模型预测、 预测结果再处理、 XGBoost模型预测等部分组合一起。 权利要求书 1/1 页 2 CN 110929674 A 2 一种试卷扫描图像中作文区域书写评级方法 技术领域 0001 本发明属于图像分类技术领域, 具体是一种试卷扫描图像中作文区域书写评级方 法。 背景技术 0002 互联网早已经普及到了千家万户, 也一直在推进各行各业的变革。 教育这一相对 保守的行业面对这日新月异的互联网时代, 也不得不顺应时代潮。
8、流。 网络教育是一种资源 共享的变革, 而网络批阅则是生产力的变革。 各种网络阅卷系统不断推进市场, 其中英语作 文模块又对阅卷系统起到相当大的作用。 但是调研众多批阅系统的英语作文评分功能后发 现, 其缺乏对书写因素的考虑。 0003 现有的各种作文评分系统, 都是先利用OCR识别方法, 从图像识别出文本, 然后在 文本基础上进行评分分析, 并没有考虑到学生的书写因素, 因此各种作文评分系统的准确 率也一直受到限制。 如果能将作文书写也作为评分的一个特征则能对作文评分系统的发展 提到很大的推动作用。 0004 深度学习是目前图像处理的主流方法, 因为它能在大量数据中自动提取特征, 并 归纳各。
9、特征的影响大小与影响方式, 深度学习中的卷积方法则着重提取图像的各个局部特 征, 进一步适应了图像的应用场景, 提高预测准确率。 本发明将利用密集连接卷积网络提取 局部视野的能力与深层网络的归纳能力, 提出对英语图像中的书写方面进行评级的解决方 法。 发明内容 0005 (一)解决的技术问题: 0006 解决试卷扫描图像中作文区域不能抽取书写级别特征, 导致作文评分误差较大问 题, 提供一种基于试卷扫描图像中作文区域文本书写评级方法。 0007 (二)技术方案 0008 为实现上述目的, 一种试卷扫描图像中作文区域书写评级方法, 采用将作文图像 切分成小图, 对小图预测类别后再通过小图类别预测。
10、大图书写级别的方案。 主要包括包括 图像切分、 小图预测、 预测数据再处理、 集成预测四个部分。 0009 优选的, 所述图像切分具体描述为: 作文区域图像先按比例缩放到560宽度即尺寸 为(560*(560*h/w), 再对缩放后的图像以112为步长切分成224*224的小图。 0010 优选的, 所述小图预测具体描述为: 构建小图分类训练数据, 采用密集连接卷积网 络denseNet训练分类模型, 对224*224的小图预测书写类别。 密集连接卷积网络denseNet设 置如下: 0011 (1)、 学习率: 0.01, 衰减率为0.9; 0012 (2)、 优化器: Adagrad; 0。
11、013 (3)、 batch:32; 说明书 1/4 页 3 CN 110929674 A 3 0014 (4)、 epoch:50; 0015 优选的, 所述构建小图分类训练数据具体为: 将作文图像切分成224*224小图进行 人工标注, 非手写体的label为0, 其他部分根据手写字体是否美观分为1、 2、 3、 4(对应 “较 差” 、“一般” 、“良好” 、“优秀” ), 一共五个类别。 0016 优选的, 所述预测数据再处理具体描述为: 以每张作文大图为单位, 对由denseNet 网络模型预测的小图类别结果再处理, 计算对应大图切分出的小图中各级别数量以及各级 别数量对该大图切出的。
12、小图总数量百分比。 0017 一种试卷扫描图像中作文区域书写评级方法, 包括以下具体步骤: 0018 步骤一、 收集数据: 准备作文区块的扫描图像500张, 尽可能包含应用场景的各种 答题试卷类型; 0019 步骤二、 数据切分: 将该500张图片分别缩放到(560*(560*h/w)尺寸, 再从上往 下、 从左往右将大图以112为步长切分成224*224大小图像保存; 0020 步骤三、 小图数据标注: 将步骤二切分出的小图进行五分类, 非手写体的label为 0, 其他部分根据手写字体是否美观分为1、 2、 3、 4(对应 “较差” 、“一般” 、“良好” 、“优秀” ), 每 类数据10。
13、00张; 0021 步骤四、 模型训练: 将步骤三标注的小图利用密集连接卷积网络denseNet进行五 分类训练, 保存模型; 0022 步骤五、 大图标注: 将步骤二缩放后的大图数据进行四分类(对应 “较差” 、“一般” 、 “良好” 、“优秀” )标注, 每类数据约100张; 0023 步骤六、 构建XGBoost训练数据: 以作文大图为单位, 对标注好的大图进行小图切 分并利用denseNet模型预测类别, 对每张大图所切出的小图的类别分别计算0类数量、 1类 数量、 2类数量、 3类数量、 4类数量、 0类数量占总数百分比、 1类数量占总数百分比、 2类数量 占总数百分比、 3类数量占。
14、总数百分比、 4类数量占总数百分比作为样本特征值, 大图的类别 作为样本label, 构建XGBoost训练数据; 0024 步骤七、 训练XGBoost模型: 用XGBoost训练数据训练集成模型XGBoost; 0025 步骤八、 整合方法流程: 将大图缩放、 切成小图、 denseNet模型预测、 预测结果再处 理、 XGBoost模型预测等部分组合一起。 0026 (三)有益效果 0027 本发明提出一种试卷扫描图像中作文区域书写评级方法, 具备以下有益效果: 本 方法主要针对试卷扫描图像中作文区域书写评级问题, 对作文图像先切分出小图, 再由密 集连接卷积网络模型提取小图特征预测小图。
15、类别后反向预测大图书写级别。 该方法在小图 切分时可去除作文大图四周存在的空白或打印字题的干扰, 将这些小图单独作为一类, denseNet网络结构的深层网络不仅可以将空白和打印字题区分出来, 还可以提取手写体的 书写特征进行书写评级预测, 而XGBoost模型对处理后的小图类别可以将注意力更均衡的 放在在手写体区域各个位置的特征上, 从而提升预测的准确度。 附图说明 0028 图1为本发明的整体网络结构图; 0029 图2为本发明的扫描切分小图示意图; 说明书 2/4 页 4 CN 110929674 A 4 0030 图3为本发明中作文大图分为四类样例; 0031 图4为本发明的作文图片切。
16、分出的小图五分类样例。 具体实施方式 0032 为了使本发明的目的/技术方案及优点更加清楚明白, 以下结合附图以及案例, 对 本发明进行进一步详细说明。 此处所描述的具体实施案例仅解释本发明, 但并不用于限定 本发明。 0033 如图1所示, 本发明是一种技术方案: 一种扫描试卷中作文区域书写评级方法, 采 用将作文图像切分成小图, 对小图预测类别后再通过小图类别预测大图书写级别的方案。 包括图像切分、 denseNet模型预测小图、 预测数据再处理、 XGBoost集成预测四部分组成。 0034 图像切分: 作文区域图像先按比例缩放到560宽度即尺寸为(560*(560*h/w), 再 对缩。
17、放后的图像以112为步长切分成224*224的小图, 如图2所示。 0035 小图预测: 需构建小图分类训练数据, 采用密集连接卷积网络denseNet训练分类 模型, 对224*224的小图预测类别, 密集连接卷积网络denseNet设置如下: 0036 (1)、 学习率: 0.01, 衰减率为0.9; 0037 (2)、 优化器: Adagrad; 0038 (3)、 batch:32; 0039 (4)、 epoch:50; 0040 构建小图分类训练数据为: 将作文图像切分成224*224小图进行人工标注, 非手写 体的label为0, 其他部分根据手写字体是否美观分为1、 2、 3、。
18、 4(对应 “较差” 、“一般” 、“良 好” 、“优秀” ), 一共五个类别, 如图4所示。 0041 预测数据再处理: 以每张作文大图为单位, 对由denseNet网络模型预测的小图类 别结果再处理, 计算对应大图切分出的小图中各类别数量以及各类别数量对该大图切出的 小图总数量百分比。 每张作文大图中各类别小图数量与所占百分百为特征数据, 对应作文 图像则需要标注四类书写级别记为1、 2、 3、 4(分别对应 “较差” 、“一般” 、“良好” 、“优秀” )作 为该作文图像样本的label。 四类书写级别如图3所示。 0042 一种试卷扫描图像中作文区域书写评级方法, 包括以下具体步骤: 。
19、0043 步骤一、 收集数据: 准备作文区块的扫描图像500张, 尽可能包含应用场景的各种 答题试卷类型; 0044 步骤二、 数据切分: 将该500张图片分别缩放到(560*(560*h/w)尺寸, 再从上往 下、 从左往右将大图以112为步长切分成224*224大小图像保存; 0045 步骤三、 小图数据标注: 将步骤二切分的小图进行五分类, 非手写体的label为0, 其他部分根据手写字体是否美观分为1、 2、 3、 4(对应 “较差” 、“一般” 、“良好” 、“优秀” ), 每类 数据1000张; 0046 步骤四、 模型训练: 将步骤三标注好的小图利用密集连接卷积网络denseNe。
20、t进行 五分类训练, 保存模型; 0047 步骤五、 大图标注: 将缩放后的大图数据进行四分类(对应 “较差” 、“一般” 、“良 好” 、“优秀” )标注, 每类数据约100张; 0048 步骤六、 构建XGBoost训练数据: 以作文大图为单位, 对标注好的大图进行小图切 说明书 3/4 页 5 CN 110929674 A 5 分并利用denseNet模型预测类别, 对每张大图所切出的小图的类别分别计算0类数量、 1类 数量、 2类数量、 3类数量、 4类数量、 0类数量占总数百分比、 1类数量占总数百分比、 2类数量 占总数百分比、 3类数量占总数百分比、 4类数量占总数百分比作为样本。
21、特征值, 大图的类别 作为样本label, 构建XGBoost训练数据; 0049 步骤七、 训练XGBoost模型: 用XGBoost训练数据训练集成模型XGBoost; 0050 步骤八、 整合方法流程: 将大图缩放、 切成小图、 denseNet模型预测、 预测结果再处 理、 XGBoost模型预测等部分组合一起。 0051 本发明提出一种试卷扫描图像中作文区域书写评级方法, 针对试卷扫描图像中作 文区域书写评级问题, 采取对作文图像先切分出小图, 再对小图预测类别后反向预测大图 书写级别。 该方法可以排除图像非手写体区域的干扰, 专注手写体区域特征, 提高预测准确 度。 并且预测多个小图比直接预测作文大图耗费更少资源降低使用门槛。 0052 以上所述仅为本发明的解释案例, 并不限制本发明, 凡在本发明的精神和原则之 内所作的任何修改、 等同替换和改进等, 均应包含在本发明的保护范围之内。 说明书 4/4 页 6 CN 110929674 A 6 图1 说明书附图 1/4 页 7 CN 110929674 A 7 图2 说明书附图 2/4 页 8 CN 110929674 A 8 图3 说明书附图 3/4 页 9 CN 110929674 A 9 图4 说明书附图 4/4 页 10 CN 110929674 A 10 。
- 内容关键字: 试卷 扫描 图像 作文 区域 书写 评级 方法
硫磺或硫铁矿制酸低温废热回收装置.pdf
沙蚕养殖装置.pdf
木材生产加工的翻转输送装置.pdf
马铃薯贮藏装置.pdf
自动输送扎花机.pdf
便于下料的不锈钢板压弯装置.pdf
海洋潮汐的水位监测仪安装装置.pdf
采血冰浴盒及样本固定装置.pdf
基于活性炭吸附脱附的有机废气连续处理系统.pdf
水利勘测水位计.pdf
微型高压放气阀.pdf
燃气管内壁清洁设备.pdf
光伏支架表面热镀锌装置.pdf
软管收卷调节机构及收卷机.pdf
转子线圈绕线压线装置.pdf
陶瓷坯泥生产设备.pdf
FRID通道式扫描机.pdf
智能电网安全运维监测装置.pdf
密封性好的细胞培养皿.pdf
计算机散热装置降噪组件.pdf
间续进料机构.pdf
电解液配置系统.pdf
实验小鼠喂药装置.pdf
智能防脱机械手.pdf
槽钢的压延结构.pdf
局部集中载荷作用下的组合梁精细化应力位移分析方法.pdf
精准按摩机芯机构.pdf
位置自动调节的热压装置.pdf
用于糠醛生产的糠醛渣输送装置.pdf
硫酸钾镁盐添加剂饲料生产用搅拌式混合装置.pdf
AIP三维堆叠TR气密封装组件.pdf
应急储能电源系统及应急储能电源.pdf