文字识别技术在人事档案工作中应用的前景研究

作者:论文查重系统     发表时间:2020-10-24 18:37:36   浏览次数:346


  【摘 要】论文通过对文字识别技术,特别是中文手写识别技术的分析和文字识别技术的应用研究,及档案工作的回顾分析,探索并提出文字识别技术在档案工作中的应用场景,为数字化时代的档案工作提供思路。

  【关键词】文字识别;档案管理;应用场景

  1 引言

  数据采集是所有工作的起点,并决定了解决效果的上限。利用文字识别技术,目前大量的文档采集从专有设备转向了普通手机,数据采集者也从专业办公人员转向普通用户。

  2 文字识别技术现状分析

  计算机文字识别,又名光学字符识别、OCR识别,是利用光学技术和电子信息技术把印在或写在纸上的文字提取出来,并转换成一种计算机能够接受、人又可以理解的形式。OCR技术是实现文字高速输入的一项核心技术。

  2.1 文字识别技术的发展

  2.1.1 西文识别技术的发展

  在OCR技术中,印刷体文字识别是开展最早、技术上最为成熟的一个。早在20世纪20年代末期德国科学家最早取得了光学字符识别的专利。西方国家为了将大量报章杂志、文件材料和票据表格等纸质材料输入计算机进行信息处理,从20世纪50年代就开始了西文文字识别技术的研究。随着信息技术的飞速发展与研究人员的不断探索和完善,西文文字识别技术现已逐渐渗透于各行各业。

  2.1.2 中文识别技术的发展

  第一,中文印刷体识别技术的发展。

  与印刷体西文文字识别相比,汉字的印刷体识别技术的研究是在字母和数字的印刷体识别基础上发展起来的,发源于20世纪60年代。60年代中期,BIM公司的工作人员发表了首篇关于印刷体汉字识别的论文,在这篇论文中他们利用简单的模板匹配法,识别了一千个印刷体汉字。从70年代以来,日本研究人员在汉字识别方面做了许多探索和发明,其中比较著名的系统有70年代东芝综合研究所研制的可以识别两千个独立印刷体汉字的识别系统;80年代早期,日本武藏野电气研究所研制的可以识别两千三百个連续汉字的识别系统,代表了当时汉文OCR识别的最高水平。此外,日本的松下、富士等公司也有其研制的印刷体汉字识别系统。这些系统在方法上,大都采用基于K-L数字转换的计算方法,使用了大量专用设备,甚至有的相当于大型机,价格不菲,所以并没有得到普及和推广。

  印刷体的中文识别自20世纪80年代中期规模发展以来,清华大学、中科院、沈阳自动化研究所等一众单位分别研制并开发出了可以量产的印刷体中文OCR识别系统。尤其是由清华电子工程系研制的清华文字识别产品和由汉王开发的尚书文字识别产品,它们占据着OCR技术的领先地位,并拥有最多的OCR客户,代表着印刷体中文OCR技术的未来发展趋势。目前,印刷体中文识别技术已经从简单的文字识别逐渐发展到了表格的自动识别、自动输入的研究阶段,图片文字混合、各种语言混合下的内容提取、语义理解,各种卡片、票据的识别和历史文献的识别等都逐渐开展起来。多种相关的识别系统如雨后春笋般应运而生,如紫光文通推出的名片识别系统和慧视屏幕文字图像识别系统等。这些新的识别系统的出现,标志着印刷体中文识别技术的应用领域得到了扩展。

  第二,中文手写识别技术的发展。

  中文手写识别由于信息的获取形式不同,可以划分为非在线中文手写识别和在线中文手写识别两种。在线中文手写识别所处理的手写体汉字是书写者通过物理设备在线输入获取的文字信号,笔画的顺序通过计时器采样实时输入计算机中。非在线中文手写识别所处理的手写汉字是通过扫描设备或手机摄像头等图片抓取设备采集到的手写汉字图片。

  近年来,百度OCR技术在检测、识别和端到端三个核心技术领域多次取得并保持了世界第一的排名,具备较明显的领先优势。腾讯集团的数平精准推荐团队研发了一种适用于各个角度汉字的点对点提取方法,能够有效解决文字尺度不一、形态万千和检测器对标准过于敏感等问题,大幅提高了测试步骤的准确度。

  中国知网查重:https://www.cnkilunwen.net/

本站声明:网站内容来源于网络,如有侵权,请联系我们,我们将及时删除处理。

论文写作相关资讯

学术不端查重入口


检查语种:中文,英文,小语种 预计时间:2小时-6小时
系统说明硕博初稿检测(一般习惯叫做硕博预审版),论文查重检测上千万篇中文文献,超百万篇各类独家文献,超百万港澳台地区学术文献过千万篇英文文献资源,数亿个中英文互联网资源是全国高校用来检测硕博论文的系统,检测范围广,数据来源真实,检测算法合理!本系统含有(学术库与源码库)。(限制字符数30万)
检查范围硕士、博士论文初稿【误差一般在3%左右,不支持真伪验证】
498.00元/篇
立即检测
检查语种:中文,英文 预计时间:60分钟
系统说明论文查重软件,维普论文检测系统:高校,杂志社指定系统,可检测期刊发表,大学生,硕博等论文。检测报告支持PDF、网页格式,性价比高!
检查范围毕业论文、期刊发表
4.00元/千字
立即检测
检查语种:中文,英文,小语种 预计时间:2小时-6小时
系统说明比定稿版少大学生联合比对库,其他数据库一致。出结果快,价格相对低廉,不支持验证,适合在修改中期使用,定稿推荐PMLC。——不支持验证!!!
检查范围本/专科毕业论文,不支持验证
288.00元/篇
立即检测
检查语种:中文,英文,小语种 预计时间:24小时-72小时
系统说明本科定稿查重版(一般习惯叫本科终评版),论文抄袭检测系统,专用于大学生专、本科等论文检测的系统,大多数专、本科院校使用此检测系统。(限制字符数6万)
检查范围本科论文检测【是提交学校前进行的一次摸底评估,基本一致】
388.00元/篇
立即检测
检查语种:中文 预计时间:60分钟
系统说明论文检测网站,万方数据平台推出的万方查重系统是目前较为热门的检测系统。究其原因,万方数据通过近年的发展,在高校中也确立了自己的相应地位,特别是部分高校直接将其视为毕业检测系统,其真实性和权威性无可厚非。其次,相对于知网而言,万方检测费用少,上手容易,是学生初次论文查重的推荐系统。
检查范围毕业论文、期刊发表
4.00元/千字
立即检测
检查语种:中文 预计时间:60分钟
系统说明PaperPass检测系统是北京智齿数汇科技有限公司旗下产品,网站诞生于2007年,运营多年来,已经发展成为国内可信赖的中文原创性检查和预防剽窃的在线网站。 系统采用自主研发的动态指纹越级扫描检测技术,该项技术检测速度快、精度高,市场反映良好。
检查范围学位论文和学术期刊
3.00元/千字
立即检测
检查语种:中文,英文,小语种 预计时间:3小时-72小时
系统说明职称评审论文检测系统针对编辑部来稿,已发表的文献,学校、事业单位职称论文的检测!大部分杂志社用的文献抄袭检测系统。可检测抄袭与剽窃、伪造、篡改、不当署名、一稿多投等学术不端文献,学术不端论文查重可供期刊编辑部检测来稿和已发表的文献,检测结果和杂志社一致,已发表过的文章检测时注意填写第一作者,才能排除已发表文献复制比。(限制字符数1万)
检查范围投稿/发表/职称评审
5.00元/千字
立即检测
检查语种:中文 预计时间:60分钟
系统说明格子达依托学术期刊库收录了海量对比资源,其中包括中国论文库、中文学术期刊库、中国学位论文库等国内齐全的论文库以及数亿级网络资源,同时本地资源库以每月100万篇的速度增加,是目前中文文献资源涵盖全面的论文检测系统,可检测中文、英文两种语言的论文文本。
检查范围毕业论文、期刊发表
5.00元/千字
立即检测
检查语种:简体中文、英文 预计时间:60分钟
系统说明PaperTime论文查重系统,拥有海量的对比数据库,总收录超过9000万的学术期刊和学位论文以及一个超过10亿数量的互联网网页数据库组成,保证了比对源的专业性和广泛性。采用多级指纹对比技术结合深度语义发掘识别比对,利用指纹索引快速而精准地在云检测服务部署的论文数据资源库中找到所有相似的片段,该项技术检测速度快、准确率高,市场反映良好。
检查范围毕业论文、期刊发表
2.00元/千字
立即检测
在线客服 返回顶部