档案管理的“数字赋能者”,汉王科技的底牌有哪些?
从文明诞生以来,人类就一直在寻求更有效的信息存储方式:从4万年前的洞穴壁画、6000年前的泥板楔形文字,到今天普及的SSD/闪存,再到对量子存储、DNA存储技术的探索,脚步从未停止。
由此可见,数据存储技术的发展,或许是人类文明发展的一条“暗线”——为了寻求更安全、更长久、更便捷的信息存储方式,几千年来的人类一直在不断探索。正如美国数学家、信息论的创始人克劳德·艾尔伍德·香农对于数据储备的价值所说过的那句话:
“人类文明的进步史,就是不断获取更多信息的过程,在此其中,存储技术一直是信息的基石。”
在数据存储技术的发展过程中,“万物皆数”的思维渗透其中,过去以传统载体形式存在的事物,在未来都将会以数据的形式存在。而这也预示着,“档案”与“数据”之间的边界将日益模糊。
因此,“档案管理工作正在经历从‘数字化’到‘数据化’和‘知识化’的转变,既是对纸质档案数字化工作的推进,也是对档案利用的深层次开发,更是推动档案服务升级的新契机。”这一说**逐渐获得越来越多档案管理行业者的认可。
杭州档案馆《OCR+NLP在档案数据化中的研究与实践》项目便是一例:汉王科技利用人工智能技术对杭州档案馆现有档案管理和利用方式进行优化升级,对存量档案进行数据化和知识化处理,活化档案内容,一方面便于深度利用,另一方面,预示着档案建设新时代的到来。
盘活“死档案”,OCR+NLP成新路径
档案的重要性不言而喻。它是人类社会发展最根本的信息资料积累。档案不仅记录了个人工作生活经历、物理轨迹,为个人职业发展提供最有力的凭据,也记载了各类大大小小的社会事件,是人类社会发展过程中可供查阅的详细记录。
然而,传统的纸质档案管理模式需要耗费更多的人力资源、物力资源和空间资源。例如在档案保存方面,档案馆要考虑防火、防盗、防潮、防蛀、防霉等诸多问题;一旦出现文档纸张酸化、老化、遗失、以及字迹扩散等问题,文档将成为“死档案”不再允许借阅利用。因此,作为不可再生的“集体记忆”,纸质档案的妥善保存尤为关键。
无论是从档案管理的工作效率、档案本身的利用率,还是从环境保护、社会的长远发展来看,档案管理形式都亟须进行数字化转型以降低潜在风险。
“档案管理的数字化转型不仅是是数据资料管理方面的创新,也是对档案数据资料有效运用的创新,将数字化作为档案管理的载体,对庞大繁杂且易损的档案资料进行收集、审核、存储、查阅、调取,充分发挥档案管理的作用,是顺应社会发展需求的重要一环。”汉王科技旗下汉王数字副总经理李云鹏说道。
作为业界最早致力于OCR(光学字符识别)识别技术研发和应用的企业之一,汉王科技的优势应用技术就是文档电子化。早在2013年,汉王科技便将文档电子化的触角延伸至图书馆、档案馆,银行、医院、**等多个领域。
但在这些具体项目的实施中,汉王科技也逐渐意识到:文档数字化的“江山”虽已打下,但这只是完成了信息应用的基础工作,形成的电子文本是非结构化数据。这样的电子文档没有文本挖掘,无法进行数据深度利用。
因此,要将文档的非结构化数据进行结构化处理,转化为技术术语,即真正地为静态的文字“赋予活力”,就必然要用到NLP(自然语言处理)技术。
李云鹏表示, NLP正在成为信息时代最重要的技术之一,同时它也是人工智能的关键部分;而OCR与NLP技术的融合,便能够通过机器识别与理解技术,来实现对档案数据的深度利用。
汉王科技方面表示,早在2016年,汉王科技重金引入国内高水平的自然语言处理团队进行文档大数据化研发工作,力图突破NLP技术,建立起自己的文档大数据库体系,开发各种新的应用,主要包括文本分类、聚类、结构化数据抽取、知识抽取、知识图谱、机器阅读等在内的众多关键技术。
如今,汉王已经形成了从技术研发,到**、医院、图书馆、档案馆、银行等多行业应用的闭环,各子公司也在技术和场景应用的协同中,形成了良好的联动效应。
基于档案数据化领域的OCR+NLP技术应用经验,汉王科技对杭州市档案馆现存的数据展开研究。“杭州市新冠防疫工作公文”以及“杭州市医学出生证明”,实现了由档案数据通过OCR识别、NLP语义分析、要素抽取、知识融合、知识图谱构建到档案知识图谱数据可视化的开发;总结了一套基于OCR+NLP构建档案知识图谱的实现流程;形成了新冠防疫与医学出生证明两个领域的专题知识库。
掌握核心技术,助力疫情防控
“杭州档案馆之所以选择汉王科技为档案数据化工作赋能,主要看重汉王的核心技术能力。”李云鹏说道。
在传统OCR技术中,图像预处理通常是针对图像的成像问题进行修正。常见的预处理过程包括:几何变换(**、扭曲、旋转等)、畸变校正、去除模糊、图像增强和光线校正等。
其中影响识别准确率的技术瓶颈便是文字检测和文本识别,而这两部分也是OCR技术的重中之重。
对此,汉王科技基于海量的标注数据训练深度学习模型,对文字的识别能力已经达到应用场景落地的需要。目前,文字识别模型对印刷体的识别准确率可以达到99%以上,对手写体的识别准确率也可以达到90%以上。
不仅如此,在与杭州档案馆合作的《OCR+NLP在档案数据化中的研究与实践》项目中,汉王科技还将OCR识别能力扩展至“复杂表格识别”和“文字块聚合”两个方面。
李云鹏向亿欧透露,在图像中自动识别表格,本质上是计算机视觉中的“目标检测”技术。汉王科技将表格整体及单元格作为需要检测的目标,通过大量标注相关数据训练深度学习模型,能够较为准确地输出各个单元格的位置和大小,再经过后处理,将各单元格合并为表格。
同时,汉王科技基于先进的神经网络架构,如Faster R-CNN、SSD、YOLO等,加上该公司自行标注的数据进行训练和学习,得到表格识别模型。该模型识别出表格及各单元格的位置与大小后,结合OCR文字识别所得到的文字位置,可以计算出各个单元格所含具体文字。
除此之外,文字块的聚合本质上是一个分类模型,将多行文字的语义以及它们的版面信息特征化后得到一个向量,然后训练神经网络模型对这个向量进行分类,目标类别为两类:聚合或不聚合。借此,汉王科技将定义文字块聚合的标准输出数据结构,输出数据包括且不限于文字块的位置、宽、高、相邻文字块ID等。
目前,汉王OCR不仅实现了对有线表格的识别处理,还突破了无线表格的识别难题。
“汉王科技的OCR技术在档案行业处于较明显的领先地位,这是因为我们拥有扎实的底层技术和多年的积累,同时对档案有着深刻的理解,这一点是在行业内是独一无二的。”李云鹏说道。
如今,随着汉王科技与杭州档案馆的合作不断深入,OCR+NLP在档案数据结构化中的应用方法已经实现对公文、医学证明、工业档案等多个类型的关键数据的抽取,且能将抽取的数据保存到结构化数据库中,档案管理及用户查询检索更加便捷。
例如在2020年杭州新冠防疫的相关文件梳理中,便通过知识图谱形式来进行展现,能够很直观地呈现2020年杭州市各级政府单位针对新冠防疫工作所作出的部署及其经验成果,这一专题知识库对于杭州未来部署类似疫情防控工作具有重要的现实意义。
结语
2022年6月,云南财经大学发表的《OCR领域专利全质押融资评估研究-以汉王科技为例》认为,汉王科技基于多年积累的OCR识别技术优势(曾获得国家科学进步二等奖),如今已在司法、金融、档案、医疗等领域均存有高忠诚度的长期优质客户。
基于汉王科技在OCR以及NLP技术占据领先地位,该公司在未来还将拥有广阔的发展空间。尤其在医疗领域,据估算,以电子病历为核心的智慧医疗场景将会带来150亿元的增量空间,汉王科技在其中大有可为。
面对如此“光亮”的前景,李云鹏向亿欧表示,汉王科技作为国内最早开展人工智能技术的企业之一,对于底层技术的构建十分看重,而这也是该公司成为档案资源数字化转型重要供应商的主要原因之一。在未来,汉王科技将还将在档案数字化转型领域中继续深耕,挖掘档案知识形成知识库,为企业及社会提供更加智能化的服务。
一 公司基本情况速览总股本:1.879亿 总发行量 :4690万 发行**:10.69元 募资总额:5.01亿发行市盈率:20.42倍 行业市盈率:19.12倍所属行业:燃气生产和供应 所属区域:陕西
美能能源(001299)12月6日主力资金净买入1125.28万元
截至2022年12月6日收盘,美能能源(001299)报收于27.53元,上涨2.92%,换手率39.8%,成交量18.67万手,成交额5.05亿元。12月6日的资金流向数据方面,主力资金净流入112
截至2022年11月8日收盘,美能能源(001299)报收于22.69元,上涨3.18%,换手率71.38%,成交量33.48万手,成交额7.75亿元。资金流向数据方面,11月8日主力资金净流出399
专访美能能源董事长晏立群:紧随绿色低碳能源**大潮 捕捉清洁能源发展新商机
90年代初,****前沿的深圳还处在草莽创业的时期,那时候,深圳吸引了一批又一批来自全国各地的年轻人,晏立群就是其中之一。从外出闯荡到回乡扎根,从推销液化气灶具到推广应用天然气,从“打工人”到创业者,
美能能源(001299)7月20日股东户数2万户,较上期减少6.82%
近日美能能源披露,截至2023年7月20日公司股东户数为2.0万户,较7月10日减少1465.0户,减幅为6.82%。户均持股数量由上期的8731.0股增加至9370.0股,户均持股市值为15.18万
美能能源2023年3月22日在深交所互动易中披露,截至2023年3月20日公司股东户数为2.27万户,较上期(2023年2月10日)减少3573户,减幅为13.59%。美能能源股东户数低于行业平均水平
美能能源7月24日在交易所互动平台中披露,截至7月20日公司股东户数为20020户,较上期(7月10日)减少1465户,环比降幅为6.82%。证券时报•数据宝统计,截至发稿,美能能源收盘价为16.20
记者 | 陈慧东编辑 | 10月31日上市首日,美能能源(001299.SZ)高开后一路上涨,两次触及涨停**,于10时01分许封上涨停板。截至收盘,该股股价上涨43.97%,报15.39元/股,成交
美能能源2023年7月18日在深交所互动易中披露,截至2023年7月10日公司股东户数为2.15万户,较上期(2023年6月30日)增加59户,增幅为0.28%。美能能源股东户数低于行业平均水平。根据
多主力现身**榜,美能能源换手率达67.90%(11-24)
深交所2022年11月24日交易***息显示,美能能源因属于当日换手率达到20%的证券而登上**榜。美能能源当收22.57元,涨跌幅为-1.53%,换手率67.90%,振幅10.43%,成交额7.
多主力现身**榜,美能能源换手率达47.30%(11-23)
深交所2022年11月23日交易***息显示,美能能源因属于当日换手率达到20%的证券而登上**榜。美能能源当收22.92元,涨跌幅为9.98%,换手率47.30%,振幅12.57%,成交额4.9
11月30日美能能源(001299)**榜数据:机构净买入6.49万元
沪深交易所2022年11月30日公布的交易***息显示,美能能源(001299)因日换手率达到20%的前5只证券登上**榜。此次是近5个交易日内第5次上榜。截至2022年11月30日收盘,美能能源(0
美能能源将开启申购:上半年增收不增利,预计上市时市值20亿元
10月17日,陕西美能清洁能源集团股份有限公司(下称“美能能源”,SZ:001299)披露发行公告,并将于2022年10月18日开启申购。本次上市,美能能源的发行价为10.69元/股,发行市盈率20.
美能能源(001299)11月15日主力资金净卖出2095.05万元
截至2022年11月15日收盘,美能能源(001299)报收于20.1元,下跌1.03%,换手率21.43%,成交量10.05万手,成交额2.01亿元。11月15日的资金流向数据方面,主力资金净流出2
深交所2022年10月31日交易***息显示,美能能源因属于无**涨跌幅**的证券而登上**榜。美能能源当收15.39元,涨跌幅为43.97%,换手率7.15%,振幅23.95%,成交额5142.
陕西又一城燃公司IPO过会,美能能源“内生式增长”成效几何?
华夏时报(www.chinatimes.net.cn)记者 苗诗雨 陆肖肖 北京报道继陕天然气(002267.SZ)后,陕西第二家区域性城燃公司即将于近日上市发售。天然气资源和油气资源丰富的陕西地区,
加码新能源领域投资 美能能源拟投建集团总部暨西安智慧能源研究院
本报记者 殷高峰11月14日,美能能源发布公告称,公司与西安高新区管委会拟签订《美能能源总部暨西安智慧能源研究院建设项目协议书》,公司计划在西安高新区上市企业园建设美能能源总部暨西安智慧能源研究院,总
多主力现身**榜,美能能源换手率达55.10%(11-25)
深交所2022年11月25日交易***息显示,美能能源因属于连续三个交易日内收盘**涨幅偏离值累计20%、当日换手率达到20%的证券而登上**榜。美能能源当收24.83元,涨跌幅为10.01%,换
多主力现身**榜,美能能源换手率达32.22%(05-29)
深交所2023年5月29日交易***息显示,美能能源因属于当日换手率达到20%的证券而登上**榜。美能能源当收18.72元,涨跌幅为3.43%,换手率32.22%,振幅12.43%,成交额2.73
11月7日美能能源(001299)**榜数据:机构净卖出1216.39万元
沪深交易所2022年11月7日公布的交易***息显示,美能能源(001299)因日换手率达到20%的前5只证券登上**榜。此次是近5个交易日内第3次上榜。截至2022年11月7日收盘,美能能源(001