北京信息科技大学-智能信息处理研究所
Institute of Intelligent Information Processing, Beijing Information Science & Technology University

技术简介

当前位置:首页  技术简介 
  • 一、智能化中文文本校对技术简介

    随着计算机在新闻及图书出版业领域的广泛应用,各种电子出版物如雨后春笋班不断涌现,尤其是随着互联网技术的发展,网络电子杂志、商务网页、社交网络平台更是多如牛毛。而不管是出版社的报纸或是图书,还是互联网上的各种电子信息,一般都是通过键盘录入、OCR识别或语音识别等方式进入计算机的。这些录入方式在目前的技术水平下都不能保证所输入的信息准确无误。文本校对已经成为报刊、书籍出版前的审核把关的重要环节,它直接影响着出版物的质量。随着近年来出版行业业务量和电子化的飞速发展,校对环节的工作量大大增加,使得传统人工校对方法越来越成为印刷出版自动化的瓶颈,解决录入信息的准确性问题已经成为耽误之急。

    因此使用计算机来代替人进行文本校对工作意义重大,计算机校对比人工校对具有明显的优点,主要体现在以下几个方面:

    (1)计算机校对的速度快、效率高、不疲劳。校对工作本身是一种比较机械的工作,校对人员长时间地面对密密麻麻的汉字、字母、标点符号和各种算式,眼晴和精神都十分疲劳,往往在精神上产生一种烦情绪,注意力的广度和稳定性均直线下降,如果没有良好的敬业精神,甚至就会匆匆地测览而过,差错也就不知不觉地隐伏下来,给图书的编校质量造成影响。计算机校对则不存在疲劳和烦躁的问题,且它的速度和效率更是人工校对所望尘莫及的。

    (2)计算机不存在工作态度、心理情緒等问题,人工校对因不同人员的工作环境、工资待遇等的不同而会影响校对人员的工作态度或心理情绪,造成对文本校对质量的影响,而这种由于工作态度或心理情绪问题,在计算机上是不存在的。

    (3)计算机校对软件里的词库和专业术语词库容量非常之大,非一般的人工校对员的知识面所能比,且校对不同专业的书稿时,可挂接不同的专业术语词库,因此,对中文字、词、语法错误,不符合汉语语法和语义的词搭配错误、领导人人名和职务搭配错误、科学计量单位使用不规范、成对标点的错误使用、某些数字错误、不符合所挂专业词库的术语及英文单词拼写错误等均可迅速查出并标红。另外,对那些人工校对容易忽略的错误,如“冲刺”和“冲刺“(误),“竟争”和意争”(误),“震撼”和“震憾 (误),“气概”和“气慨(误),“治理”和“冶理”(误),“已经”和“己经”(误)等 等,电脑均能快速、准确地查找出来。

    智能化中文文本校对校对系统的组成:

    智能化中文文本校对系统主要包括知识获取模块、预处理与分词模块、自动查错模块和自动纠错模块四个主要模块,同时还包括预处理知识库、查错知识库、纠错知识库等知识库系统。各个模块之间的关系如图1所示:

    123.jpg.png

    (1)知识获取模块:从大规模语料库(包括生语料和熟语料)中获取语言统计知识,用以建立文本自动查和自动纠错的语言模型与算法。知识库由两部分构成:查错知识库和纠错知识库,查错知识库主要用于文本查错模型与算法,包括从生语料中获取的字频向量表、二元、三元字字同现率表,从分词和标注后语料中获得的词频向量表、词二元同现表、词性二元和词性三元同现表、二元义类大类和义类中类同现表、同时还包括句法知识库和政治性规则库。错知识库主要用于对标红的错误给出错建议,包括易混淆词典、相似码字词词典、字驱动双向词典、英文单词骨架键词典以及似然匹配规则。进行纠错建议排序时,还要用到查错知识库中的字词接续(由同现数据得到) 和词性接统计知识。

    这部分是独立于系统之外单独用来从语料中获取统计知识的,与其他三部分在程序上没有紧密的连接。

    (2)预处理与分词模块:预处理和分词模块主要是对校对的文本进行分词,目前我们的系统能够识别纯文本格式(DXT)和富文本格式(RF),对于其他格式的文本文件,如Word、PDF、WPS和华光格式,需要进行格式转换,去掉控制符,生成纯文本的格式。分词是大多数自燃语言处理系统的基础,本系统也不例外,我们实现了最大配的分词模块,该模块同时具有人名、地名的识别功能,由于使用插件式结构,本系统完全可用于分词模型与算法的试验,也可以将现有的效果较好的分词程序方便地接入我们的系统,用于查模型和纠错模型。

    (3)自动查错模块: 该模块主要实现了各种查错模型与算法,该模块的主要功能是进行中文文本错误的侦测查错,具体来说包括中文文本的字词级、句法级、语义级和政治性错误的侦测,对于字词级错误,我们主要在中文文本中的“非多字词错误”与“真多字词错误”的分类思想的基上,采用规则与统计相结合的方法进行错误侦测;对于句法级错误,在句法规则和语法词典的基础上,采用语法词典与统计相合的方法进行错误侦测;对于语义级错误,在义元理论的基上,采用语义搭配知识库与证据理论相结合的方法进行错误侦测;对于政治性错误,在政治规则库的基础上,采用知识推理的方法进行错误侦测。该部分的输出是対错误字串进行了标记的文本,其结果由标红子过程标示后显示在屏幕上 。

    (4)自动纠错模块:本模块主要实现了纠错建议的生成算法与排序算法,本项目的纠错建议生成算法是基于错误成因的。对于排音类错误,在特定大小的滑动窗口内,采用双向拼音匹配的方法进行错误的定位和纠错建议生成;对于五笔类错误,在特定的似然匹配规则的基础上,采用相似码计算的方法解决错误的定位和纠错建议生成问题。对于纠错建议排序,本项目构建了基于语义并置理论和上下文语境提出纠错建议的排序模型,通过融合上下文信息、大规模语料库和编码信息进行各个纠错建议化先权值确定,当优先权值确定之后,使用快速分类或冒泡法的排序算法对纠错建议进行排序。

    二、智能化立体仓库技术简介

    智能化立体仓库历经立体仓库、自动化立体仓库两个发展阶段演变而来的,其发展历程如下图所示:

    图片1.png

    智能化立体仓库系统集计算机信息管理、计算机控制技术与机械工程于一体,用于解决物流领域仓储利用低、占用土地多、物流效率低的问题。在机械零部件制造、医药、烟草、快消品、电子商务等领域具有广阔的应用前景。本项目通过校企合作,在相关科研项目的支持下,针对智能化立体仓库系统中WMS、WCS以及物流设备中的关键技术问题开展了长期深入的研究。

    通过不断的深入研究,我们确定了智能化立体仓库软件部分的三层架构,如下图所示:

    挖方.png

    WMS管理系统是仓库自动化管理系统的核心,它包括仓库信息管理,库存管理,出入库管理及报表等一系列管理功能,WMS管理系统功能模块结构如下图所示:

    范围而非.png

    调度系统负责堆垛机、输送机、叉车等各种硬件设备的调度指令的下发,调度系统结构图如下:

    吊袜带.png

  • 一、智能化中文文本校对技术特色

     (1)提出了中文本错误的“非多字词错误”与“真多字词错误”的分类思想,颠覆了对中文文本错误的传统认识,井构建了“非多字词错误”的侦测模型。针对以往研究人员认为中文文本中不会出现“非词错误”,只会出现上下文错误或“真词错误”的看法,通过对正确文本分词后的结果进行归纳分析,提出了中文文本错误的“非多字词错误”与“真多字词错误”的分类思想,颠覆了传统中文文本错误的认知,为英文文本错误侦测模型引入中文创造了前提,进而构建了“非多字词错误”的初步定位模型,有效提升了中文文本错误侦测的效率和性能。

    (2)提出了基于义元理论的语义搭配知识库的构建方法,并构建了语义错侦测模型。针对中文文本中词法、句法正确,但不符合语义搭配规范的语义错误,采用大规模语料库与 HowNet 中的义原信息相合,构建了基于义元理论的语义知识库,将无限的词语语义搭信息转化为有限的义原搭配信息,有效缩减了词语语义搭配空间;同时,基于D-S证据理论的不确定性推理理论和多源证据融合策略,有效解决了语义搭配关系的不确定推理问题,取得了较好的语义错侦测性能,该思想在国内外相关领域中具有创新性,为语义错误的侦测提供了新思路。

    (3)提出了基于滑动窗口的双向拼音匹配、似然匹配的相似码计算和上下文语境相结合的字词级错误定位及纠错建议生成排序模型。根据字词误的成因,在特定大小的滑动窗口内,采用双向拼音匹配的方法解决拼音类错误的定位和纠错建议生问题;在特定的似然匹配规则的基础上,采用相似码计算的方法解决五笔类错误的定位和纠错建议生成问题,在提高了错误定位的准确率的基础上,有效提升了纠错建议的生成质量。另库信息和编码信息,有数提升了纠错建议的持序质を合上下文信息,大外依义并置理论和上下文语境提出错建议的排序模型。

    二、智能化立体仓库技术特色

    在WMS软件方面的:

    (1) 提出了一种基于“标准当量”的非规则物品组盘方法 

    创新性地引入“标准当量”概念,对非规则物品进行归一化处理---解决了非规则物品组盘载货量最大化问题,进而提高存储效率约10%入库效率9%

    通过对领料数据的挖掘分析,将得到的物品关联关系引入组盘算法中,使相关的物品可组装或拼装在一个托盘上---提高物品的拣选出库效率30%左右。

    这是已知的其它厂家的WMS所不具备的。

    引入“标准当量”后,托盘装载量的计算模型,装载率能提高约10%。

    (2)  提出了多目标优化的级联式货位动态综合分配算法  

    构建了以堆垛机、排、列区域、列、层为目标的级联式货位动态综合分配算法---满足了承载均匀、分巷道存放就近入库、上轻下重等要求,保证了仓库安全,提高了效率。

    非非.png

    满足重量、物品均匀分布等目标的级联式货位动态分配模型

    我.png

    在WCS软件方面的:

    (3)提出了直线开端轨道往复式多RGV穿梭车智能调度方法

    引入全局系统状态和时间窗的概念,提出了多辆RGV的避撞和防追尾算法。该算法是我们的独创。

    成功应用于某军队洞库系统,该系统采用了下图所示的直线开端轨跑2个RGV车的结构,调度难度很大。

    验收测试表明运送效率提高至少50%

    部分都不敢.png

    (4) 提出了弯道式立库拣选出库路径优化调度算法 

    考虑数量最近,先进先出,就近出库的拣选要求,结合弯道立库的特点,提出了弯道式立库拣选出库路径的调度算法—---避免了作业调度的路径冲突,拣选出库效率提高约30%

    飞速非.png

    在设备制造方面的:

    (5)创新地研发了基于共直流母线技术节能型堆垛机

    ---解决了堆垛机的运行速度、定位精度以及节能问题

    (a)采用铝合金制造,重量减小24%左右。

    (b)设计抗摇摆驱动,速度更快,精度更高。

    (c)采用共直流母线技术,节约电能约21%。

    (d) 采用整体轮箱结构,制造安装简便,寿命比其它厂家长5年。

    (6)创新地研发了具有高柔性度的穿梭车系统

    --解决了穿梭车对轨道安装要求高的难题,工况适应性强,更加节能

    (a)采用吸塑工艺和PC材料,降低了穿梭车的整体功率,更加节能;

    (b)采用双闭环伺服系统,动态响应快、抗干扰能力强,定位更加准确;

    (c)采用8轮行走机构,降低对轨道安装的要求,提高了系统的柔性度。

    实现的.png

  • 一、智能化中文文本校对技术适用范围

    1. 出版社;

    2. 政府部门;

    3. 学校;

    4. 从事中文文本校对的企业;

    5. 其它需要处理中文文本错误的应用场景;

    二、智能化立体仓库技术适用范围

    1. 医药行业;

    2. 零部件制造业;

    3. 快消品及电子商务行业;

    4. 电力及其他行业;

  • 一、智能化中文文本校对技术应用前景

    本项目研制的中文文本校对及文本比对软件以原型系统、插件、AP1、动态链接库的形式提供给第三方应用。

    目前我们直接服务的用户包括:外交部第一局、北京溯源鸿业科技有限公司、北京拓尔思信思技术股份有限公司、数据堂(北京)科技股份有限公司、南京热信软件科技有限公司、北京语言大学等近十家单位。

    通过北京溯源鸿业科技有限公司实现技术转移公司和部门的包括外交部、安全部、中办、航天三院、北大方正、中安网安等多个单位。直接经费总额超过200万元,间接效益超过6000万元,取得了良好的经济效益和社会效益。

    目前和我们商谈开展技术合作或转让的单位有:方寸科技发展有限公司、科学技术文献出版社、科学出版集团、解放军报社等。

    二、智能化立体仓库技术应用前景

    本项目产生了有价值的科研成果,实现了高校科研成果的产业化转移,已经成功应用于22个省的多个行业中。近三年,项目总收入 40713.22万元,总利税10552.73万元。其中,利润 :5922.51万元,税收:4630.22万元。

    该项目产生了巨大社会经济效益,1.提高生产效率和管理水平:资金周转加快,物品积压减少,生产效率提高,产生约400万的效益。 2.节约了大量土地:与人工立库相比能节约一半的土地,每个库节约10亩地,累计节约土地1000亩。 3.节约了人力成本:以7000个货位的立库为例,由30人降至4人,每年人力成本节省约210万元。 4.节约能源成本:节约用电约20%。据估计,总的社会效益约为50亿元。

    以下为成功应用本项目的企业名称列表:

    医药行业:

    1. 国药集团深圳致君药业           

    2. 九州通医药集团                    

    3. 华润制药三九药业                           

    4.华润集团双鹤药                       

    5. 北京以岭药业集团                 

    6. 正大制药集团                                     

    7.中国天津大冢制药有限公司………

    零部件制造业:

    1. 秦皇岛港股份有限公司            

    2. 奔驰汽车                          

    3. 北京现代汽车有限公司                         

    4. 中船重工                                  

    5. 南京华赛福保安器材有限公司        

    6. 中国北车集团                           

    7. 中航工业西安航空发动机有限公司………

    快消品及电商行业:

    1.山西杏花村汾酒厂股份有限公司  

    2.青岛啤酒股份有限公司    

    3.酒仙网电子商务有限公司                 

    4. 安徽开米绿色科技公司

    5.重庆玛斯特供应链管理有限公司    

    6. 南京喜之郎食品有限公司

    7. 汤臣倍健股份有限公司………

    电力及其他行业:

    1. 国家电网浙江武义电力有限公司    

    2. 中海油天津有限分公司

    3. 菏泽德通新材料科技有限公司        

    4. 浙江美大实业股份公司

    5. 上海开能环保设备股份有限公司   

    6. 东莞玖龙纸业有限公司………