在过去二十年中,从起初的手工记账到现在的多方位信息化管理,计算机信息管理已经越来越多应用于装备财务管理的日常工作中,由此而产生了数量众多装备财务信息,这是分析装备财务效益,完善保障手段的依据,但这些有用的信息都隐含在海量数据中很难区分,信息的利用率比较低。因此,采用计算机自然语言识别技术自动提取信息已成必定的选择。它可以提高装备财务信息的效率和质量,避开传统审计方式各个环节的漏洞,并同时保证了审计的公正性。
会计凭证中的摘要, 是依据审核无误的原始凭证对某项经济业务的内容所作的简明扼要的说明,也是财务信息使用人员从记账凭证和账簿上了解经济业务内容的途径,并由此寻找和发现不符合财务制度列支的事项。
摘要的特点是书写格式比较规范的短句,主要结构可以分为两大类:日常收支业务摘要填写和不涉及货币资金的业务摘要填写。
日常收支类业务摘要填写主要包括:购买装备、维修器材、办公用品、耗材等;报销差旅业务费;缴纳杂项费用、发放工资;借款还款业务。这类业务摘要填写的基本模式大致为:部门+姓名+(根据某预算项目)报销+业务费用内容,即主动宾格式。
不涉及货币资金的业务摘要填写主要包括:内部转账凭证;购进低值易耗品、固定资产出入库业务;提取某月职工加班费、慰问费、职工福利费等;收到上级下达或向下级下拨款项。这类业务摘要填写的基本模式大致为:购(代扣、暂收、下拨、计提等)+物品(经费、项目)+(入库),即动宾格式。
但是,由于摘要内容是由财务人员手工录入,每个人书写习惯的不同使得摘要的形式受到了一定的人为主观因素的影响。然而,对于摘要的填写格式,相关规定也只有大概的要求并无严格界定,某种程度上来说,只要可以被人所理解的摘要书写格式就被人认为是合理的书写格式。因此,摘要包含着许多的不确定性,不可能通过简单策略获取有用信息,这就是摘要信息自动识别的难点。
自然语言识别分词策略可分为规则分词法、模式匹配分词法和统计分词法三大类。其中模板匹配分词法是一种基于模式匹配的自然语言处理策略,它能够处理任何一个特定领域的自然语言。用模式匹配的策略进行自然语言的处理,必须首先分析自然语言的语法、语义规则,并从中提取不同的语言模式。每一种模式都要有利于从中精确地检索出所需要的信息。模式根据具体的需求,从自然语言的语法中提取某一成分,或者可以是几种成分的交融。目的是更有利于根据模式识别出自然语言中所需要的信息。而不必受制于语法的限制。