正则表达式和数字锚点技术在审计数据匹配中的应用
创始人
2024-09-05 16:02:16

随着社会信息化程度的提高,很多政府部门单位建立了与业务相关的计算机信息系统,并随之产生大量数据。由于软硬件平台的异构性及人为因素等,审计人员获取的数据经常存在不同程度的质量问题,如关键字段缺失等。在这样的情况下,大量不包含关键字段但属于审计疑点的数据无法被匹配到,以致难以全面、准确地发现问题。本文以某国有企业领导人员经济责任审计中的水费收费事项为例,介绍如何利用正则表达式和数字锚点技术高效处理原始收费数据,核查是否存在违规收费现象。

一、正则表达式和数字锚点技术简介

正则表达式(Regular Expression)是一种强大的文本匹配和处理工具。在大数据审计场景下,正则表达式是经常使用的技术手段,其内核算法简单高效,在文本处理中具有以下技术优势。

强大的模式匹配能力。正则表达式提供了丰富的语法和特殊字符,可用于描述复杂的文本模式,快速准确地进行字符串匹配、搜索、替换等操作。

灵活性和可扩展性。正则表达式支持通用的匹配和替换规则,并且具有较高的灵活性。审计人员可以根据需求自定义正则表达式,并将其应用于不同的文本处理任务。

跨平台和跨语言支持。正则表达式是一种通用的文本处理技术,主流编程语言(如PythonJavaJava等)都提供了对正则表达式的支持。

高效的字符串搜索和替换。正则表达式引擎经过优化,可以在大规模文本中进行高效的搜索和替换操作。

数字锚点的数据分析方法是指利用函数在字符串中锚定相关数字,并只限定在锚点附近的范围内进行代码的匹配分析。此方法用于剔除在代码循环运行的过程中产生的大量无用数据,大大提高数据分析效率。

二、应用实例

在某国有企业领导人员经济责任审计中,审计组核查水费收取过程中是否存在未按照用户性质分类导致水费标准归类错误的情况。被审计单位提供了超百万条杂乱的水费收取数据,抽查涉及的洗浴、美容美发两类商户信息数据达上万条,数据结构复杂、核查难度高。面对该情况,审计人员使用Python技术批量处理原始水费数据,一方面,利用正则表达式对不规范数据进行标准化处理;另一方面,利用正则表达式和数字锚点技术解决数据格式不同、数据量大造成的字符串匹配难度大难题。

(一)正则表达式在数据标准化处理中的应用

该国有企业提供的市民使用自来水收费明细汇总表包括居民用水、非居民用水、工商业用水、特种行业用水4Sheet表,其中每个Sheet表包括户名、地址、用水量、金额等13个字段。同时,审计人员从特种行业中筛选“洗浴行业用水”“美容美发用水”关键字段,汇总形成该市洗浴用水商户、美容美发用水商户信息数据表。具体操作如下。

首先,导入pandasre数据库。其次,将数据表利用pandas读入Python环境,同时将上述两个表的地址信息利用values.tolist转化成数据列表,用于后续匹配。再次,利用re正则表达式去除地址字段的无用符号,如空格、换行符以及程序运行中生成的程序符号。最后,利用split函数将地址用空格隔开,生成预处理后的数据。数据进行预处理后,一条原本有100个字符的水费收取信息被精炼提取到只有10个字符,大大提高了后续数据分析效率。

(二)正则表达式和数字锚点技术在数据分析中的应用

本案例的核心问题在于判断收取各类用水性质的商户水费时是否符合市定标准。商户信息数据和水费收费数据的共通指标是商户的地址,即审计人员需判断某一用水性质商户的地址和在水费明细表中对应地址的商户是否统一。但在被审计单位提供的水费收取表中,有些地址精确到街道,有些地址只写到省。在分析数据特征后,审计人员确定有效的地址字符范围为街道和户号,通过找到水费收取数据中地址的第一个数字所在位置,再囊括数字锚点一定范围内的有效字符,匹配特种行业性质的商户地址。具体操作如下。

首先,利用re正则表达式处理数据中多余的符号,以及在程序运行过程中生成的干扰符号。

其次,使用if条件语句并结合re.search函数,判断地址信息中是否包含数字:如果不包含,则输出该地址信息,标注为“企业地址信息填写不规范”;如果包含,则进行下一步操作,即通过start函数找出该条地址信息中户号的第一个数字所在该字符串中的索引位置,也就是数字锚点。返回至该索引位置,得到有效匹配字段范围为锚点前3位和锚点后4位,具体内容为“街道+户号”。

再次,通过for循环,将上述过程遍历地址信息中的每一个元素,输出未规范填写的商户地址和有效的地址信息字段。

最后,将未规范填写的商户地址信息调整为规范且有效的地址信息,直接对有效的地址字段(数字锚点前3位和后4位)进行字符串匹配,得到未按规定标准缴纳水费的商户名单。整个过程最终被封装成match函数,方便下次重复调用。

三、审计成效及展望

通过上述数据分析,审计核实该市所有洗浴和美容美发商户中有200多家本应按照特种行业的标准(4.85/吨)缴纳水费,但实际以一般工商行业的标准(3.95/吨)缴纳。通过类似的数据分析方法,审计人员还发现了其他行业降低标准缴纳费用的情况。

在数据预处理和分析过程中引入正则表达式和数字锚点技术,不仅可以将初始数据处理成审计分析所需要的数据格式,而且能更准确高效地对数据进行分析。同时,正则表达式作为一种匹配、搜索和处理文本的强大工具,适用于各种编程语言和文本编辑器,或可推广成为审计人员的常用分析工具。数字锚点的代码思想也可以运用到更多的工作场景中。

冯朝仙 谈雪琪

作者单位:江苏省宜兴市审计局

(本文刊登在《中国审计》2024年第16期)

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

大家提前做好准备,2026年下... 一个容易被忽略的事实是:2026年下半年,有一笔数目庞大的钱正在"被动出笼"。不是谁在炒作,不是哪家...
技术赋能产业数智升级,上海移动... 人民网上海6月29日电(记者马作鹏)2026上海世界移动通信大会(MWC上海2026)近日在上海新国...
豆包正内测社交功能?官方回应:... PChome 6月29日消息,近日网络上流传字节跳动旗下AI产品豆包正在内测社交功能的消息,引发行业...
开封市青少年科技运动会暨第六届... 全媒体记者任佳慧报道 6月28日,市科协、市教体局、市科技局联合举办开封市青少年科技运动会暨第六届开...
天上守护文物,首颗考古卫星来了... 近日,力箭一号遥十四火箭顺利完成发射任务,将8颗卫星精准送入预定轨道。其中,“文物01星”尤为特殊—...
原创 1... 近期,成人情感人形机器人彻底走红全网,创下消费级机器人的销量新纪录。数据显示,这款主打亲密陪伴的人形...
“AI+”不是简单做加法 眼下,随着高考考生们陆续进入志愿填报阶段,不少家长和考生尝试寻求人工智能(AI)的帮助。然而,有用户...
A股现“喝酒吃药”行情:反弹还... 财联社6月29日讯(编辑 张昱彤)今天A股画风突变。AI算力、消费电子等科技板块调整之际,“吃药喝酒...
南昌附近黄金回收怎么挑选有实体... 随着黄金消费市场的发展,不少南昌市民家中都有闲置的黄金制品,有处置需求时,多数消费者会优先选择有实体...
机构:金饰价格回归合理区间,头... 2026年6月29日,世纪证券发布了一篇商贸零售行业的研究报告,报告指出,金价回调释放刚需。 金饰价...