正则表达式和数字锚点技术在审计数据匹配中的应用
创始人
2024-09-05 16:02:16

随着社会信息化程度的提高,很多政府部门单位建立了与业务相关的计算机信息系统,并随之产生大量数据。由于软硬件平台的异构性及人为因素等,审计人员获取的数据经常存在不同程度的质量问题,如关键字段缺失等。在这样的情况下,大量不包含关键字段但属于审计疑点的数据无法被匹配到,以致难以全面、准确地发现问题。本文以某国有企业领导人员经济责任审计中的水费收费事项为例,介绍如何利用正则表达式和数字锚点技术高效处理原始收费数据,核查是否存在违规收费现象。

一、正则表达式和数字锚点技术简介

正则表达式(Regular Expression)是一种强大的文本匹配和处理工具。在大数据审计场景下,正则表达式是经常使用的技术手段,其内核算法简单高效,在文本处理中具有以下技术优势。

强大的模式匹配能力。正则表达式提供了丰富的语法和特殊字符,可用于描述复杂的文本模式,快速准确地进行字符串匹配、搜索、替换等操作。

灵活性和可扩展性。正则表达式支持通用的匹配和替换规则,并且具有较高的灵活性。审计人员可以根据需求自定义正则表达式,并将其应用于不同的文本处理任务。

跨平台和跨语言支持。正则表达式是一种通用的文本处理技术,主流编程语言(如PythonJavaJava等)都提供了对正则表达式的支持。

高效的字符串搜索和替换。正则表达式引擎经过优化,可以在大规模文本中进行高效的搜索和替换操作。

数字锚点的数据分析方法是指利用函数在字符串中锚定相关数字,并只限定在锚点附近的范围内进行代码的匹配分析。此方法用于剔除在代码循环运行的过程中产生的大量无用数据,大大提高数据分析效率。

二、应用实例

在某国有企业领导人员经济责任审计中,审计组核查水费收取过程中是否存在未按照用户性质分类导致水费标准归类错误的情况。被审计单位提供了超百万条杂乱的水费收取数据,抽查涉及的洗浴、美容美发两类商户信息数据达上万条,数据结构复杂、核查难度高。面对该情况,审计人员使用Python技术批量处理原始水费数据,一方面,利用正则表达式对不规范数据进行标准化处理;另一方面,利用正则表达式和数字锚点技术解决数据格式不同、数据量大造成的字符串匹配难度大难题。

(一)正则表达式在数据标准化处理中的应用

该国有企业提供的市民使用自来水收费明细汇总表包括居民用水、非居民用水、工商业用水、特种行业用水4Sheet表,其中每个Sheet表包括户名、地址、用水量、金额等13个字段。同时,审计人员从特种行业中筛选“洗浴行业用水”“美容美发用水”关键字段,汇总形成该市洗浴用水商户、美容美发用水商户信息数据表。具体操作如下。

首先,导入pandasre数据库。其次,将数据表利用pandas读入Python环境,同时将上述两个表的地址信息利用values.tolist转化成数据列表,用于后续匹配。再次,利用re正则表达式去除地址字段的无用符号,如空格、换行符以及程序运行中生成的程序符号。最后,利用split函数将地址用空格隔开,生成预处理后的数据。数据进行预处理后,一条原本有100个字符的水费收取信息被精炼提取到只有10个字符,大大提高了后续数据分析效率。

(二)正则表达式和数字锚点技术在数据分析中的应用

本案例的核心问题在于判断收取各类用水性质的商户水费时是否符合市定标准。商户信息数据和水费收费数据的共通指标是商户的地址,即审计人员需判断某一用水性质商户的地址和在水费明细表中对应地址的商户是否统一。但在被审计单位提供的水费收取表中,有些地址精确到街道,有些地址只写到省。在分析数据特征后,审计人员确定有效的地址字符范围为街道和户号,通过找到水费收取数据中地址的第一个数字所在位置,再囊括数字锚点一定范围内的有效字符,匹配特种行业性质的商户地址。具体操作如下。

首先,利用re正则表达式处理数据中多余的符号,以及在程序运行过程中生成的干扰符号。

其次,使用if条件语句并结合re.search函数,判断地址信息中是否包含数字:如果不包含,则输出该地址信息,标注为“企业地址信息填写不规范”;如果包含,则进行下一步操作,即通过start函数找出该条地址信息中户号的第一个数字所在该字符串中的索引位置,也就是数字锚点。返回至该索引位置,得到有效匹配字段范围为锚点前3位和锚点后4位,具体内容为“街道+户号”。

再次,通过for循环,将上述过程遍历地址信息中的每一个元素,输出未规范填写的商户地址和有效的地址信息字段。

最后,将未规范填写的商户地址信息调整为规范且有效的地址信息,直接对有效的地址字段(数字锚点前3位和后4位)进行字符串匹配,得到未按规定标准缴纳水费的商户名单。整个过程最终被封装成match函数,方便下次重复调用。

三、审计成效及展望

通过上述数据分析,审计核实该市所有洗浴和美容美发商户中有200多家本应按照特种行业的标准(4.85/吨)缴纳水费,但实际以一般工商行业的标准(3.95/吨)缴纳。通过类似的数据分析方法,审计人员还发现了其他行业降低标准缴纳费用的情况。

在数据预处理和分析过程中引入正则表达式和数字锚点技术,不仅可以将初始数据处理成审计分析所需要的数据格式,而且能更准确高效地对数据进行分析。同时,正则表达式作为一种匹配、搜索和处理文本的强大工具,适用于各种编程语言和文本编辑器,或可推广成为审计人员的常用分析工具。数字锚点的代码思想也可以运用到更多的工作场景中。

冯朝仙 谈雪琪

作者单位:江苏省宜兴市审计局

(本文刊登在《中国审计》2024年第16期)

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

深圳白居.易酒业买酒送股权投资... “本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。"近期,一种“买...
未来之星计划秦峰老师推荐陕西三... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。股民朋友们通过购买...
国英百谷言(四川)供应链管理有... “本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。"近期,一种“买...
致远老师推荐陕西三八妇乐科技买... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。随着互联网金融的发...
西安蝶变妇乐科技有限公司子公司... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。“原始股”因承载“...
上海海能投顾抖音荐股欺骗投资人... 上海海能投顾抖音荐股欺骗投资人,不仅没赚反倒严重亏损!可以退费!大家能在上海海能投顾缴费,相信也都是...
星星之火股票群致远老师推荐陕西... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。​“原始股”因常被...
深圳白居.易酒业买酒送股权投资... “本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。"近期,一种“买...
星星之火股票群致远老师推荐陕西... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。如果直播间股票老师...
西安蝶变妇乐科技有限公司子公司... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。 什么是原始股投资...