当前位置:首页
>新闻资讯>工作动态

运用Python与SQL协同技术查处药店以药易药、以药易物骗取医保基金问题

发布日期: 2026-01-09 19:23 信息来源: 南通市审计局

医保基金是人民群众的“看病钱”“救命钱”,其安全规范使用直接关系国计民生。随着医疗保障基金覆盖范围扩大与规模增长,其安全监管面临更高要求。当前定点药店以药易药、以药易物等违规骗保行为呈现隐蔽化、专业化特征,往往通过串换药品名称、虚构结算项目等方式规避监管,传统抽样核查与人工比对效率低、精准度不足,难以高效准确核实骗保行为。本文以某市医疗审计项目为例,构建Python与SQL Server协同分析模型,系统阐述审计此类骗保行为的思路及方法,旨在为同类审计项目提供参考。


一、审计背景

医保基金审计面临数据异构性问题突出、违规行为隐蔽性强、数据量庞大且关联复杂等多重挑战。在此背景下,在某市医疗审计项目中,审计人员先对医保基金年使用量按各医院、药店汇总排名,发现部分定点药店医保结算金额相当高,与其体量不匹配,可能存在骗保问题,遂将“定点药店医保基金使用合规性”作为审计重点,聚焦药品进销存环节可能存在的以药易药、以药易物等行为,构建以SQL Server为基础、Python为补充的协同分析模型,通过数据关联、文本相似度分析等手段,实现对违规行为的精准筛查。


二、审计思路及方法

(一)构建SQL Server与Python协同分析模型

本模型以“分层处理、优势互补”为设计原则,分为四个功能层级,各层级与后续分析步骤直接对应,形成完整技术闭环。

数据层。以SQL Server为核心工具,完成多源数据的提取、转换、加载(ETL),解决数据异构问题,生成标准化基础数据表,为后续分析提供数据支撑。

关联层。通过SQL Server实现关键字段补全、金额聚合、时点匹配等结构化处理,打通数据关联壁垒。

算法层。利用Python的文本处理与算法库,完成药品名称相似度计算、阈值筛选等精细化分析,破解隐蔽违规识别难题。

输出层。整合分析结果,生成带详细信息的疑点清单,明确核查方向。

本模型既发挥了SQL Server在百万级数据加工中的高效与稳定优势,又借助Python弥补了传统数据库在非结构化文本分析中的短板,实现“大规模数据处理不卡顿、隐蔽违规识别不遗漏”的目标。将本模型固化到已有医保基金常态化监督大数据审计平台,即可自动执行,生成审计疑点。


(二)具体分析步骤

基于SQL Server与Python协同分析模型,按照“数据预处理—初步关联—深度分析—疑点筛选—现场核实”五阶段推进。


1.数据预处理与关键字段补全

第一步,多源数据采集与导入。采集药店进销存数据、药店会员信息、医保结算数据、社保参保人员基础信息等。通过SQL Server的“导入和导出数据”功能,将不同格式数据统一整合至数据库。

第二步,数据清洗与标准化。采用SQL语句执行清洗操作:删除手机号码为 “12345678901”“00000000000”等测试数据;通过数据更新操作将身份证号码空值、无效值(长度不等于18位)标记为“待核实”;利用格式转换函数将销售时间、结算时间统一调整为“YYYY-MM-DD HH:MM:SS”格式;对药品名称、收费项目名称执行去空格、统一大小写处理。

第三步,关键字段补全。以手机号码为关联字段,将药店会员信息与社保参保人员基础信息进行匹配,筛选出能够对应的记录,从而为会员补全“姓名”和“身份证号码”字段内容,生成包含完整身份信息的会员信息补全表,补全率达89.7%。

第四步,生成核心分析表。通过会员ID字段将进销存系统数据与会员信息补全表进行关联,为进销存数据补充身份证号码字段,生成销售明细表(含销售时间、流水号、身份证号码、药品名称、规格、数量、金额);将医保结算数据标准化后生成医保结算明细表(含结算时间、身份证号码、收费项目名称、报销金额、结算单号)。


2.基于金额和时点的初步关联匹配

本阶段通过建立“同人、同日、同金额”关联逻辑,从海量数据中筛选可疑交易。“同人”是关联医保结算记录和药店销售记录的首要条件,“同日”是建立两类记录时间关系的重要纽带,“同金额”是精准匹配单笔交易的关键标识。药店套保时,医保结算系统结算时点和药店进销存系统出库时点应是同一天,且间隔时间不会太久;同一参保人医保结算系统支付的金额与药店销售商品的金额完全一致,以此掩盖串换物品的事实。

第一步,销售金额聚合。因同一流水号可能对应多种商品,需按“身份证号码+销售流水号”进行分组,用求和函数计算每笔销售单据的总金额,生成销售单据总金额表(含身份证号码、销售流水号、销售时间、销售总金额)。

第二步,精准关联查询。将销售单据总金额表与医保结算明细表进行关联,关联条件设定为三个核心要素:参保人身份证号码一致、交易日期一致(仅比对年月日部分)、金额一致。筛选出初步疑点记录1286条,表中包含身份证号码、销售流水号、销售时间、销售总金额、结算单号、收费项目名称、报销金额等字段,其异常特征表现为参保人同一日的消费总金额与医保报销金额完全匹配,但销售商品明细与医保结算项目名称存在显著差异,其中销售商品明细中包含正常购药以及非医保目录内的药品、医疗器械、商品(如大米、油、洗发水)等,医保结算明细表中包含医保目录内和目录外的药品。


3.药品名称相似度深度分析

本阶段是识别串换行为的核心,借助Python完成文本精细化比对。

第一步,数据导出与预处理。将初步关联疑点表与销售明细表通过流水号进行关联,导出为Excel文件,包含销售流水号、身份证号码、销售商品名称(多条)、收费项目名称、金额等字段。使用Python的pandas库读取该 Excel文件后,按销售流水号进行分组,将同一张销售小票上的所有商品名称用逗号拼接为完整字符串(如“大米,食用油”),生成商品名称拼接表。

第二步,相似度算法选择与计算。根据不同违规场景选择全局相似度算法与局部相似度算法两种相似度计算算法。全局相似度算法(fuzzywuzzy库的ratio函数),适用于完全串换场景(如销售生活用品结算药品),可全面比对两个字符串的整体匹配程度。局部相似度算法(partial_ratio函数),适用于名称近似串换场景(如“维生素C咀嚼片”串换为“维生素C片”),可聚焦字符串的部分匹配情况。通过Python调用对应的算法库,逐行计算拼接后的销售商品名称字符串与医保结算项目名称字符串的相似度百分比。

第三步,初步结果分析。计算结果显示,全局相似度分布在23%—97%之间,其中326条记录相似度低于60%(如“洗衣液,牙膏”与“阿莫西林胶囊”相似度仅0%);局部相似度低于80%的记录共412条,主要集中在名称缩写、规格差异类串换(如“复方甘草片(瓶装)”与“复方甘草片”局部相似度92%,全局相似度85%),这些结果为后续阈值设定提供了实际数据支撑。


4.设定阈值生成高危疑点清单

本阶段借助Python,通过业务经验与样本测试确定合理阈值,精准筛选高风险疑点。

第一步,阈值校准。选取50条已人工核实的样本数据进行测试验证,发现当全局相似度≤60% 或局部相似度≤70% 时,违规核实率达 91.3%,据此确定最终阈值标准,既保证疑点识别的精准度,又避免遗漏潜在违规线索。

第二步,高危疑点筛选。通过Python执行筛选逻辑,保留满足“全局相似度≤60% 或局部相似度≤70%”的记录,同时将筛选结果与销售明细表进行数据合并,补充商品规格、数量等细节信息,确保每条疑点记录包含完整的交易明细。

第三步,疑点清单优化。按“全局相似度从低到高”对高危疑点进行排序,新增“疑点描述”字段,说明违规嫌疑(如“销售商品为大米、食用油,结算项目为硝苯地平缓释片”),生成高危疑点清单,包含386条疑点记录,每条记录均标注流水号、参保人信息、商品明细、结算项目、相似度数值,为现场核查提供精准导航。


5.多维度验证与现场核查

第一步,多维度交叉验证。在现场核查前,新增两项验证规则进一步筛选聚焦。一是商品类别验证。通过关键词匹配(如“大米”“洗衣液”“保健品”)快速识别非医保目录物品串换行为。二是数量金额合理性验证。核查“低价药品高数量结算”(如结算“创可贴1000片” 金额500元)、“高价生活用品低价结算”(如销售“高档保健品”结算“感冒药”金额300元)等不符合常规交易逻辑的异常场景,经二次筛选后疑点数量聚焦至213条。

第二步,现场核查取证。审计组持疑点清单直赴目标药店开展核查,重点调取三类核心资料。一是销售流水号对应的原始销售小票,核实实际销售商品种类。二是医保结算单,核实申报报销的项目名称。三是库存台账,核实医保结算药品的进销存一致性。如将“5kg大米”“2L食用油”串换为“维生素C片”“感冒灵颗粒”进行医保结算,原始小票显示实际销售商品为生活用品,医保结算单申报项目为医保目录内药品,而库存台账中对应医保药品无相应出库记录,三者形成完整证据链,证实违规事实。


三、审计成效

通过运用Python与SQL Server协同查处,审计揭示了三类突出问题。一是非医保药品(物品)串换,21家药店将大米、食用油、洗衣液等生活用品及保健品串换为医保药品结算。二是药品名称串换,8家药店将医保目录外药品(如进口保健品)串换为目录内药品(如常用感冒药)套取基金。三是虚构结算,1家药店通过“空刷医保卡”(无实际商品销售)申报医保报销。累计查处违规金额60.7万元。


审计结果引起当地医保部门高度重视,推动立行立改。一是对涉事药店暂停医保服务协议、追回违规金额,并处以罚款。二是将相关参保人列入重点监控名单。三是升级医保智能监控系统,实现常态化监测。四是修订完善《基本医疗保险定点零售药店服务协议》,明确串换物品、虚构结算等行为的处罚标准。Python与SQL Server协同分析模型可拓展应用于医疗机构虚构诊疗项目、分解住院等违规行为的筛查,为医保基金全链条监管提供技术支撑。(阙圣贵   康文昊)

(作者单位:海安市审计局)

浏览次数: