运用人物图像识别技术审查大学生创业培训真实性
发布日期: 2024-07-29 信息来源: 《中国审计》2024年第11期 浏览次数: 字体:[ ]

《国务院办公厅关于进一步支持大学生创新创业的指导意见》指出,面向大学生开展高质量、有针对性的创新创业培训,提升大学生创新创业能力。科学有效的创业培训有助于大学生掌握创业技能、增强创业意识,提升大学生创新创业能力。对大学生创业培训情况开展审计时,审计人员需全面审查培训实施时间、空间、人员等要素的真实性。本文以A市某大学生创业培训就业补助资金发放情况审计为例,介绍人物图像识别技术在大学生创业培训审计中的应用,从多维数据层面综合分析大学生创业培训的实施效果,旨在规范创业培训行为,提高创业培训质量。


一、审计背景


2021至2023年,A市有15家培训机构开展创业培训,所有培训机构均涉及面向大学生的创业培训班次。其间,A市发放创业培训补贴560余万元,其中创业培训补贴对象为大学生的比例高达98%。根据该市要求,培训机构必须按照培训人数核定培训补贴,并依据相关规定对培训过程进行全程留痕,以照片形式进行归档。为切实保障创业培训补贴发挥实效,审计人员对大学生创业培训实施全流程跟踪和审计调查,结合创业培训档案资料,重点关注创业培训照片要素,运用人物图像识别技术从培训人数符合性、培训人员真实性和培训班次交叉性三方面进行全流程审计,审计思路如图1所示。


图1 基于人物图像识别技术的大学生创业培训审计流程图

二、审计方法


(一)人物图像识别预处理和汇总


人物图像识别预处理主要是对采集的培训照片进行要素整合,提取并汇总人物图像数据,为图像比对建立信息库。培训照片的分辨率各不相同,图像维度各异,因此需要在采集培训照片并进行电子化处理过程中对图像尺寸实施归一化处理。由于培训照片中的人数通常为复数,且人物姿态和身体比例有所区别,加之照片本身存在背景噪声干扰,审计人员对人物面部图像实施识别预处理,以提升后期比对分析质效。


步骤一:人物图像分割。首先,运用卷积神经网络等模型对培训照片进行处理,根据实际观察值、拟合值等数据在培训照片中检测多尺度目标。其次,在提取图像中实施分区域判断和特征归类,并运用Mask RCNN算法将特征图和固定的特征相对应,生成图像分割掩码、位置等信息,即可判断培训照片中学员和教师的总数以及相对于照片场景的位置关系。最后,通过均值滤波器等方法,在降低背景噪声影响的前提下分割人物整体图像,针对每一名学员和教师构建一个图像文件。


步骤二:面部图像分割。运用迭代算法、级联分类器等方式,对步骤一中的分割图像进行人脸识别,将步骤一的数据集标注信息存储在image等ison格式文件中,利用 Pytorch结合COCO数据集对数据接口进行标准化设置。在识别过程中,同时检测人物面部和眼睛的坐标位置,判断学员和教师面部组成区域,通过加载已完成训练的面部检测数据集对识别结果进行逻辑判断,剔除畸变值后将筛选结果汇入面部图像原始数据库。由于面部识别技术对人脸正面或侧面的契合度不同,可对分割图像进行多维面部图像分割,提升面部分割完整度,生成每一名学员和教师的面部图像文件。


步骤三:面部图像特征点提取。面部图像原始数据库中的面部图像神态、表情及人物装扮存在差异,传统的图像相似度匹配方法无法满足审计需求。审计人员基于统一规则提取面部图像特征点,将面部图像文件从非标准化数据转变为可量化、可对比的数据,如根据面部图像特征点,重点采集瞳距、鼻宽等参数,用一系列的参数指标来显示每名学员和教师的面部图像。首先,通过高斯平滑减少图像噪声和细节层次。其次,调用不同参数的高斯平滑生成差异图像,使用高斯卷积获取面部图像的DoG尺度空间,并在尺度空间中通过高斯核函数判断像素点之间的差值及极值点。最后,依据特征点的偏离量,计算并删除空间中的不稳定极值,根据特征向量确定面部图像的特征点。


在对培训照片进行集中处理并提取面部图像特征点后,审计人员将面部图像与培训时间、培训班次、签到人数等信息进行逐一匹配,分别生成包括培训时间、机构、班次名称及培训地点,以及姓名、证件号码等信息的学员数据集合和教师数据集合,并汇总为培训班次数据集合。此外,审计人员根据高校大学生花名册,生成包括大学生照片、姓名、学院、专业等信息的大学生数据集合。


(二)人物图像比对


开展培训人数符合性分析。一是审查人物图像数是否符合培训规定人数要求。根据中国就业培训技术指导中心印发的《“创办和改善你的企业”(SIYB)培训技术要点(试行)》,培训师培训班每班不超过30人。审计人员选择培训班次学员计划人数或签到人数大于30的数据,调取对应的培训班次数据集合,二次核对学员照片集合数是否大于30。分析发现,某培训机构2023年开展的大学生培训班次学员数均超过30人。经了解,A市出台的相关文件规定创业培训班次人数上限为35人,该培训机构实际培训按此要求开展,导致培训人数与上级文件要求不相符。二是审查签到人数与人物图像数是否一致。审计人员根据培训开展时间和签到人数,结合培训班次数据集合,将签到人数与学员照片集合数进行比对。经比对,某培训机构开展的部分大学生创业培训班次的签到人数大于人物图像数。通过访谈,审计发现培训学员委托同学代签、培训机构未做好学员考勤信息记录管理等问题。


开展培训人员真实性分析。首先,建立培训班次数据集合和大学生数据集合的关联关系,根据培训班次调取培训档案中签到的学员姓名和证件号码,与大学生数据集合中的大学生姓名及证件号码进行比对,随后根据比对结果调取大学生数据集合中对应的大学生照片集合,再与培训班次数据集合中的学员照片集合进行比对,判断培训班次照片中的学员是否为实际签到人员。若照片匹配失败,则说明培训照片拍摄时间点的培训学员与签到学员不一致。由于大学生创业培训班次的学员多数来自同一学校,相关信息聚合度较高,审计人员提取匹配失败的培训学员照片,与大学生数据集合中的全量大学生照片进行碰撞比对,分析是否存在同校同学代课的情况。分析发现,某培训机构开展的部分大学生创业培训班次中,虽然签到人数与培训照片人数一致,但其中个别培训学员的培训人物图像与学籍头像照片不匹配。通过进一步比对照片及开展访谈,审计人员了解到个别培训学员委托同专业同学代签到并代课,培训机构并未在培训过程中核实学员信息,存在监管缺位等问题。


开展培训班次交叉性分析。对于不同培训班次的照片,审计人员通过交叉分析研判是否存在虚假培训的情况。一是分析同时间段开展的培训。选取培训时间有重叠的班次进行比对,以其中某个培训班次的课程开始时间和结束时间为基准,统计落在基准范围内的其他培训班次信息。首先,比较不同培训班次的课程时间数据,主要筛选年月日相同、具体培训时间有交叉的班次。其次,比较不同班次的培训照片,分别对学员照片集合和教师照片集合进行比对,查看有无重复的人物图像。最后,对重复出现的相关人员进行问询。分析发现,某培训机构存在部分培训教师“跑班”拍摄培训照片的问题。二是分析不同时间段开展的培训,查看是否存在人物图像匹配度较高的情况。匹配原则是:依据培训班次数据集合,针对每两个培训班次,分别建立学员照片集合m1和学员照片集合m2、教师照片集合p1和教师照片集合p2的二级数据库。匹配步骤是:以参与匹配的照片总数为基础,分别计算学员照片和教师照片的匹配成功率;结合培训班次的学员和教师人数占比设置权重值,权重值和人数占比呈反比,两者权重值相加为1;计算学员和教师的权重匹配成功率,相加得到培训班次的整体匹配率。分析发现,某培训机构开展的“大学生创业培训1班”和“大学生创业培训2班”的整体匹配率是94.6%,说明两个班次的培训人员基本一致。延伸核查发现,两个培训班次的照片实际为相同地点拍摄的不同角度,该培训机构为通过档案考核将“大学生创业培训1班”照片存放于“大学生创业培训2班”中,未根据真实情况进行培训资料存档。


三、审计成效


通过人物图像识别技术的应用,审计发现有3家培训机构的大学生创业培训存在授课教师与课程安排不匹配、培训记录照片与实际不符等问题。针对审计提出的问题,相关地区人社部门对3家培训机构作出警告处理并约谈机构负责人。目前,3家培训机构已将23万余元大学生创业培训补贴资金全部退回,并提交承诺书,承诺将严格按照相关培训要求开展培训工作。(王鑫)

【打印本页】【关闭窗口】