400-969-7908

English

行业资讯 | 零数据逆袭!AI猎手如何用“无样本算法”狙击高智商舞弊?

标签: ACFE 反舞弊 企业合规师 威普爱生教育 浏览量:0 2025-03-17



记录的舞弊案例数据集在检测各种交易中的异常和模式时非常有用,但很多时候这些数据集并不可用。随着舞弊者不断实施越来越复杂的计划,反舞弊人员需要利用先进技术来对抗犯罪分子。本文作者介绍了如何在没有历史数据可供学习的情况下,使用机器学习模型和其他先进技术来检测舞弊的方法。

您可能熟悉这样一句话:“过去的行为预示着未来的行为”。当这句话用在招聘中时,意思是求职者过去的成功(或失败)可以帮助判断候选人在组织中的潜力。候选人的简历或履历、行为面试(旨在了解求职者过去工作经历的问题)以及前任主管的推荐信函作为数据集,招聘经理可以从中看到成功的迹象——以及可能建议“不要聘用”的潜在危险信号。


回顾过去来预测未来并不只是招聘经理的职权范围。舞弊检测人员在努力发现舞弊时也依赖过去的知识,利用之前记录的案例数据来检测交易和流程中的模式和异常,这些都可能暗示存在舞弊行为。但这些历史数据集只有在可用时才有效。如果一个组织正在升级技术并实施新软件——或者寻找现有数据集无法识别的新型舞弊——舞弊检测人员将需要能够处理未知情况的检测方法。这时,机器学习,尤其是“无监督”机器学习,可以成为检测舞弊的有效工具。

当舞弊者越来越熟练地使用技术来实施他们的计划时,反舞弊人员必须比罪犯抢先一步。机器学习是人工智能的一个分支,它利用计算机模拟人类的学习过程,在没有人工干预的情况下完成任务。可以在没有足够数据支持舞弊检测时成为一个强大的工具。



在本文中,我们探讨了当您不确定具体目标时,如何使用机器学习模型来进行舞弊检测。我们展示了监督学习和无监督学习这两种不同的机器学习模型,在检测异常和舞弊模式方面的效果。此外,我们还介绍了其他一些先进的数据分析技术,这些技术可以帮助您更准确、更高效地保护组织免受舞弊威胁。


在舞弊者越来越熟练地利用技术来实施他们的计划的时候,打击舞弊的人必须比罪犯抢先一步。



监督学习与无监督学习

机器学习通过算法和统计分析来寻找数据中的模式并进行推理。这就是像亚马逊这样的在线零售商能够根据您过去的购买记录推荐商品的原因。在这种情况下,零售商使用监督学习来训练算法,使其能够对数据进行分类并预测结果。监督学习依赖于已知的或标记的数据集来识别模式。然而,还有一种机器学习类型可以处理未知的情况。与需要人类标注数据以指导其从数据集中学习、做出预测并根据需要调整的监督学习算法不同,无监督学习模型(顾名思义)不需要人类程序员的监督来分析数据。虽然仍需人类专业知识来验证结果,但在没有既定数据集的情况下,无监督学习可以成为有效的工具,因为它能够在没有预先标注的舞弊示例的情况下检测数据中的异常、模式和关系。



无监督学习模型

以下是几种通常用于异常测试的无监督学习算法。

隔离森林

如图1所示,隔离森林模型受隔离异常概念的启发,基于舞弊交易具有独特性和发生频率较低的前提。该算法通过隔离观测值并用较少的条件检测离群点来识别异常,相较于其他方法更为有效。它特别适用于舞弊检测场景,在大量合法活动数据中,舞弊交易作为离群点可以被有效识别。

隔离森林模型通过构建树状结构来隔离每个观测值,从而根据数据集本身的结构识别异常。该模型随机选择特征和分裂点(即分支分离的位置),以将每个观测值与其他观测值区分开来。异常观测值是指那些需要较少分裂次数即可被隔离的数据点。换句话说,异常点由于其独特性,在树中往往更早地被隔离出来。

图1:隔离森林


局部离群因子

局部离群因子(Local Outlier Factor, LOF)通过测量某个数据点相对于其邻近数据点的局部密度偏差,提供了一种更精细的异常检测方法。局部密度偏差是指数据点之间的距离及其紧密程度。LOF通过量化这些邻近数据点的局部密度,为每个数据点分配一个异常得分,从而帮助识别潜在的离群点。与全局异常检测不同,LOF专注于局部异常——即那些在与其直接邻近的数据点对比中显得突出的数据点,而不是在整个数据集中偏离整体模式的数据点。这种方法能够捕捉到其他方法可能忽略的细微舞弊模式。

更高的局部离群因子(LOF)得分表示该交易更可能是异常点。图2是对局部离群因子的可视化展示。

图2:局部离群因子


单类支持向量机

单类支持向量机(One-Class Support Vector Machine)通过定义围绕“正常”数据点的边界,来识别异常点或潜在的舞弊行为。落在这些边界之外的数据点被视为异常或可能存在舞弊。这种模型在舞弊模式不明确或高度变化的情况下特别有用,例如销售量、收入等指标的变化,或是未标注的数据集。

单类支持向量机的工作原理是尝试找到一个函数,该函数对数据点密度高的区域返回正值,而对其余区域返回负值。如图3所示,尺度从正1到负1排序。所有高密度的数据点都被标记为大于0的值,表示它们是正值;而所有低密度的数据点则被标记为小于0的值,表示它们是负值。

这种方法通过区分高密度和低密度区域,能够有效地识别出异常点。

图3:单类支持向量机



整合优势

将所有这些模型整合成一个“集成”(模型集合)的机器学习工具,可以有效地检测各种舞弊行为,例如不寻常的信用卡消费、不规则的保险索赔、非正常时间的网络访问以及库存盗窃等。在这篇文章中,我们使用集成方法来评估监督学习和无监督学习在检测异常方面的能力差异。以下是在以下监督学习模型中使用集成方法的一些优势(和挑战),并与无监督学习集成进行比较。

随机森林(图4)是一种监督式机器学习算法,它通过结合多个决策树算法来克服决策树的局限性。决策树从单一问题开始,然后分支出许多可能的结果。随机森林算法能够克服过拟合问题,即模型仅在训练数据上表现良好,以及泛化能力不足的问题,即模型在未训练的数据上表现不佳。随机森林集成中使用的关键方法包括自助法(bootstrapping)和特征随机化。自助法涉及随机选择原始数据集的子集,并在每个子集上训练决策树。这在森林中创建了多样化的树,因为每棵树都有稍微不同的训练集。在特征随机化中,考虑在决策树的每个节点上使用随机的特征子集进行分割。这有助于减少过拟合并创建多样化的树群。下面的图4是随机森林的一个模型。

图4:随机森林模型


极端梯度提升(Extreme Gradient Boosting,简称XGBoost)通过迭代地向模型中添加决策树来工作。每棵新的决策树都会被训练以修正前一棵决策树所犯的错误。如图5所示,该算法采用试错的方法调整分配给每个决策树的权重,以提高模型的准确性。这种方法使得XGBoost能够逐步优化模型,从而在预测性能上取得更好的效果。

图5:极端梯度提升


CatBoost 是一个开源库,专为处理分类数据和缺失数据而设计,能够在不使用任何编码技术将分类数据转换为数值数据的情况下,直接提升(组合)决策树进行训练。这一特性使得 CatBoost 在处理包含大量分类特征的数据集时更加高效和便捷。




一项实验

以下实验比较了监督学习模型和无监督学习模型在检测异常方面的有效性。在这个实验中,我们使用了Kaggle上的信用卡舞弊检测数据集。Kaggle是一个面向数据科学家的在线社区,经常举办竞赛并提供公共数据集。

来自Kaggle的信用卡舞弊检测数据集包含了284,806笔信用卡交易记录,共有31列特征,其中包括交易时间、交易金额和类别(标识数据是否为舞弊交易)。我们使用了Google Colab这个在线协作代码平台进行分析。由于Colab存在运行时限制(计算能力有限),我们将数据集的使用范围限制在前10,000行。

数据

图6展示了来自Kaggle的数据子集,包含38笔舞弊交易和9,962笔非舞弊交易。本次实验的目标是识别出所有的38笔舞弊交易,并通过优先应用监督学习模型和无监督学习模型在集成中生成的规则,尽可能减少误报的数量。 

图6:在Google Colab上使用无监督集成模型处理的交易子集,其中包括38笔舞弊交易和9,962笔非舞弊交易。


结果

图7中的混淆矩阵对比了每个监督学习集成模型所产生的预测值和实际值的数量。

图7:监督学习的混淆矩阵


如监督学习的矩阵所示,监督学习集成模型能够检测出近35笔真正的舞弊交易,同时将误报率控制在170左右的合理范围内。然而,当检测出全部38笔舞弊交易时,误报率增加到了2,242。

在无监督集成模型(图8)中,当成功检测出全部38笔真正的舞弊交易时,仅有570笔非舞弊交易被误分类为舞弊。

图8:无监督集成模型



深入研究深度学习和大数据

本文介绍的监督学习和非监督学习技术只是您在舞弊检测项目中可以考虑的几种方法。其他高级方法也可能有助于应对检测不熟悉或复杂舞弊手段所带来的挑战。

深度学习是机器学习的一个子集,它利用人工神经网络来模仿人脑的功能,能够以较少的人工干预进行学习和决策。深度学习模型可以发现那些基于规则的算法可能忽略的细微且复杂的模式。

深度学习算法能够处理和学习来自非结构化数据(如图像和文本)的能力,为检测细微的行为或交易舞弊模式提供了更多的机会。例如,深度神经网络可以通过分析交易序列来识别与用户典型行为偏差的异常情况,精确地标记出潜在的舞弊行为。

像卷积神经网络(CNN)和递归神经网络(RNN)这样的深度学习模型在舞弊检测方面展现出巨大的潜力。CNN擅长分析视觉数据,这使得它们非常适合用于通过文档或面部识别进行身份验证。RNN可以分析顺序数据,例如交易历史,根据过去的模式预测未来的舞弊交易。

在用于舞弊检测时,深度学习可以自动执行特征提取。它能够从原始数据中自动识别并选择最相关的特征,无需人工干预,从而减少清理、结构化和转换原始数据所需的时间和资源。此外,深度学习模型还能持续学习并适应新数据,随着时间的推移不断提高准确性。

深度学习有一个需要注意的地方:它需要消耗大量的计算资源。在我们的实验中,我们使用了一种多层感知器分类器,这是一种深度学习的人工神经网络。从下面的混淆矩阵中可以看出,在计算资源有限的情况下,它的表现存在不足,因为所有的数据点都被误判为舞弊行为。

另一种先进的舞弊检测技术是大数据分析。数字交易产生的海量数据既带来了挑战,也带来了机遇。大数据系统可以整合来自多种来源的数据,例如交易记录、社交媒体活动和移动设备数据,通过大数据分析,我们可以获得消费者行为的全面视图。

将深度学习与大数据结合,可以提高舞弊检测模型的准确性,并使它们能够应对数字数据的海量、高速和多样性。


区块链与加密货币

数字货币和区块链技术为舞弊检测带来了新的挑战与机遇。区块链的去中心化特性提高了许多金融交易的安全性和透明度,然而,随着公众越来越多地使用加密货币,这也为舞弊者提供了可乘之机,他们在涉及数字货币的舞弊手段上变得越来越复杂和高明。


加密货币因其匿名性和较少的监管而受到公众的喜爱,但这些特点同样吸引了犯罪分子。一旦舞弊交易被记录在区块链上,就无法更改或撤销,因此必须采取积极的预防措施。我们需要使用复杂的工具来实时分析交易,以监控智能合约中的漏洞、检测异常交易模式并识别去中心化金融协议中的潜在安全问题。机器学习模型,尤其是无监督学习算法,在监测区块链网络中的舞弊活动方面展现出了巨大潜力。这些模型可以识别出异常模式,如交易量或金额的突然激增,这可能是市场操纵和其他舞弊行为的信号。

将区块链分析整合进传统的舞弊检测系统,使组织能够主动追踪数字货币的流动,识别舞弊交易的源头,并降低风险。


运用最新的技术来做有益的事情

反舞弊工作者并不总是拥有准确识别异常和可疑活动模式所需的所有信息。虽然参考过去的舞弊案例数据有助于当前的分析,但舞弊者的技术也在不断进步,使得舞弊行为更难被发现。随着舞弊形式的不断发展,应对舞弊的策略和技术也必须与时俱进。反舞弊人员需要运用先进科技来预测未知的风险,而不仅仅是依赖基于现有数据集训练的检测方法,并应采用无需依赖历史数据的无监督模型。

未来的舞弊检测将高度依赖于本文所述的机器学习过程,以及深度学习、区块链技术和大数据分析等最新技术。将这些技术整合到反舞弊程序中,不仅能够提高舞弊检测的准确性和效率,还为开发更复杂、更自主的系统铺平了道路,这些系统能够实时适应新的舞弊手段和策略。



原文标题:

Detecting fraud without historical data

By Penny Li, CFE, CPA, Ning Ping Wang



*本文由ACFE China校对翻译,如需转载,请提前告知。

*本文内容和图片均源自网络,如侵权,请联系工作人员处理。



END




关注我们


关于ACFE

国际注册舞弊审查师协会(ACFE)成立于1985年,由Joseph T.Wells博士(CFE、CPA)创立,是世界上最大的反舞弊组织,也是反舞弊培训和教育的内容和考试提供方。ACFE与180多个国家的90,000多名会员一起,正在全球范围内努力减少商业舞弊,并持续提供更有效打击舞弊所需的培训和各种资源。

反舞弊培训的积极效果是深远的。显然,打击舞弊的最佳方法是教育任何参与打击舞弊的人如何有效的预防、发现和调查舞弊行为。ACFE通过教育、团结和支持全球反舞弊团体,以更有效地打击舞弊行为,减少了全球范围内的商业舞弊行为,激发了公众对行业诚信和客观的信心。

ACFE为会员提供专业认证的机会。国际注册舞弊审查师(CFE)证书是世界各国企业和政府机构的首选推案,它有力的证明持证者在有关舞弊防范和调查等方面具有的理论基础和实务背景。CFE是反舞弊专家,获得CFE资格表明他们在金融交易和舞弊计划、法律、调查和舞弊预防与威慑这四个关键领域具有专业水平。

ACFE的成员包括会计师、内部审计师、舞弊调查人员、执法人员、律师、商业领袖、风险/合规专业人士和教育工作者等,他们都可以获得专业培训、理论工具和实务资源。无论他们是专门从事舞弊防范或调查的专业人士,还是仅仅想获得更多反舞弊方面的知识和经验,ACFE都能帮助他们实现自己的目标。



关于ACFE China

ACFE China由ACFE中国区北京、上海、广州、深圳分会联合发起,是一家有温度、有内容 、多元化 、国际化的专业反舞弊组织。

ACFE China始终秉承“以合规/舞弊风险管理为导向,注重提高会员合规意识、舞弊防范和调查取证的专业知识和技能,增强“跨行业的专业信息交流和共享”的工作理念,始终坚持“国内人才国际化,国际证书本土化”的工作目标,更好的为企业和个人赋能,为广大“合规、反舞弊”领域的同仁们创造更加专业、国际化的交流、共享平台。



关于FCPAA协会

国际注册法务会计师协会(FCPAA)在美国注册成立,是法务会计领域中的权威专业机构,也是一个自我监管的非营利性机构,致力于促进法务会计行业的专业化、国际化。FCPAA成立以来为迎合全球法务会计的需求,开展各类相关学术交流活动及提供专业的法务会计咨询、教育、认证服务。



关于威普爱生

深圳市威普爱生教育咨询有限公司(简称“威普爱生”)是一家致力于国际高端职业教育培训与咨询服务的教育机构,秉承“基于职场需求的人才培训与服务”的朴实教育理念,帮助更多的国内专业人士拓展国际视野、提升专业技能、巩固职场竞争力。目前,威普爱生为国际注册舞弊审查师协会(ACFE)亚太中国区唯一指定授权培训供应商。

自公司成立以来,先后开设财务类、金融类、法律类、合规类、医疗类、护理类、IT管理与安全、国际学位等课程及服务,基本覆盖了各个领域的专业知识和职场需求。现阶段已和国内外知名专业联盟及协会达成战略合作授权,并与海内外高校建立合作招生和课程教学的紧密联系,为国内专业人士在简历优化、背景提升、职业进阶等方面提供了强有力的选择和保障。



点击下方 阅读原文 获取ACFE考试评估资格

注册舞弊审查师

热点资讯

免费试听 查看更多>

  • ACFE 试听课程
    Section 1 Financial Transactions and Fraud Schemes

    主讲老师:Tina 试听

  • ACFE 试听课程
    Section 2 LAW

    主讲老师:Tang 试听

  • ACFE 试听课程
    Section 3 Investigation

    主讲老师:Tina 试听

报考资料免费领取

备考资料

考试资格

24小时贵宾咨询热线:400-969-7908

  • 扫码关注公众号咨询

    • 威普网校APP

      学习由你“掌”握

      iPhone/IPAD

    • 威普网校APP

      学习由你“掌”握

      Android手机