财务欺诈不仅会导致会计信息失真,还会危害经济的健康发展。因此,找到一种高效的智能化欺诈识别方法具有重要的现实意义。本文基于2020—2022年美国上市公司提交到EDGAR数据库的年度报告,聚焦于报告中管理层讨论与分析部分的文本信息(Ma...财务欺诈不仅会导致会计信息失真,还会危害经济的健康发展。因此,找到一种高效的智能化欺诈识别方法具有重要的现实意义。本文基于2020—2022年美国上市公司提交到EDGAR数据库的年度报告,聚焦于报告中管理层讨论与分析部分的文本信息(Management Discussion and Analysis,MD&A)并对其进行分析。考虑到现有数据中欺诈和非欺诈样本数据极度不平衡的特点,本文在分层注意力网络的基础上设计了一个更高效的财务欺诈识别模型,最终使得欺诈识别模型的F1分数和F2分数分别提高了4.1%和3.7%,所提出的算法框架能够有效提高非平衡MD&A文本数据集的分类正确率。研究结果为财务欺诈识别系统性能的提高以及其他领域长文本分类任务的预测提供了新的解决思路,并进一步验证了使用MD&A文本数据进行财务欺诈识别的有效性,为使用非平衡数据进行欺诈识别提供了直接的实证支持。展开更多
重采样是解决非平衡数据分类问题的重要方法。但在数据集很小的情况下,欠采样会丢失数据集的重要信息,因此过采样是非平衡数据分类问题的研究重点。现有的过采样方法虽然部分解决了类间不平衡问题,但是本质上并未给少数类引入额外的信息...重采样是解决非平衡数据分类问题的重要方法。但在数据集很小的情况下,欠采样会丢失数据集的重要信息,因此过采样是非平衡数据分类问题的研究重点。现有的过采样方法虽然部分解决了类间不平衡问题,但是本质上并未给少数类引入额外的信息,且仍然存在着过拟合的风险。针对这些问题,提出了一种基于多数类方差迁移的少数类合成方法(Variance Transfer Oversampling,VTO),从足够多样化的多数类中提取样本偏移向量,综合少数类和多数类的特征权重矩阵以调整,最终将经过置信条件筛选的偏移向量叠加至少数类样本中心,从而在少数类样本生成中引入多数类方差,进而丰富少数类特征空间。为了验证所提算法的有效性,使用决策树为分类模型在6个KEEL数据集上训练,对比SMOTEENN等其他过采样方法,以F-score和PR-AUC值为评价指标进行了实验。结果显示,该算法在处理非平衡数据分类问题时具有更大优势。展开更多
文摘财务欺诈不仅会导致会计信息失真,还会危害经济的健康发展。因此,找到一种高效的智能化欺诈识别方法具有重要的现实意义。本文基于2020—2022年美国上市公司提交到EDGAR数据库的年度报告,聚焦于报告中管理层讨论与分析部分的文本信息(Management Discussion and Analysis,MD&A)并对其进行分析。考虑到现有数据中欺诈和非欺诈样本数据极度不平衡的特点,本文在分层注意力网络的基础上设计了一个更高效的财务欺诈识别模型,最终使得欺诈识别模型的F1分数和F2分数分别提高了4.1%和3.7%,所提出的算法框架能够有效提高非平衡MD&A文本数据集的分类正确率。研究结果为财务欺诈识别系统性能的提高以及其他领域长文本分类任务的预测提供了新的解决思路,并进一步验证了使用MD&A文本数据进行财务欺诈识别的有效性,为使用非平衡数据进行欺诈识别提供了直接的实证支持。
文摘重采样是解决非平衡数据分类问题的重要方法。但在数据集很小的情况下,欠采样会丢失数据集的重要信息,因此过采样是非平衡数据分类问题的研究重点。现有的过采样方法虽然部分解决了类间不平衡问题,但是本质上并未给少数类引入额外的信息,且仍然存在着过拟合的风险。针对这些问题,提出了一种基于多数类方差迁移的少数类合成方法(Variance Transfer Oversampling,VTO),从足够多样化的多数类中提取样本偏移向量,综合少数类和多数类的特征权重矩阵以调整,最终将经过置信条件筛选的偏移向量叠加至少数类样本中心,从而在少数类样本生成中引入多数类方差,进而丰富少数类特征空间。为了验证所提算法的有效性,使用决策树为分类模型在6个KEEL数据集上训练,对比SMOTEENN等其他过采样方法,以F-score和PR-AUC值为评价指标进行了实验。结果显示,该算法在处理非平衡数据分类问题时具有更大优势。