Since the emergence of joint-stock companies, financial fraud by listed firms has repeatedly undermined capital markets. Fraud is difficult to detect because of covert tactics and the high labor and time costs of audits. Traditional statistical models are interpretable but struggle with nonlinear feature interactions, while machine learning models are powerful but often opaque. In addition, most existing methods judge fraud only for the current year based on current year data, limiting timeliness. This paper proposes a financial fraud detection framework for Chinese A-share listed companies based on convolutional neural networks (CNNs). We design a feature engineering scheme that transforms firm-year panel data into image like representations, enabling the CNN to capture cross-sectional and temporal patterns and to predict fraud in advance. Experiments show that the CNN outperforms logistic regression and LightGBM in accuracy, robustness, and early-warning performance, and that proper tuning of the classification threshold is crucial in high-risk settings. To address interpretability, we analyze the model along the dimensions of entity, feature, and time using local explanation techniques. We find that solvency, ratio structure, governance structure, and internal control are general predictors of fraud, while environmental indicators matter mainly in high-pollution industries. Non-fraud firms share stable feature patterns, whereas fraud firms exhibit heterogeneous patterns concentrated in short time windows. A case study of Guanong Shares in 2022 shows that cash flow analysis, social responsibility, governance structure, and per-share indicators are the main drivers of the model's fraud prediction, consistent with the company's documented misconduct.


翻译:自股份制公司出现以来,上市公司财务舞弊行为屡次冲击资本市场。由于舞弊手段隐蔽且审计所需人力与时间成本高昂,舞弊检测难度较大。传统统计模型虽具可解释性,但难以处理非线性特征交互;机器学习模型虽预测能力强,却常缺乏透明度。此外,现有方法多仅依据当年数据判断当年舞弊,时效性受限。本文提出基于卷积神经网络(CNN)的中国A股上市公司财务舞弊检测框架。我们设计了一种特征工程方案,将公司年度面板数据转换为类图像表征,使CNN能够捕捉横截面与时间模式,并实现舞弊提前预测。实验表明,CNN在准确率、鲁棒性及预警性能上均优于逻辑回归与LightGBM,且在高风险场景中分类阈值的恰当调优至关重要。针对可解释性问题,我们运用局部解释技术从实体、特征与时间三个维度分析模型。研究发现:偿债能力、比率结构、治理结构与内部控制是舞弊的通用预测因子,而环境指标主要在高污染行业中起作用;非舞弊公司呈现稳定的特征模式,舞弊公司则表现出集中于短期时间窗口的异质性模式。以2022年冠农股份为例的案例研究表明,现金流分析、社会责任、治理结构及每股指标是模型预测舞弊的主要驱动因素,这与该公司已披露的违规行为相一致。

0
下载
关闭预览

相关内容

《模拟军事单元的多目标优化策略》美陆军DEVCOM SC
专知会员服务
46+阅读 · 2023年11月13日
「可解释知识图谱推理」最新方法综述
专知会员服务
89+阅读 · 2022年12月17日
【ICML 2020 】小样本学习即领域迁移
专知会员服务
78+阅读 · 2020年6月26日
Spark机器学习:矩阵及推荐算法
LibRec智能推荐
16+阅读 · 2017年8月3日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员