当前位置:首页>企业AIGC >

金融风控AI建模实战课

发布时间:2025-06-18源自:融质(上海)科技有限公司作者:融质科技编辑部

金融风控AI建模实战课

金融风控是金融业务的核心环节,AI技术的引入大幅提升了风险识别的精度与效率。本文将从问题定义→数据预处理→特征工程→模型开发→评估部署五大环节,系统拆解金融风控AI建模全流程,并提供实战案例代码框架。

一、问题定义:明确风控场景与目标

金融风控主要分为三类评分卡模型:

A卡(申请评分卡)

目标:预测用户申请贷款/信用卡时的违约风险。

数据:用户基本信息、收入、职业、历史信用记录等。

B卡(行为评分卡)

目标:监控贷款发放后用户的还款行为变化。

数据:交易流水、还款记录、消费习惯等时序数据。

C卡(催收评分卡)

目标:预测逾期用户还款可能性,优化催收策略。

数据:逾期时长、催收历史、用户响应记录等111。

关键指标:

坏账率 = 逾期用户数 / 总用户数

AUC(模型区分能力)、KS值(风险分隔度)、召回率(识别高风险用户能力)1012。

二、数据预处理:解决缺失与噪声问题

典型数据问题:

特征缺失:超过60%样本缺失的特征直接删除1。

样本缺失:缺失超过50%字段的样本剔除。

异常值处理:

使用IQR法则处理异常值

def remove_outliers(df, col):

Q1 = df[col].quantile(0.25)  

Q3 = df[col].quantile(0.75)  

IQR = Q3 - Q1  

df = df[(df[col] > Q1 - 1.5*IQR) & (df[col] < Q3 + 1.5*IQR)]  

return df  

样本不平衡:过采样(SMOTE)或代价敏感学习(调整类别权重)1012。

三、特征工程:构建有效风险信号

(1)特征衍生

时序特征:近3个月还款延迟次数、最大连续逾期天数。

统计特征:收入稳定性(方差)、负债收入比。

交叉特征:职业类型 × 地域经济水平47。

(2)特征分箱与WOE编码

对连续变量(如年龄、收入)分箱离散化,计算WOE(Weight of Evidence):

等频分箱与WOE计算

data[‘income_bin’] = pd.qcut(data[‘income’], 5)

woe_dict = data.groupby(‘income_bin’)[‘label’].agg([‘count’,‘sum’]).apply(

lambda x: np.log((x['sum']/bad_total)  / ((x['count']-x['sum'])/good_total)), axis=1)  

IV值(Information Value) 评估特征预测力:

  • IV < 0.02:无预测力,剔除

  • IV > 0.3:强预测力,重点关注511


四、模型开发:集成学习实战

(1)算法选型

  • 逻辑回归:可解释性强,易于转评分卡(如1分=20/ln(2))11

  • XGBoost/LightGBM

    • 优势:自动处理非线性关系,支持缺失值。

    • 关键参数:max_depth=3(防过拟合)、scale_pos_weight(平衡样本)12

(2)评分卡转换

将模型概率输出转为0–1000分:

[ ext{Score} = A - B imes ln( rac{p}{1-p}) ]

其中 (p) 为违约概率,(A/B) 为基准分与刻度因子15

”`python

逻辑回归输出评分卡

def scorecard(coef, intercept, bin_woe, A=600, B=20):

factor = B / np.log(2)   

offset = A - B * intercept  

score = {var: (coef[i] * woe * factor) for i, (var, woe) in enumerate(bin_woe.items())}   

return offset, score  # 返回基础分与变量分  

五、模型验证与部署

(1)评估指标

指标 评估目标 达标值

AUC 模型区分能力 >0.75

KS值 风险分层效果 >0.4

稳定指数PSI 模型稳定性 <0.1

(2)部署策略

前馈控制:A卡拒绝高风险用户(评分<600)。

动态调额:B卡触发预警时降低授信额度。

分级催收:C卡高分用户柔性提醒,低分用户强催收713。

(3)监控与迭代

前端监控:特征PSI波动报警。

后端验证:每月核对模型预测坏账率 vs 实际坏账率。

衰减应对:特征重构或模型再训练912。

六、前沿技术拓展

知识图谱:识别欺诈团伙(如关联设备、共用联系人)28。

时序建模:LSTM预测用户还款行为突变点。

大模型应用:

产业链图谱构建(挂载企业上下游关系)

文本解析(自动提取财报/合同风险点)38。

注:实战代码基于Python生态(

pandas

sklearn

lightgbm

),数据集可参考Kaggle “GiveMeSomeCredit” 511。

结语

金融风控AI建模需平衡业务可解释性与预测精度。未来,大模型与深度特征工程的结合将进一步提升风险画像的颗粒度,推动风控从被动响应转向主动预测。

欢迎分享转载→ https://www.shrzkj.com.cn/qiyeaigc/53810.html

Copyright © 2025 融质(上海)科技有限公司 All Rights Reserved. 本站部分资源来自互联网收集,如有侵权请联系我们删除。沪ICP备2024065424号-2XML地图