Helpayments

Stripe 2026 年 AI 风控系统全解析:支付基础大模型如何识别高风险商户

Stripe 的风控系统已从 XGBoost 规则模型进化为以大模型为核心的智能风控体系。本文解析 Stripe 如何利用 Foundation Model 进行账户行为建模、实时欺诈检测,以及对跨境卖家意味着什么——哪些行为会触发 AI 风控,哪些可以主动规避。

2020 年,Stripe 在官方工程博客发布了《相似度聚类识别欺诈团伙》,首次公开披露其风控核心技术——用 XGBoost 对账户对打相似度分,再通过图连通分量算法找出欺诈团伙。那篇文章定格了许多人对 Stripe 风控的认知。六年后的 2026 年,Stripe 的 AI 风控体系已经发生了根本性变革:模型架构从梯度提升树演进为 Transformer 基础大模型,风险信号从数百个扩展到逾千个,商户监控从批量扫描升级为实时嵌入空间感知。本文综合 Stripe 工程博客、Stripe Sessions 2024/2025 大会演讲、Stripe 应用 ML 负责人 Gautam Kedia 和数据 AI 负责人 Emily Sands 的公开访谈,还原 Stripe 风控系统 2020-2026 年的完整演进路径,以及它对商户意味着什么。

一、Stripe 风控的三个层次:交易欺诈、商户欺诈、授权优化

理解 Stripe 风控的前提,是区分三个目标截然不同的子系统:

Radar(交易级欺诈检测):对每一笔支付请求实时评分,识别被盗卡、身份盗用、机器人刷卡测试等。目标是在 100ms 内决定是否拦截该笔交易。

商户风险评估(Merchant Risk):对注册商户持续评分,识别经营欺骗性业务的空壳公司、争议率异常飙升的商户、有组织欺诈团伙创建的账户。目标是在损失发生前冻结或终止商户账户。

Adaptive Acceptance(自适应授权):识别被发卡行错误拒绝的合法交易,通过智能重试和请求改写提升授权率。2024 年为 Stripe 商户追回了 60 亿美元的本应成功的交易。

三个系统共用同一套特征工程平台(Shepherd),但服务于不同目标。本文重点介绍前两个系统,以及 2025 年 Stripe 宣布的统一它们的基础大模型。

二、模型架构演进:从 XGBoost 到支付基础大模型

2020 年那篇博客使用的是 XGBoost。Stripe 的模型架构在此后经历了三次重大迭代:

第一代:Wide & Deep 集成(~2016–2021)

Stripe Radar 的原始架构是"宽深"集成模型:

  • Wide 组件:XGBoost——擅长记忆已知欺诈模式,能快速匹配精确的历史欺诈特征
  • Deep 组件:标准深度神经网络——擅长泛化,能发现未见过的欺诈组合模式

这是当时业界标准配置,在有足够历史数据的场景下表现优秀。但 XGBoost 有一个根本性缺陷:不支持迁移学习和嵌入向量,无法在模型间共享表示。

第二代:Shield NeXt(2022 年)——XGBoost 退场

2022 年中,Stripe 从 Radar 模型中完全移除了 XGBoost。直接替换会导致召回率下降 1.5%(即更多欺诈漏过),Stripe 工程师受计算机视觉中 ResNeXt 架构的启发,设计了"Shield NeXt":将新 DNN 拆分为多个独立计算分支(每个子网络类似一个小型 XGBoost),各分支输出求和,在保留 XGBoost 记忆能力的同时,整个架构完全可微、支持嵌入和迁移学习。

结果:训练时间从数小时缩短至 2 小时以内,年度欺诈检测性能提升超 20%,模型部署频率大幅提升。

第三代:支付基础大模型(Payments Foundation Model,2025 年 5 月)

这是 Stripe 有史以来最重要的 ML 公告,由应用 ML 负责人 Gautam Kedia 于 2025 年 5 月公开披露。核心概念:将每一笔支付视为自然语言处理中的一个"token",将一张卡或一个账户的交易历史视为一个"句子",用 Transformer 架构学习支付序列的深层模式。

架构细节:

  • 模型类型:Transformer 自监督学习,类 BERT 架构
  • 训练数据:数百亿笔交易(Stripe 每分钟处理约 5 万笔,年处理量约 1.3 万亿美元)
  • 训练方式 V1:BERT 风格掩码建模——随机遮盖部分交易特征,训练模型重建;加入相似度微调使嵌入空间内相似支付序列自动聚类
  • 训练方式 V1.5:编码器-解码器架构 + 压缩记忆序列——将完整支付历史蒸馏为紧凑表示
  • Tokenization:高基数分类特征(Card BIN、MCC 商户类别码)→ 学习嵌入向量;连续值(金额、时间戳)→ 分桶或位置编码;商户名称文本 → BPE 子词切分
  • 推理延迟:全部 Stripe 交易经此模型处理,端到端在 100ms API 响应窗口内完成

实测效果:大型商户遭遇的盗卡测试(Card Testing)攻击检测率从 59% 跃升至 97%,这一提升在部署后几乎是一夜之间实现的。而在此之前,Stripe 花了两年时间用专项模型才将同类攻击降低了 80%。

架构优势的本质:传统 ML 模型依赖人工设计的离散特征(BIN、邮编、支付方式等),每种新型欺诈模式都需要重新进行特征工程;基础大模型通过自监督学习自动发现特征,对欺诈模式变化的适应速度快得多。Stripe 将其类比于 NLP 领域的 GPT/BERT:新用例从"季度级项目"变成"周末项目"。

三、Stripe 风险评分机制:交易级与商户级

(一)交易风险分(0-99 分)

Radar 对每笔支付实时输出一个 0-99 分的风险评分和三级分类标签:

normal(正常,< 65 分):默认授权通过

elevated(elevated,65-74 分):授权通过,但进入人工审核队列

highest(最高风险,≥ 75 分):默认直接拦截,不发送给卡网络

评分模型分析超过 1,000 个风险信号,主要来自以下五类:

验证信号:CVC 验证结果、邮编匹配结果、账单地址与发货地址一致性

速度信号:同一张卡/IP/设备在过去 1 小时、24 小时内的交易频率、失败次数

行为信号:鼠标轨迹(人类 vs. 机器人)、卡号是手动输入还是粘贴、结账表单填写速度、页面停留时间

设备信号:浏览器/屏幕/操作系统特征组合(异常参数组合 → 欺诈信号)、本地时区与 UTC 的时差、IP 地理位置与发卡国一致性、是否使用 VPN/代理

网络级信号:这张卡在 Stripe 全网络的历史(92% 的卡在到达新商户前已在其他 Stripe 商户出现过,可立即判断历史);关联账户在图网络中的风险状态;商户嵌入向量(Uber 和 Lyft 的嵌入坐标相近,欺诈知识自动跨相似商户传播)

(二)商户账户风险分(0-100 分)

针对接入 Stripe Connect 平台的商户账户,Stripe 输出独立的商户风险评分:

normal(< 50 分):低风险

elevated(50-89 分):损失概率 50%-89%

highest(≥ 90 分):损失概率 > 90%

Stripe 评估的九类商户欺诈信号(Account Risk Signals API):

  • 银行账户与已知欺诈记录相匹配
  • 企业基本信息异常(订单量或结算金额突然暴增)
  • 争议率急剧上升
  • 支付失败率突然飙升
  • 登录地点与业务申报地点严重不符
  • 账户关联已知欺诈网络节点
  • 异常交易模式(交易量与业务规模不匹配)
  • 邮件域名与网站域名不符
  • 网站内容与申报业务严重不匹配(Fraudulent Website Signal)

四、商户入驻时的 AI 风险审查

在商户注册阶段,Stripe 已部署一套多层 AI 审查机制:

LLM 网站扫描(2023 年起):Stripe 使用 GPT-4 级 LLM 自动扫描商户网站,生成业务摘要。内部测试显示 AI 生成的摘要准确度超过人工撰写。LLM 用于判断商户是否经营被禁止或受限制业务(成人内容、赌博、加密货币交易所等)。引入后,可支持商户的自动通过率超过 80%,商户可即时开始收款。

Stripe Identity(KYC/KYB):计算机视觉 + ML 验证证件真实性,活体检测(Liveness Detection)防止使用他人照片,支持全球 100+ 国家数百种证件。AI 自动提取并与数据库交叉核验姓名、出生日期、证件号码。

反黑名单交叉验证:新账户的银行账号、税务 ID、姓名、出生日期,与 Stripe 历史上所有被拒绝和欺诈账户的数据库实时比对,识别重复注册。

商户智能(MI Serve,2024-2025):Stripe 内部称为"MI Serve"的系统在入驻和持续监控中对商户进行多维评估:产品合法性、卡网络可支持性、信用状况、欺诈可能性、假冒品风险、监管合规性。

五、欺诈团伙识别:从 XGBoost 对到嵌入空间聚类

Stripe 2020 年的相似度聚类方案核心逻辑:用 XGBoost 对账户对打相似度分 → 在加权图上计算连通分量 → 找出欺诈团伙簇。这套方法在 2026 年已演进为更强大的嵌入空间聚类:

原始方案的局限性:

  • 需要人工设计特征(邮箱域名重叠、卡号重叠、文本相似度等)
  • 只能处理预定义的相似维度
  • 无法发现新型链接模式

2025 年演进方向——嵌入相似度聚类:

  • 支付基础大模型 V1 明确包含"相似度微调"目标:在 BERT 掩码预训练后,通过相似度微调让嵌入空间内相似支付序列自动聚类,无需手工特征
  • 硬链接(银行账户、手机号、证件号)与软链接(设备指纹、Cookie、IP 段)分离处理:硬链接用 Union-Find 算法合并超级节点,软链接用嵌入向量 + 密度聚类(HDBSCAN)
  • 结果:相比仅用硬链接的基线,欺诈团伙检测覆盖率可翻倍,且完全无需欺诈标签(无监督)

关键不变的原则:欺诈者扩大规模时必须复用资源(银行账户、身份证件、设备),这些复用行为在图结构和嵌入空间中都会留下可识别的痕迹。Stripe 从多个维度同时盯住这些痕迹。

六、三层 ML 层次结构:实时动态调整风险阈值

2024 年 12 月,Stripe 工程博客披露了针对盗卡测试攻击的三层 ML 体系:

宏观层(Macro):ML 每日估计 Stripe 全平台盗卡测试的总体发生率,判断当日整体风险态势

中观层(Meso):ML 识别哪些商户、发卡机构或支付入口正在遭受攻击

微观层(Micro):逐笔交易分类评分

三层输出联动:当中观层检测到某商户正在遭受盗卡测试攻击时,该商户的 Radar 拦截阈值自动收紧,无需人工干预。这一机制使 Stripe 过去两年间将盗卡测试攻击降低了 80%,并在支付基础大模型介入后进一步将检测率从 59% 提升至 97%。

七、争议率监控与卡网络合规:商户必须了解的阈值

Stripe 持续监控商户的争议率,并与卡网络的合规要求紧密挂钩:

Stripe 内部预警线:争议率 0.75%,Stripe 建议商户保持在 0.65% 以下

Visa VAMP(2025 年 4 月生效,整合了原 VDMP 等四个项目):不合规阈值 0.5%,超限阈值 1.5%(2026 年 4 月后降为 1.5%);每月超过 1,500 笔合计争议即触发监控

Mastercard ECP:月争议 100-299 笔且争议率 1.5%-2.99% 进入超额争议商户计划,月争议 ≥ 300 笔且争议率 ≥ 3% 进入高额超额,罚款最高达每月 $100,000

一旦被卡网络列入监控计划,商户将收到 Stripe 的主动通知并被要求制定整改计划。超过"Excessive"阈值将产生卡网络评估的合规费用,由 Stripe 转嫁给商户,且持续不合规将导致账户终止。

八、储备金(Reserve)的触发逻辑

当风险评分持续处于 elevated 或 highest 水平,或者以下条件被触发时,Stripe 会启动滚动储备或固定储备:

  • 争议率超过 ~1% 的警戒水位
  • 所在行业本身属于高风险类别(旅游、营养补充剂、订阅服务、成人内容、加密货币相关)
  • 商户账户风险信号 API 中出现 elevated 或 highest 信号
  • 新商户账户,历史处理记录有限

储备金参数:

扣留比例:每日销售额的 5%-15%

扣留期限:低风险 30-90 天;高风险行业 180 天或更长(覆盖标准 45-120 天争议窗口)

储备金类型:滚动储备(按交易比例持续扣留)、固定储备(一次性锁定固定金额)、上限储备(滚动但有总量上限)

九、终止账户与 Mastercard MATCH 名单

账户终止是 Stripe 风控的最终手段。终止后商户将面临:

  • 90-180 天终止储备期:无法继续处理支付,但资金仍被锁定以覆盖潜在争议
  • 被列入 Mastercard MATCH 名单(前身为 TMF,终止商户档案):记录保存 5 年,被列入后几乎无法在其他主流收单机构(PayPal、Square、Adyen 等)开户

触发 MATCH 列入的条件(满足任一):

  • 月 Mastercard 争议率超 1% 且争议金额 ≥ $5,000
  • 月欺诈交易率达 8% 以上且涉及 10 笔以上或 $5,000+
  • 洗钱、欺诈定罪、PCI DSS 不合规、账户数据泄露等违规行为

MATCH 名单会在收单机构之间共享,一旦被列入,在整个支付行业建立正规收单关系将极为困难。

十、Stripe 的 AI 能力全景:2023-2026 关键节点

2023 年:GPT-4 用于商户网站扫描与 ToS 合规自动判断,自动通过率超 80%;Stripe 成立专注基础模型的应用 ML 团队;Shepherd 特征平台上线(基于 Airbnb Chronon),SEPA 欺诈模型采用 200+ 个特征,单独阻止了数千万美元欺诈额度

2024 年 Sessions:Radar Assistant(自然语言转 Radar 规则);Fraud Insights(个性化欺诈趋势分析);TabTransformer+ 替换 XGBoost 用于 Adaptive Acceptance,追回 60 亿美元;Adaptive 3DS 多头模型,欺诈下降超 30%

2024 年 12 月:ML Flywheel 博客披露三层 ML 层次结构,模型部署频率提升 3 倍,盗卡测试 2 年间降低 80%

2025 年 5 月 Sessions:支付基础大模型正式发布,Transformer 架构,盗卡检测 59% → 97%;Smart Disputes AI 自动提交争议证据;Radar 覆盖 ACH/SEPA;AI 异常告警(授权率异常检测精度 > 90%);宣布与 NVIDIA 深度合作加速基础模型训练

2026 年:VAMP 合规阈值正式降至 1.5%(2026 年 4 月);Radar for Teams 风险设置全面更新;LLM 工具每天约 8,500 次使用

十一、对商户的实际意义:Stripe 的风险判断逻辑

理解上述系统后,商户需要认识到以下几点核心逻辑:

网络效应是双刃剑:92% 的卡在进入你的商户前已被 Stripe 全网见过。如果历史记录干净,这张卡的风险分会低;但反过来,你的账户一旦被标记,也会影响与你关联的其他账户的风险分。

争议率是最硬的指标:一旦月争议率超过 0.75%,Stripe 的算法会自动升级对你的关注度。争议率不是"申诉就能清零"的指标,卡网络的统计是独立进行的。

网站内容被实时扫描:LLM 会持续扫描你的网站。如果你的实际业务与注册时申报的不符,Fraudulent Website Signal 信号会被触发。这在商户入驻后的持续监控中也会发生,不只是一次性检查。

关联账户是核查范围:2020 年的相似度聚类和 2025 年的嵌入空间聚类都会寻找账户间的关联。一个与已知欺诈账户共享银行账户或设备的新账户,会在注册时被直接标记。

储备金可协商:储备金是风险驱动的,不是惩罚性的。如果业务指标改善(争议率下降、处理量稳定、业务真实性可证明),可以向 Stripe 风险团队提供书面材料申请降低储备金比例。

结语

从 2020 年的 XGBoost 对相似度分,到 2025 年将整个支付网络的数百亿笔交易压缩为行为嵌入向量的 Transformer 基础大模型,Stripe 风控体系的演进本质上是一个相同命题的不同解法:在保持极低假阳率(误伤合法商户)的同时,让欺诈者复用资源的成本越来越高。这一目标并未改变,改变的是技术栈的深度和速度——以及对商户而言,被识别为高风险的路径越来越多元、越来越难以规避。