FinTech / Risk Management

量化交易中的"幻觉":
如何评估金融大模型的可靠性

伍均锐 | Nov 15, 2025 | 7 min read

"大模型的幻觉(Hallucination)在聊天场景中可能只是个笑话,但在金融交易场景中,它可能意味着数百万美元的损失。"

问题的本质:概率模型 vs 确定性需求

大语言模型的本质是概率预测——给定上下文,预测下一个最可能出现的 token。这种机制天然带有不确定性。然而,金融交易对"确定性"有极高要求:一个错误的数字、一个虚构的公司名称,都可能导致严重后果。

金融大模型

我们在 Alphabridge 踩过的坑

在 Alphabridge 早期开发中,我们让 GPT-4 直接解读财报数据。有一次,模型"自信满满"地给出了一家公司的毛利率数据——后来发现,这个数字是模型凭空捏造的。

这让我们意识到:在金融场景中,LLM 只能作为"辅助决策工具",而非"最终决策者"。

构建可靠的金融 AI 系统:三道防火墙

防火墙 1:RAG + 数据溯源

所有涉及数据引用的回答,必须基于检索增强生成(RAG),并附上数据来源链接。用户可以一键跳转到原始数据源进行核实。

防火墙 2:置信度评分

每一条 AI 输出都带有置信度评分。当置信度低于阈值时,系统会自动标记为"需人工复核",不会直接进入交易执行流程。

防火墙 3:人机协作流程

关键决策节点(如大额下单、策略切换)必须经过人工确认。AI 负责"建议",人类负责"批准"。

评估框架:如何量化 LLM 的可靠性

我们内部开发了一套评估框架,用于持续监控模型在金融场景下的表现:

  • 事实准确率: 模型输出与权威数据源的一致性。
  • 幻觉检出率: 通过对抗性测试,检测模型生成虚假信息的频率。
  • 拒答率: 模型在不确定时主动拒绝回答的比例(这是一个正向指标)。
  • 响应一致性: 同一问题多次询问,答案的稳定性。

结语:敬畏之心

AI 是强大的工具,但它不是魔法。在金融这样的高风险领域,我们需要用工程化的方法来驾驭它,而不是盲目信任它。正如我们常说的:"Trust, but verify."