文 | 钱钱
编辑 | 阿景
硅谷那帮搞AI产品的最近在干一件大事扔PRD,改用Evals了。
这可不是小打小闹,简直是场思维革命。
PRD为啥玩不转了?
传统PRD就像老地图,AI产品却是移动的城市。
你画好的路线,下一秒路可能就改道了。
这种静态对动态的矛盾,让PRD越来越难使。
拿ChatGPT来说,用户问同样的问题,可能得到不同回答。
传统PRD里写"用户点击按钮后显示弹窗"这套,在AI产品里根本行不通。
AI模型输出受太多因素影响,用户输入、上下文、参数调整,哪一个变了,结果可能就不一样。
这种情况下还死抱着固定功能清单,纯属给自己找不痛快。
既然PRD跟不上趟,那Evals又是怎么接棒的呢?
OpenAI、Anthropic这些头部玩家早就行动了。
他们用Evals替代PRD,通过自动化测试、黄金对话、LLM法官构建产品规范。
这可不是简单换个工具。
AI产品经理从"写需求"转向"写评测"先实验、再评测、从评测中提炼需求。
如此看来,Evals既是产品规范,又是验证机制。
Yelp团队的例子就很典型。
他们用这套方法后,迭代效率提升不少。
本来想详细对比传统PRD和Evals的周期,后来发现最直观的是,以前改文档要跨团队同步好几周,现在实时就能看到反馈。
Evals靠什么撑起场面?
黄金对话是第一个支柱。
说白了,就是先想好用户和模型的理想交互是啥样。
比如用户让写简历,模型该怎么引导用户提供经历、怎么优化内容。
Yelp和Anthropic团队就这么干。
他们把这些理想交互写下来,直接定义产品语气、引导方式和边界。
这比传统PRD先列功能再想体验要靠谱多了。
错误分析是第二个支柱。
PM会抽一百条用户交互日志,标上哪些成功哪些失败,然后归纳失败模式。
比如"没get到用户隐含需求"或者"输出信息不准"。
这些失败模式还能直接训练LLM评测器,实现质量自动化检查。
把模糊需求变成可执行指标,这比文字描述实在多了。
LLM法官是第三个支柱。
系统复杂到人工评不过来的时候,就请AI来当裁判。
比如让它判断"回答是否符合伦理规范",用Pass/Fail来打分。
这招最妙的是迫使团队把质量标准说清楚。
而且模型每次更新后,马上就能知道质量怎么样,解决了传统PRD"一次性定义、长期滞后"的毛病。
评测驱动不只是换工具,连产品架构和PM角色都跟着变了。
拿RAG系统来说,分检索器和生成器,就得分别评测召回率和忠实度。
Agent系统更复杂,得用"失败矩阵"标记问题节点,比如工具调用错了还是逻辑断了。
评测粒度越细,反馈就越精准。
Anthropic团队拆了二十多个评测维度,Claude的多轮对话准确率提升不少。
这可不是拍脑袋想出来的,是实打实测出来的。
AI产品经理也得转型。
以前是写文档的,现在得是评测架构师。
要会写黄金对话,会分析失败模式,还得懂LLM法官的设计逻辑。
OpenAI产品负责人说过,AIPM的核心能力是"用评测语言翻译用户需求"。
这话不假,现在不懂评测,怕是很难在AI产品圈混下去。
未来会怎么样?Evals很可能成为AI产品的"通用语言"。
工程师看评测指标优化模型,设计师通过黄金对话定义体验,管理者根据评测结果做决策。
多模态AI、具身智能越来越复杂,没个统一标准根本玩不转。
Evals正好能担起这个角色,让大家劲往一处使。
Evals取代PRD是必然趋势。
用动态评测系统替代静态文档,把需求定义和验证合二为一,这才符合AI产品的脾气。
AI团队真得打破传统思维,建立"评测先行"的开发流程。
让Evals成为驱动产品进化的核心引擎,而不是事后诸葛亮。
在AI技术加速迭代的时代,"活的PRD"不只是工具革新,更是产品思维的革命。
它让AI产品真正从"满足需求"走向"创造体验"。
这波思维转变,怕是会影响整个行业的玩法。