谷歌推出 LLM-Evalkit，为提示词工程带来秩序与可衡量性

作者 | Robert Krzaczyński

译者 | 明知山

谷歌推出 LLM-Evalkit，一个基于 Vertex AI SDK 构建的开源框架，旨在让大语言模型的提示词工程变得更加有序且可衡量。这款轻量级工具旨在用统一的、数据驱动的工作流取代以往分散的文档和基于猜测的迭代方式。

正如 Michael Santoro 所指出的，任何与大语言模型合作过的人都深知其中的痛点：他们在一个控制台中进行实验，然后在其他地方保存提示词，并且对结果的衡量缺乏一致性。LLM-Evalkit 将它们整合到一个连贯的环境中——一个可以创建、测试、版本化和并排比

较提示词的地方。通过保留变更的共享记录，团队终于能够清晰地跟踪哪些提示词改进提升了性能，而不再依赖于模糊的记忆或繁琐的电子表格。

该工具包的核心理念很简单：停止猜测，转而进行精准衡量。与其凭借主观感受去评判哪个提示词“似乎”更好，用户可以明确地定义一个具体任务，精心构建一个具有代表性的数据集，并借助客观的指标来评估输出结果。这一框架让每一次的改进都变得可量化，将原本的直觉判断转变为有据可依的实证分析。

这种方法与现有的谷歌云工作流无缝集成。LLM-Evalkit 基于 Vertex AI SDK 构建，并与谷歌的专业评估工具紧密相连，从而在实验与性能跟踪之间搭建起一个结构化的反馈循环。团队能够便捷地运行测试、精准地比较输出结果，并且为所有提示词的迭代维护一个权威且统一的真实数据源，无需在多个复杂环境中来回切换。

与此同时，谷歌在设计该框架时充分体现了包容性理念。LLM-Evalkit 提供了无代码界面，极大地降低了操作门槛，使得从开发人员、数据科学家到产品经理、用户体验（UX）作家等更广泛的专业人士群体都能轻松上手。通过降低技术障碍，有力地促进了技术团队成员与非技术团队成员之间的快速迭代和紧密协作，真正将提示设计词打造为一项跨学科的协同工作。

Santoro 在 LinkedIn 上表达了他的兴奋之情：