谷歌推出 LLM-Evalkit,为提示词工程带来秩序与可衡量性

AI前线 2025-10-29 08:24
谷歌推出 LLM-Evalkit,为提示词工程带来秩序与可衡量性图1
作者 | Robert Krzaczyński
译者 | 明知山

谷歌推出 LLM-Evalkit,一个基于 Vertex AI SDK 构建的开源框架,旨在让大语言模型的提示词工程变得更加有序且可衡量。这款轻量级工具旨在用统一的、数据驱动的工作流取代以往分散的文档和基于猜测的迭代方式。

正如 Michael Santoro 所指出的,任何与大语言模型合作过的人都深知其中的痛点:他们在一个控制台中进行实验,然后在其他地方保存提示词,并且对结果的衡量缺乏一致性。LLM-Evalkit 将它们整合到一个连贯的环境中——一个可以创建、测试、版本化和并排比

较提示词的地方。通过保留变更的共享记录,团队终于能够清晰地跟踪哪些提示词改进提升了性能,而不再依赖于模糊的记忆或繁琐的电子表格。

该工具包的核心理念很简单:停止猜测,转而进行精准衡量。与其凭借主观感受去评判哪个提示词“似乎”更好,用户可以明确地定义一个具体任务,精心构建一个具有代表性的数据集,并借助客观的指标来评估输出结果。这一框架让每一次的改进都变得可量化,将原本的直觉判断转变为有据可依的实证分析。

这种方法与现有的谷歌云工作流无缝集成。LLM-Evalkit 基于 Vertex AI SDK 构建,并与谷歌的专业评估工具紧密相连,从而在实验与性能跟踪之间搭建起一个结构化的反馈循环。团队能够便捷地运行测试、精准地比较输出结果,并且为所有提示词的迭代维护一个权威且统一的真实数据源,无需在多个复杂环境中来回切换。

与此同时,谷歌在设计该框架时充分体现了包容性理念。LLM-Evalkit 提供了无代码界面,极大地降低了操作门槛,使得从开发人员、数据科学家到产品经理、用户体验(UX)作家等更广泛的专业人士群体都能轻松上手。通过降低技术障碍,有力地促进了技术团队成员与非技术团队成员之间的快速迭代和紧密协作,真正将提示设计词打造为一项跨学科的协同工作。

Santoro 在 LinkedIn 上表达了他的兴奋之情:

我十分荣幸地宣布,我参与开发了一个全新的开源框架——LLM-Evalkit!它旨在为在谷歌云上使用大语言模型的团队简化提示词工程流程。

这一宣布引起了该领域从业者的广泛关注。一位用户在 LinkedIn 上 评论 道:

这看起来非常棒。我们一直苦于没有一个集中化的系统来跟踪提示词,尤其是当模型不断升级时这个问题愈发凸显。我迫不及待地想试用一下。

LLM-Evalkit 已经作为开源项目在 GitHub 上发布,并且与 Vertex AI 实现了深度集成,同时谷歌云控制台中还提供了详细的教程供用户参考。新用户可以充分利用谷歌提供的 300 美元试用积分来探索这一强大的工具。

借助 LLM-Evalkit,谷歌致力于将提示词工程从一种依赖直觉的即兴调整转变为一种可重复、透明且不断进化的流程——每一次迭代都将使其变得更加智能、高效。

查看英文原文

https://www.infoq.com/news/2025/10/llm-evalkit/

声明:本文由 InfoQ 翻译,未经许可禁止转载。

会议预告

12 月 19~20 日,AICon 2025 年度收官站 · 北京见。两天时间,聊最热的 Agent、上下文工程、AI 产品创新等等话题,与头部企业与创新团队的专家深度交流落地经验与思考。2025 年最后一场,不容错过。

谷歌推出 LLM-Evalkit,为提示词工程带来秩序与可衡量性图2
今日荐文

谷歌推出 LLM-Evalkit,为提示词工程带来秩序与可衡量性图3

你也「在看」吗?👇

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
more
雷军:小米汽车将开放“现车选购”
小米17Ultra摄影套装谍照曝光 | 华为Mate80系列细节汇总
小米汽车败诉,雷军风格大变,一切都结束了
拆解报告:小米17系列手机原装100W氮化镓充电器
新品 | 小米 17 Ultra 原型照片曝光;三星新三折叠跑分首曝
拆解报告:小米67W 2C1A氮化镓快充充电器
小米回应工厂起火,长鑫发布全新DDR5内存,毫末智行已停工解散,摩尔线程启动申购,这就是今天的其他大新闻!
全球可穿戴设备市占率出炉:小米超苹果、华为
小米为17系列和澎湃OS3庆功 | 一加Ace6T明天见 配置前瞻 有原神定制版
双十一手机真实销量:只有苹果OV赢麻,小米华为却下跌了
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号