首页资讯

苹果携手剑桥大学设计最佳 AI 评审框架,突破复杂任务评审局限

时间:2025-07-24 12:03 作者:李小三皮

苹果携手剑桥大学设计最佳 AI 评审框架,突破复杂任务评审局限

IT之家 7 月 24 日消息,科技媒体 NeoWin 今天(7 月 24 日)发布博文,报道称苹果公司携手剑桥大学,提出一种新的 AI 评估系统,通过引入外部验证工具增强 AI 评审员的能力,以提高评审质量。

在评估大语言模型(LLM)时,研究人员和开发者越来越多地借助 AI 力量,这种方式也称为“LLM-as-a-judge”。不过这种方式也存在诸多挑战,在长篇事实核查、高级编码和数学问题等复杂任务中,评估质量往往会下降。


苹果携手剑桥大学发表了一篇新研究论文,概述了一种新系统,通过为 AI 评审员配备外部验证工具,以提高其评审质量,从而克服人类和 AI 注释中的局限性。

人类评审员由于时间限制、疲劳以及更倾向于写作风格而非事实准确性,面临挑战和偏见,而 AI 在上述复杂任务上则遇到困难。

研究人员创建的评估代理是具有自主性的,它能够评估响应以确定是否需要外部工具,并使用正确的工具。每个评估都经过三个主要步骤:初始领域评估、工具使用和最终决策。


事实核查工具使用网络搜索来验证响应中的原子事实;代码执行利用 OpenAI 的代码解释器运行并验证代码的正确性;数学核查工具是代码执行工具的一个专门版本,用于验证数学和算术运算。


如果发现没有工具对判断有帮助,系统将使用基线 LLM 注释器,以避免在简单任务上不必要的处理和潜在的绩效回归。

IT之家附上参考地址

Top

1、与其搞基建工程,不如把钱用来提高社会福利,提高人民收入?,基建的钱从何而来

2、王安石变法为什么搞得"民不聊生″?,为什么王安石的变法措施不能有效实施

3、界面早报 | 科技部公布《驾驶自动化技术研发伦理指引》;海关总署发布海南自贸港加工增值免关税货物税收征管新规国家电网新源控股有限公司增资扩股签约,增资规模365亿元;特朗普:将对大部分国家征收15%至50%的简单关税;泰国代总理称将降低与柬埔寨外交关系等级。

小编推荐

当前文章:http://www.share.sjzclz.cn/OAZ/detail/pikofe.html

相关阅读

网友评论

我要评论

发表

取消

李小三皮