应用介绍
为了进一步证明问题出在评估方法而非模型能力,Claude 的研究进行了一个关键实验。他们对相同模型进行了汉诺塔 N=15 的测试,但使用了不同的表示方法:要求模型输出一个调用时打印解决方案的 Lua 函数,而不是详尽列举所有移动步骤。结果显示,在测试的模型中准确率很高,在不到 5,000 个 token 内完成。生成的解决方案正确实现了递归算法,展示了当摆脱详尽枚举要求时模型完整的推理能力。
为了进一步证明问题出在评估方法而非模型能力,Claude 的研究进行了一个关键实验。他们对相同模型进行了汉诺塔 N=15 的测试,但使用了不同的表示方法:要求模型输出一个调用时打印解决方案的 Lua 函数,而不是详尽列举所有移动步骤。结果显示,在测试的模型中准确率很高,在不到 5,000 个 token 内完成。生成的解决方案正确实现了递归算法,展示了当摆脱详尽枚举要求时模型完整的推理能力。