一生酒色网 o1谋略才智首测！已超越言语模子界限，preview终于赢mini一趟

o1-preview 终于赢过了 mini 一次！一生酒色网

亚利桑那州立大学的最新探究标明，o1-preview 在谋略任务上，发达权贵优于 o1-mini。

比拟于传统模子的上风更是碾压级别，在超难任务上的准确率比 Llama3.1-405B 高了 11 倍。

要知谈之前，OpenAI 我方东谈主也发了一张图，泄露 preview 论性能比不外满血版，论经济性又不如 mini，处于一个相称无言的地位。

作家在推文中示意，尽管存在可保证性和老本问题，但仅针对 CoT 而言，o1 也曾超越了大模子的"肖似检索"性质，晋升到了"肖似推理"档次。

而且在论文中，o1 全程被称作 LRM（Large Reasoning Model，大型推理模子），而非一般大型言语模子的 LLM。

o1 团队的中枢成员 Noam Brown 也转发了这项探究，趁便给 o1-preview 打了个 call。

还有网友翻出了左近 Meta 的 LeCun 半个多月前的推文，那时 LeCun 说大模子莫得谋略才智，效果目下 OpenAI 就带着 o1 来踢馆了。

用"搭积木"测试大模子

为了评估 o1 系列模子的谋略才智，作家使用了 PlanBench 评估基准。

该基准的提议者中也恰恰包含了本文三名作家中的两名——共吞并作 Karthik Valmeekam，以及他的导师 Subbarao Kambhampati。

PlanBench 成心为评估大模子谋略才智而联想，任务类型涵盖了筹备生成、老本最优谋略、筹备考据等。

具体到这个施行，作家使用了其中来自于国外谋略竞赛（IPC）的 Blocksworld 和其变体。

此类问题波及在桌子上堆叠积木块，目的是从一个运转情状，重新成列到目的建立。

木块用不同的样子符号，一次只可移动一个积木块，且只可移动每一堆中顶部的积木块，被提起的积木块也只可放在顶部或径直放在桌子上。

变体 Mystery Blocksworld 则是在 Blockworlds 的基础上加入混浊机制，用一些绝不筹划的词语来代替操作中的行为。

在此基础之上，还有更为复杂的全立时变体，辅导进一步从其他英文单词形成了无真谛真谛的字符串。

在 o1 之前，Blockworlds 上的 SOTA 模子是 Llama3.1-405B，收获为达到 62.6%，而在 Mystery Blockworlds 上，莫得任何模子的收获能特别 5%。

o1-preview 超强谋略

o1 这边的测试效果泄露，preview 比拟 mini，收获上风相称彰着。

在 Blockworlds 任务上，preview 版准确率达 98%，而 mini 唯有 56.6%，发达还不如 llama。

虽然加入了混浊之后，mini 比拟于 llama 也泄露出了一些上风——

在零样本建立下，preview 版的准确率特别了一半，比 llama 的 4.3% 向上了 11 倍多；mini 版也达到了 19.1%，比 llama 高 3.4 倍。

终末在全立时版块下，o1-preview 还能领有 37.3% 的准确率。

以上效果泄露出了 o1 系列模子，至极是 o1-preview 的超强谋略才智，然则不及之处也相称彰着。

一是跟着谋略长度的增多，模子的性能也会连忙着落，即使关于未混浊的 Blockworlds 来说也通常如斯。

另外，Blockworlds 系列问题并非一齐可解，作家发现 o1在识别不行解问题上的准确率依然存在不及。

关于未混浊版块准确率唯有 27%，但莫得误判为不行解的情况；关于全立时版块则唯有 16%，另外还有 11.5% 的概率将可解问题误判为不行解。

致使作家还发现，o1 未必也会否认，提议令东谈主信服的合理事理，让东谈主们深信其无理谜底。

在模子本人的性能以外，老本和技艺花消亦然一个遑急考量，比拟于传统大模子，o1-mini 的老本比拟 GPT4-Turbo 径直翻番，preview 更是向上了数目级。

那么，淌若你是建立者，会雕悍为了 o1 的高性能付出更多的老本吗？接待商酌区换取。

论文地址：

https://arxiv.org/abs/2409.13373

参考运动：

https://x.com/rao2z/status/1838245261950509170一生酒色网