沃顿商学院教授发文解析 o1：能力仍有短板，「

沃顿商学院教授发文解析 o1：能力仍有短板，「?

OpenAI 近来送上了满血版的 o1 Pro，这一全新系列的模子毕竟有多强？它是否指明 AI 开展的将来偏向？沃顿商学院教学在 3 个月的前一篇博客就中给出了「神预言」个别的谜底。o1 preview 问世 3 个月后，满血版的 o1 Pro 终于在上周以每月 200 美元的身价正式上线，阿尔特曼号称其为「当当代界上最智能的模子」。以是，这个正式的 o1 Pro 毕竟强盛到了什么水平？能够确定的是，它远远不是一个走到 AGI 起点的灭霸，但这是 scaling law 之后的又一个里程碑吗？代表着将来 LLM 的开展偏向吗？能像 OpenAI 研讨院 Jason Wei 所说的，足以成为一个「传奇」吗？就在 o1 Pro 宣布确当口，沃顿商学院副教学、GenAI 试验室结合主任 Ethan Mollick 提起了这篇本人 3 个月前写就的博客，能够说既是模子宣布前的「神预言」，也是一盆有理有据、恰如其分的「冷水」。Ethan Mollick 表现，早在 9 月份咱们第一次见到 o1 preview 时，他就写下了这篇博客文章，详解这个模子对当下跟将来都象征着什么。模子的品质很主要，但更为主要的是，懂得模子对人工智能将来的潜伏意思。上面，咱们就把这篇文章当成时光传递门，将 3 个月前横空降生的 o1 preview 跟处在性价比漩涡中的 o1 Pro 放在一同比拟，或者能够给当下供给更多启示。「草莓」大显神通一段时光之前，我曾经打仗到了风闻满城风雨的被称为「草莓」的加强版推理体系，当初 OpenAI 将其宣布了，我也终于能够分享一些主意。这个模子确实让人惊奇，但才能依然无限，但最主要的是，它的呈现指明白 AI 的开展偏向。新模子被称为 o1-preview（此处 Mollick 狠狠吐槽 OpenAI 等一众 AI 公司在定名上十分蹩脚），让 AI 在处理成绩之前先「思考」一个成绩，因而可能处理须要计划跟迭代的艰苦成绩。依据这张咱们都熟习的基准成果图，o1-preview 在数学跟迷信范畴尤为刁悍，对极端艰苦的物理成绩，乃至能够击败博士级其余人类专家。但须要明白的是，o1-preview 并不是在全部方面都有晋升，比方在写作方面就不比 GPT-4o 更强；但对须要打算的义务来说，变更就相称年夜了。因为很难评价全部这些庞杂义务的输出，因而要展现「Strawberry」模子的晋升（以及一些限度），兴许最简略直不雅的方式就是游戏 —— 比方填字游戏（crossword puzzle）。不要小瞧了填字游戏，这是一个上限很低但下限也很高的名目，最难的填字游戏完整能够到达天堂形式，并且十分磨练逻辑推理才能。片子《模拟游戏》中就有如许的情节：二战时期，AI 之父 Alan Turing 担负英国暗码破译名目 Enigma 的担任人，为了招揽天下在数学跟暗码学方面的才俊，他就在报纸上登出了一个填字游戏作为报名测试，乃至最后一关的现场考察也是请求 a 在划定时光内做出填字游戏题。片子《模拟游戏》剧照因为 o1 preview 还无奈从图片中读取笔墨，因而 Mollick 只能本人手动打出来喂给模子。如下图所示，这是一个相称存在挑衅性的困难，并且，Mollick 只筛选了 18 条线索中的 8 条供给给 o1。填字游戏对 LLM 来说尤其艰苦，由于须要迭代处理：实验并反对失落很多彼此关系的谜底 —— 这是之前的年夜模子无奈做到的，由于他们一次只能在谜底中增加一个 token / 单词。如下图所示，假如给 Claude 供给响应的线索，它起首给出序号 1 的谜底（它猜想是 STAR，但这个谜底是过错的），而后在此基本上实验解答其他局部。但是，因为第一颗扣子就扣错了，Claude 永久都无奈濒临准确谜底。假如不计划流程，它就只能向前冲，并不晓得本人行进的偏向是对是错。Claude 的实验但面临雷同的成绩时，「草莓」时会怎样做呢？起首，它会开端「思考」，这个进程连续了整整 108 秒（但年夜少数成绩都能在更短的时光内处理）。并且，o1 思考时并不是一声不吭，而是会「喃喃自语」，输出本人的「头脑链」让你看到它的主意。上面是此中的一个示例（另有更多内容未展现出来），并且这些主意十分有启示性，值得你花点时光浏览。在这个进程中，「草莓」重复迭代，一直发明主意并反对此中弗成行的局部，成果做得很好，令人印象深入。但值得留神的是，o1-preview 仿佛依然基于 GPT-4o，并且偶然对言语的懂得过于拘泥于字面意思。比方，下图右侧中 1 Down 的谜底是「Galaxy cluster」，这显然并不是指真正的星系，而是 Samsung Galaxy 手机 ——「APPS」。AI 并不猜到这层意思，因而一直实验种种星系团的称号，但是断定 Down 1 是 COMA（是一个实在的星系团），可想而知，其他的成果也不准确。固然不完整合乎规矩，但也相称有创意。但公正来讲，Mollick 自己也不猜到这层意思。假如把「Down 1 是 APPS」这个线索供给给 o1，能够看到模子又开端在接上去的 1 分钟内疾速迭代主意（下图左侧），并准确推理出了 Across 1 的谜底是「ACTS」。这里是 o1 在一条线索的基本上给出的终极谜底，完整准确，并且处理了硬援用，只管它空想出了一条不存在的新线索。比拟之下，身为名牌年夜学副教学的 Ethan Mollick 乃至都没能濒临这个准确谜底。至此咱们能够发明，o1-preview 做了一些不 Strawberry 就弗成能实现的事件，但它依然不是完善无缺的：过错跟幻觉依然会产生，并且依然受限于底层模子 GPT-4o 的「智能」的限度。固然 Claude 有良多长处，但比拟之下，o1 在庞杂计划或解题方面远远胜出，代表了这些范畴的宏大奔腾。从协同智能到...o1-preview 象征着咱们正面对人工智能范式的转变。「计划」是智能体的一种表示情势，人工智能能够在不人类辅助的情形下自行得出论断并处理成绩。能够从下面的例子中看到，AI 实现了太多沉重的思考任务，并发生了完全的成果，人类作为配合搭档的脚色反而被减弱了，全部进程的主体是 AI 实现了本人的任务并给出谜底。固然，咱们能够挑选推理头脑链的输出来发明 AI 犯了哪些过错，但 Ethan Mollick 的感到是，他作为安排义务的人，跟 AI 的输出内容之间不什么接洽，也不在领导处理计划的走向上施展主要感化。这纷歧定是好事，但跟之前差别。跟着这些体系一直进级并逐步濒临真正的自立智能体，咱们须要弄清怎样与其坚持人类在坚持同步 —— 既能捕捉过错，又要实时觉察到咱们试图处理的成绩。o1-preview 正在慢慢拉开帷幕，解锁咱们尚未见到的 AI 才能，只管它现在还存在范围性。这给咱们留下了一个要害成绩：跟着 AI 的开展，咱们怎样退化人类与人工智能的配合？这是 o1-preview 现在还无奈处理的成绩。参考材料：https://x.com/emollick/status/1864857524840616345本文来自微信大众号：新智元（ID：AI_era）告白申明：文内含有的对外跳转链接（包含不限于超链接、二维码、口令等情势），用于通报更多信息，节俭甄选时光，成果仅供参考，IT之家全部文章均包括本申明。]article_adlist--> 　　申明：新浪网独家稿件，未经受权制止转载。 -->

上一篇：董明珠称格力芯片成功了：没有拿国家一分钱

下一篇：没有了

案例展示

沃顿商学院教授发文解析 o1：能力仍有短板，「?