沃顿商学院教授发文解析 o1:能力仍有短板,「?
OpenAI 近来送上了满血版的 o1 Pro,这一全新系列的模子毕竟有多强?它是否指明 AI 开展的将来偏向?沃顿商学院教学在 3 个月的前一篇博客就中给出了「神预言」个别的谜底。o1 preview 问世 3 个月后,满血版的 o1 Pro 终于在上周以每月 200 美元的身价正式上线,阿尔特曼号称其为「当当代界上最智能的模子」。以是,这个正式的 o1 Pro 毕竟强盛到了什么水平?能够确定的是,它远远不是一个走到 AGI 起点的灭霸,但这是 scaling law 之后的又一个里程碑吗?代表着将来 LLM 的开展偏向吗?能像 OpenAI 研讨院 Jason Wei 所说的,足以成为一个「传奇」吗?就在 o1 Pro 宣布确当口,沃顿商学院副教学、GenAI 试验室结合主任 Ethan Mollick 提起了这篇本人 3 个月前写就的博客,能够说既是模子宣布前的「神预言」,也是一盆有理有据、恰如其分的「冷水」。Ethan Mollick 表现,早在 9 月份咱们第一次见到 o1 preview 时,他就写下了这篇博客文章,详解这个模子对当下跟将来都象征着什么。模子的品质很主要,但更为主要的是,懂得模子对人工智能将来的潜伏意思。上面,咱们就把这篇文章当成时光传递门,将 3 个月前横空降生的 o1 preview 跟处在性价比漩涡中的 o1 Pro 放在一同比拟,或者能够给当下供给更多启示。「草莓」大显神通一段时光之前,我曾经打仗到了风闻满城风雨的被称为「草莓」的加强版推理体系,当初 OpenAI 将其宣布了,我也终于能够分享一些主意。这个模子确实让人惊奇,但才能依然无限,但最主要的是,它的呈现指明白 AI 的开展偏向。新模子被称为 o1-preview(此处 Mollick 狠狠吐槽 OpenAI 等一众 AI 公司在定名上十分蹩脚),让 AI 在处理成绩之前先「思考」一个成绩,因而可能处理须要计划跟迭代的艰苦成绩。依据这张咱们都熟习的基准成果图,o1-preview 在数学跟迷信范畴尤为刁悍,对极端艰苦的物理成绩,乃至能够击败博士级其余人类专家。但须要明白的是,o1-preview 并不是在全部方面都有晋升,比方在写作方面就不比 GPT-4o 更强;但对须要打算的义务来说,变更就相称年夜了。因为很难评价全部这些庞杂义务的输出,因而要展现「Strawberry」模子的晋升(以及一些限度),兴许最简略直不雅的方式就是游戏 —— 比方填字游戏(crossword puzzle)。不要小瞧了填字游戏,这是一个上限很低但下限也很高的名目,最难的填字游戏完整能够到达天堂形式,并且十分磨练逻辑推理才能。片子《模拟游戏》中就有如许的情节:二战时期,AI 之父 Alan Turing 担负英国暗码破译名目 Enigma 的担任人,为了招揽天下在数学跟暗码学方面的才俊,他就在报纸上登出了一个填字游戏作为报名测试,乃至最后一关的现场考察也是请求 a 在划定时光内做出填字游戏题。片子《模拟游戏》剧照因为 o1 preview 还无奈从图片中读取笔墨,因而 Mollick 只能本人手动打出来喂给模子。如下图所示,这是一个相称存在挑衅性的困难,并且,Mollick 只筛选了 18 条线索中的 8 条供给给 o1。填字游戏对 LLM 来说尤其艰苦,由于须要迭代处理:实验并反对失落很多彼此关系的谜底 —— 这是之前的年夜模子无奈做到的,由于他们一次只能在谜底中增加一个 token / 单词。如下图所示,假如给 Claude 供给响应的线索,它起首给出序号 1 的谜底(它猜想是 STAR,但这个谜底是过错的),而后在此基本上实验解答其他局部。但是,因为第一颗扣子就扣错了,Claude 永久都无奈濒临准确谜底。假如不计划流程,它就只能向前冲,并不晓得本人行进的偏向是对是错。Claude 的实验但面临雷同的成绩时,「草莓」时会怎样做呢?起首,它会开端「思考」,这个进程连续了整整 108 秒(但年夜少数成绩都能在更短的时光内处理)。并且,o1 思考时并不是一声不吭,而是会「喃喃自语」,输出本人的「头脑链」让你看到它的主意。上面是此中的一个示例(另有更多内容未展现出来),并且这些主意十分有启示性,值得你花点时光浏览。在这个进程中,「草莓」重复迭代,一直发明主意并反对此中弗成行的局部,成果做得很好,令人印象深入。但值得留神的是,o1-preview 仿佛依然基于 GPT-4o,并且偶然对言语的懂得过于拘泥于字面意思。比方,下图右侧中 1 Down 的谜底是「Galaxy cluster」,这显然并不是指真正的星系,而是 Samsung Galaxy 手机 ——「APPS」。AI 并不猜到这层意思,因而一直实验种种星系团的称号,但是断定 Down 1 是 COMA(是一个实在的星系团),可想而知,其他的成果也不准确。固然不完整合乎规矩,但也相称有创意。但公正来讲,Mollick 自己也不猜到这层意思。假如把「Down 1 是 APPS」这个线索供给给 o1,能够看到模子又开端在接上去的 1 分钟内疾速迭代主意(下图左侧),并准确推理出了 Across 1 的谜底是「ACTS」。这里是 o1 在一条线索的基本上给出的终极谜底,完整准确,并且处理了硬援用,只管它空想出了一条不存在的新线索。比拟之下,身为名牌年夜学副教学的 Ethan Mollick 乃至都没能濒临这个准确谜底。至此咱们能够发明,o1-preview 做了一些不 Strawberry 就弗成能实现的事件,但它依然不是完善无缺的:过错跟幻觉依然会产生,并且依然受限于底层模子 GPT-4o 的「智能」的限度。固然 Claude 有良多长处,但比拟之下,o1 在庞杂计划或解题方面远远胜出,代表了这些范畴的宏大奔腾。从协同智能到...o1-preview 象征着咱们正面对人工智能范式的转变。「计划」是智能体的一种表示情势,人工智能能够在不人类辅助的情形下自行得出论断并处理成绩。能够从下面的例子中看到,AI 实现了太多沉重的思考任务,并发生了完全的成果,人类作为配合搭档的脚色反而被减弱了,全部进程的主体是 AI 实现了本人的任务并给出谜底。固然,咱们能够挑选推理头脑链的输出来发明 AI 犯了哪些过错,但 Ethan Mollick 的感到是,他作为安排义务的人,跟 AI 的输出内容之间不什么接洽,也不在领导处理计划的走向上施展主要感化。这纷歧定是好事,但跟之前差别。跟着这些体系一直进级并逐步濒临真正的自立智能体,咱们须要弄清怎样与其坚持人类在坚持同步 —— 既能捕捉过错,又要实时觉察到咱们试图处理的成绩。o1-preview 正在慢慢拉开帷幕,解锁咱们尚未见到的 AI 才能,只管它现在还存在范围性。这给咱们留下了一个要害成绩:跟着 AI 的开展,咱们怎样退化人类与人工智能的配合?这是 o1-preview 现在还无奈处理的成绩。参考材料:https://x.com/emollick/status/1864857524840616345本文来自微信大众号:新智元(ID:AI_era)告白申明:文内含有的对外跳转链接(包含不限于超链接、二维码、口令等情势),用于通报更多信息,节俭甄选时光,成果仅供参考,IT之家全部文章均包括本申明。]article_adlist-->
申明:新浪网独家稿件,未经受权制止转载。 -->