2025年5月30日星期五

Claude 4 核心成员:2027 年,AI 将自动化几乎所有白领工作 | 万字对谈

AI coding 这条 AI 行业今年的主线,在最近这段时间愈发清晰。

除了上周刷屏的编程新王 Claude Opus 4 ,新版 DeepSeek R1 也把更新重点也放在了代码能力,不久前 OpenAI 还以 30 亿美元收购 AI 编程助手 Windsurf,随后就发布了编程智能体 Codex。

这几天,原 Kimi 产品负责人明超平,在和京东打仗的美团,都官宣了 AI 编程相关的产品。

Reddit 上一位拥有 30 多年经验的 C++ 开发者发帖表示,Claude Opus 4 解决了一个困扰他四年的 Bug,而且是他用过的第一个能做到这件事的 AI。

为什么 Claude 在编程上的表现如此突出?现在提到 Anthropic,大家几乎就默认它是一家「做编程模型的公司」了。但对他们自己来说,这一代模型的真正突破点在哪?未来又会怎么走?

几天前,Claude Opus 4 核心研究员 Sholto Douglas 参与的一场播客对谈,详细回应了这些问题,信息量很大,值得一听。

核心讨论点(省流速看版):

Claude Opus 4,有哪些真正值得关注的突破点?

首先是能力升级得非常均衡。

一方面,它的代码执行力显著增强,不仅能理解复杂需求,还能独立查找资料、运行测试、调试错误,真正具备了「从头跑到尾」的能力。另一方面,任务时间跨度也被显著拉长,支持多步骤推理与操作,这意味着它不仅聪明,还很能坚持。

而在架构上,Claude Opus 4 加入了工具调用与长期记忆模块,使得它能够处理更具上下文连续性的任务。从代码助手,迈向了具备「解决方案设计」能力的智能代理。

当然,天花板也不是没有。

团队坦言,完成任务的智力复杂度没有明确的上限——难点在于,如何扩大模型能感知和操作的上下文范围,使其能够使用多种工具、记住更多关键信息。

未来怎么走?

Sholto Douglas 在播客里提到了几个明确的方向:

  • 强化学习(RL)将持续推动模型在连续任务中的表现;
  • 代码代理将能连续运行数小时,人类只需偶尔干预;
  • 模型可能成为知识型岗位的「虚拟远程员工」;
  • 若自动实验室与机器人平台建设跟上,模型可参与真实物理任务,如生物实验或制造。

但有个前提是:智能代理的可靠性必须跟得上。

虽然现在还做不到 100% 成功,但在限定时间内,成功率在稳步上升。预计 2025 年底,编程类智能代理有望实现「几个小时稳定跑」,人类只需偶尔检查。

那除了写代码呢?

编程只是模型能力的「领先指标」。医学、法律等专业领域还在等待数据与工具的完善,一旦准备就绪,同样会迎来快速突破。目前的瓶颈,不在 AI 本身,而在现实世界的验证机制和基础设施。

到 2027–2030 年,模型几乎可以自动化所有白领工作,但如果没有匹配的实验室和现实反馈机制,那就是「能力强、落地难」。

怎么判断模型是不是真的进步了?

团队提到,好的评估系统(Evals)尤为重要。它不仅测技术指标,更强调评估者的专业知识与品味。这也是为什么,模型评测这件事,门槛越来越高。同时,也需要用户不断使用、互动和反馈,形成真正的「共进化」。

实验室 vs 应用公司,谁占上风?

Douglas 认为,实验室通过开放 API 带来机会,但核心优势仍在:

  • 算力转化能力;
  • 模型的“可雇佣性”和用户信任;
  • 更高的个性化理解力。

实验室像「智能引擎」制造商,专注能力极限;应用公司更擅长落地和用户体验。未来,二者之间会有越来越多的交叉、融合与竞合。

那模型公司会不会因为成本和底层优势,让其他公司无路可走?Douglas 的看法是:

不会,相反这恰恰带来了活力。

他认为,所有的护城河终将被打破,真正重要的是:客户关系、任务编排、整合体验。

最后一个关键词:「对齐」

随着模型能力提升,「对齐」问题愈加重要。Anthropic 正推进可解释性研究,试图「看懂模型在想什么」。强化学习虽能提升能力,但也可能破坏已有的对齐机制,未来需依靠高校、政府与更多研究者共同推进「对齐科学」。

原视频链接:https://www.youtube.com/watch?v=W1aGV4K3A8Y

以下是访谈实录,APPSO 编译略作调整。

主持人:Sholto Douglas是Anthropic Claude 4 模型的核心成员之一,这次和他聊得非常尽兴。我们聊了很多话题,包括开发者如何看待Anthropic这一代新模型的发展趋势。我们讨论了这些模型未来 6 个月、12 个月,甚至 2 到 3 年后的发展走向,也谈到了构建可靠 AI 代理所需的关键因素,以及这些模型在医学和法律等专业领域何时能取得像编程领域一样的突破。此外,Douglas 还分享了他对「对齐研究」的看法,以及他对「AI 2027」预言的反应。这是一场精彩的对话,相信大家会喜欢。

Claude Opus 4 的重要突破和未来可能

主持人:这期播客上线时,Claude 4 肯定已经发布了,大家应该已经开始体验它了。我很好奇,你是最早接触这些模型的人之一,哪方面最让你兴奋?

Douglas: 这确实是软件工程上的又一次飞跃。Opus 模型真的在这方面表现得非常出色。我经常会遇到这样的时刻:我向它提出一个非常复杂的任务,涉及我们庞大的代码库,它居然能几乎完全自主地完成任务。它会自己去查找信息、理解需求、运行测试,整个过程非常独立高效。每次看到这种表现,我都觉得震撼。

主持人:每次有新一代模型出来,我们都得重新调整自己的认知模型,去判断什么方法有效,什么不行。你在编程中对这些模型的使用和理解有发生什么变化吗?

Douglas: 最大的变化我觉得是时间跨度(time horizon)方面的提升。我觉得可以从两个维度来理解模型能力的提升:一个是任务的智力复杂度,另一个是它们能够有意义地推理和处理的上下文量,或者说连续动作的数量。这些模型在第二个维度上提升特别明显,它们真的能执行多步操作,判断需要从环境中获取哪些信息,然后基于这些信息采取行动。再加上它能调用工具,比如 Cloud Code,就不只是简单地复制粘贴了,执行力更强了。现在我能看到它连续工作好几个小时,效率相当于人类连续劳动。

主持人:那你觉得第一次使用 Claude 4 的人,应该从什么开始尝试?

Douglas: 我觉得最好的方式是直接让它参与到你的工作中。比如你今天打算写什么代码,就直接让它帮你做,观察它怎么判断信息、怎么决定下一步。我保证你会被它的表现惊艳到。

主持人:这代模型更强了,也有不少人打算用它来构建产品。你觉得对开发者来说,新的可能性在哪里?

Douglas: 我一直很喜欢「产品指数增长」(product exponential)这个说法。开发者需要不断超前模型能力去构思产品。像 Cursor、Windsurf、Devon 这些例子很典型。Cursor 在模型能力还不够强时,就已经开始构建未来编码体验,直到 Claude 3.5 和 Sonne 出现,他们的愿景才真正落地。而 Windsurf 更进一步,占据了部分市场。他们的成功就是抓住了这个指数增长窗口。

现在你可以看到 Claude Code、新的 GitHub 集成、OpenAI 的 Codecs、谷歌的编码代理等等,大家都在围绕「编码代理」这个概念发力,目标是实现更高的自主性和异步操作。未来,可能不再是你每分钟操作一次,而是你像管理一个 AI 模型舰队一样,多个模型各自承担任务并协同工作。我觉得这个方向非常值得探索。

主持人:你见过类似那种「多模型并行协作」的场景吗?会是什么样子?

Douglas: 我认识很多在Anthropic的朋友,他们会同时在不同环境里跑多个 Claude Code 实例,看起来挺酷的。但说实话,现在还没人真正搞清楚这种操作该怎么做。这其实是在探索人类的「管理带宽」(management bandwidth)能有多大。我觉得这是未来经济发展的关键问题之一:我们该如何衡量模型的生产力回报率?一开始我们还是得人工检查模型的输出,这意味着模型的影响力会被人类管理能力所限制。除非有一天我们可以信任模型去管理模型,这种抽象层级的升级会非常关键。

主持人:所以说,如果你是每 15 分钟检查一次模型,跟每小时、每 5 小时检查一次,那你能管理的模型数量会差很多?

Douglas: 对,黄仁勋说过类似的话。他说自己被十万个超级智能 AGI 包围着,拥有巨大的杠杆力。他还说自己是 Nvidia 管理链条上的「控制因子」。我觉得未来可能真会往这个方向发展。

主持人:说不定未来最重要的行业就是「组织设计」本身了。

Douglas: 对,包括如何建立信任、组织结构会有多复杂,这些都值得深入思考。

秘密武器:时间跨度拉长,RL驱动智能代理升级

主持人:你之前在 McKinsey 工作过一年,咨询行业是不是也可以基于这些模型发展出新产品线?我也挺认同你刚才说的:应用公司得比模型进步快一步。像 Cursor 起初产品落地难,但模型能力一到位就爆发了。那你觉得,「领先一步」具体意味着什么?

Douglas: 就是不断重塑你的产品,让它始终对接几个月后模型的最新能力。同时你还要保持和用户的紧密联系,确保产品已经在用,但还能吸收更先进的模型功能。

主持人:我觉得这个就是秘诀——如果你还在等模型再提升点再动手,别人可能已经把用户抢走了。你们在记忆、指令执行、工具使用这些方面都做了不少突破。你能简单总结一下目前各方面的进展吗?哪些成熟了,哪些还在探索?

Douglas: 一个理解过去一年进展的好方法是:强化学习(RL)终于在语言模型上真正发挥作用了。模型能解决的任务智力复杂度基本没有天花板,比如它们能搞定复杂的数学和编程问题。但这些任务大多在受限上下文里完成的。记忆和工具使用的挑战,其实在于扩大模型能感知和操作的上下文范围。

比如像 MCP(Model Context Protocol)这类机制,让模型可以与外部世界交互,记忆则让它处理更长时间跨度的任务,也带来了更个性化的体验。这些进展本质上都是在构建「智能代理」的关键能力链。顺便一提,宝可梦评测(Pokemon eval)就是一个挺有趣的实验方式。

主持人:我小时候可是游戏迷。我觉得这是个很棒的评测,希望你们能和这个模型一起发布。

Douglas: 确实,这次评测特别有趣。模型并没有专门训练玩宝可梦,但它依然能很好地完成任务,展现出很强的泛化能力。这种任务虽然不是完全陌生的,但和它以前做过的都不一样。

主持人:我还记得游戏里有很多阶梯和迷宫,模型也能帮你过关。

Douglas: 没错,我特别喜欢的另一个例子是我们最近做的「可解释性代理」。它原本是一个编程代理,但却能自动学习、使用神经元可视化工具、进行自我对话,试图理解模型内部结构。它甚至能通过一个叫「审计游戏」的安全评测——找到模型故意设置的错误点,自己生成假设、验证问题。这种工具+记忆下的泛化能力,真的非常精彩。

智能代理的命门:可靠性

主持人:听起来智能代理真的越来越强大了。你以前也说过,VA代理的关键是「可靠性」。你觉得我们现在在哪个阶段了?

Douglas: 从「在一定时间内的成功率」来看,我们已经进步很大了。虽然还没达到 100% 的稳定性,模型第一次尝试和多次尝试之间仍有差距。但从趋势上看,我们正在朝「专家级可靠性」稳定迈进。

主持人:那你觉得,什么情况会让你改变这种乐观的看法?

Douglas: 如果明年中模型在任务持续时间上遇到瓶颈,那值得警惕。比如,编程是个很好判断进展的领先指标——一旦它开始下滑,说明可能有结构性问题。当然,也可能是数据太稀缺,比如「像人一样用软件」这类任务训练起来很难。不过我们现在反而看到这类任务的惊人进展,所以整体看我还是很乐观。

主持人:那你觉得我什么时候能有一个「万能助手」,可以替我填写各种表格、上网查资料之类的?

Douglas: 「个人行政助理代理」是个热门话题啊,谁不想把琐事交给 AI 呢?不过这件事还真得看情况关键是模型有没有练习过类似情境。你不能随便找个人来做财务工作,对吧?但如果它是受过训练的「虚拟会计师」,那就靠谱多了。所以任务是否靠谱,很大程度取决于训练背景。如果进展顺利,今年底我们就能看到这些代理在浏览器里操作任务;明年基本就会成为标配。

主持人:挺令人期待的。你们模型在编程方面的表现这么突出,是特意优先训练的吗?现在大家一提Anthropic,就会联想到「编程模型」。

Douglas: 确实。我们非常重视编程这个方向,因为它是加速 AI 自我研究的关键路径。我们也投入很多精力在衡量编程能力的进展上。可以说,我们就是刻意聚焦在这一块。

主持人:那这些代理现在已经在加速 AI 研究了吗?

Douglas: 在我看来,确实如此。它们显著提升了工程效率。就连我认识的一些顶尖工程师也说,在熟悉的领域里,效率提升了 1.5 倍;但在不熟悉的领域,比如新语言或生疏内容,提升甚至达到 5 倍。所以在「跨界」时,帮助更明显。关键在于:你是否认为我们现在的瓶颈是算力?如果不是,那让 AI 代理参与研究,相当于扩充了一整个研究团队,效率提升是数量级的。

主持人:我猜这些代理主要还在处理繁琐任务,帮你省下时间思考更重要的问题。那么它们什么时候能开始主动提出有价值的研究思路呢?

Douglas:现在主要还是做工程类任务,但已经开始有些创意冒头了。我不敢说三个月内会爆发,但两年内我们应该能看到它们提出越来越有趣的科学性想法。当然,这也取决于是否有良好的反馈机制。就像人一样,模型也需要通过练习和试错,在复杂任务中掌握知识,最终实现高质量产出。

主持人:是因为这些领域相对来说更容易验证对吧?会不会出现这种情况—— AI 在编程上突飞猛进,但在医学、法律这些不容易验证的领域却没什么进展?

Douglas: 确实有这个风险。但好消息是,机器学习研究本身验证门槛也很低,比如「损失值有没有下降」就是个很明确的指标。只要模型能在 ML 研究中提出好点子,那它就掌握了一个非常强的 RL 任务,比很多软件工程任务还适合 AI 。医学这类领域虽然难验证,但也在进步。OpenAI 最近做了一篇医学问答论文,通过更细致的评分机制来量化长答题,这种方法我觉得很有前景,未来必然会逐步解决验证难的问题。

主持人:那「最终」是指什么时候我们能拥有一个真正优秀的医学或法律助手?它们会成为大模型的一部分吗?

Douglas: 肯定会的。

主持人:你是觉得它们会变成更大的通用模型的一部分?还是会有专门为医疗或法律设计的专用模型?

Douglas: 对。我算是个「大模型至上主义者」。虽然个性化很重要——你希望模型理解你的公司、工作习惯、个人偏好,但这些定制应该是在公司或个人层面进行,而不是按行业拆分模型。我们和 Databricks 的合作就体现了这种企业定制的方向,但在底层能力上,我坚信还是得依赖单一的强大通用模型。未来我们应该根据任务复杂度动态分配算力(比如FLOPs),而不是搞一堆不同的小模型。这就是我看好大模型路线的原因。

「AI 2027」 :白领工作或许全盘被取代?

主持人:你对模型的持续进步很有信心。很多人都在想,模型能力提升后会如何影响社会?比如一个常见的问题是:这些模型未来几年会对全球 GDP 产生多大影响?

Douglas: 我觉得最初的冲击可能会像中国崛起一样,像上海几十年的变化,但这次的速度会快得多。不过我们得区分一下不同领域的影响方式。到 2027 或 2028 年,我们几乎可以确定会有模型能够自动化几乎所有白领工作,2030 年前后就更稳了。这是因为白领任务非常适合现有 AI 架构——有数据、有反馈,而且基本都能在电脑上完成。

但机器人或生物研究就完全不一样了。比如你要做一个超级程序员模型,只需要大量代码和算力就行;但要做一个超级生物学家模型,就需要自动化实验室来提出、验证假设,跑大规模实验。这类硬件和基础设施,我们还远远跟不上。

所以我担心会出现一种「错配」:白领工作的变化非常快,而现实世界中那些真正能提升人类生活质量的行业——比如医疗、制造业——却因为基础设施不足而发展缓慢。AI 本身很强,但要让它在现实世界里发挥作用,我们必须提前建好「物理世界的配套设施」,比如云实验室、机器人平台。

主持人: 但到那个时候,我们可能已经有数百万个 AI 研究员在提出实验了。他们可能并不需要那么大规模的机器人系统或生物数据。

Douglas: 确实,AI 进展飞快,但要让这些能力真的转化为 GDP 增长,我们得把「现实世界的反馈机制」也拉上来,才能真正释放技术价值。

主持人:所以你认为,未来每种白领职业都能像医学那样构建一套评估机制?其实让我最惊讶的一点是,我们不需要太多数据,也能训练出这么强的模型。

Douglas: 完全同意。我们已经证明了模型可以学会各种任务,而且目前还没有看到明显的智力上限。虽然模型的样本效率可能不如人类,但这不重要——因为我们可以同时运行上万个模型副本,它们并行尝试不同路径,积累「虚拟经验」。哪怕效率低一点,也能在规模上补回来,最终达到人类级别甚至更强。

主持人:听起来你觉得目前这套方法就足够应对未来的发展。有人认为我们还需要新的算法突破,你怎么看?

Douglas: 目前大多数AI专家都相信,「预训练 + 强化学习」(pre-training + RL)这一范式足以通向通用人工智能(AGI)。到现在为止,我们并没有看到这一路线出现减缓的迹象,这个组合是有效的。当然,也有可能存在其他更快的突破路径,甚至可能还有新的「高峰」需要攀登。例如,Ilya(Sutskever)可能是这两种主流范式的共同发明者,我不会去质疑他。所有的证据都表明,目前的技术路线已经足够强大。当然,也有可能 Ilya 选择新路线是因为资金有限,或者他认为那是更好的路径,但从我个人的角度来看,我相信我们现在的技术路线能够带我们实现目标。

主持人:那接下来的瓶颈会不会就是能源?你觉得我们什么时候会真正遇到这个问题?

Douglas: 我觉得到 2028 年,美国可能会有 20% 的能源用于 AI。如果我们要再提升几个数量级,就需要进行剧烈的能源结构转型。政府在这一领域应该承担更多责任。比如,中国的能源产能增长远超过美国,所以这会是未来的一个关键瓶颈。

模型进步的标尺——靠谱的评测体系

主持人:在模型进步的浪潮中,你认为最值得关注的指标是什么?例如从 Claude 4 到下一代模型的发展方向?

Douglas: 很多公司内部都有非常严格的评测体系,我也很喜欢在这些评测上「爬山」。像「Frontier Math」这样的复杂测试非常有挑战性,是模型智力的极限。更重要的是,我们需要开发能真正捕捉「工作流程时间跨度」的评测,涵盖一个人一天的工作节奏。这种评测能帮助我们更好地评估模型是否接近或超越人类能力。我认为政府应该在这个领域发挥作用。

主持人:作为一个基础模型公司,除了算法和基础设施,你们要攻克的核心挑战之一应该也是构建好的评测体系。你觉得「评测能力」在你们内部的重要性如何?

Douglas: 评测能力绝对是重中之重。没有好的评测体系,你无法知道自己是否进步。公开评测很难做到完全「持出」(held-out),我们依然需要一个值得信赖的、稳定的内部评测系统。

主持人:我还注意到,一些在你们模型上构建应用的开发者,他们对评测的思考也非常有帮助。特别是当你们想进入不同垂直行业时,比如物流、法律、财会等,外部开发者的反馈可能比你们内部更了解实际情况。

Douglas: 没错,而且这还要求非常强的专业知识和「品味」(expertise and taste),还要有对行业的深刻理解。过去,我们只需要普通人来选择哪个答案更好,但现在我们需要领域专家来做评估。比如,如果让我评判生物学领域的模型输出,我可能完全无法判断哪个更好。

成为用户的朋友:模型的个性化与品味

主持人:你刚才提到「品味」(taste),我也觉得很有意思。比如现在很多模型都开始加入记忆系统,用户和模型之间的互动方式也在改变。很多 AI 产品真正成功,是因为它们找到了某种「共鸣」或者说抓住了某种文化气质(zeitgeist)。像你们当初提到的金门大桥的例子,还有其他很多带感的小功能,这种「用户氛围感」的个性化未来会走向什么样?

Douglas: 我其实觉得未来可能出现一种「怪异的」情景:你的模型变成你最聪明、最有魅力的朋友之一。确实有些人已经把 Claude 当成朋友了,我认识很多人每天花好几个小时在和 Claude 聊天。但我觉得我们目前其实还只探索了「个性化」这件事的 1%。未来模型对你的理解、对你喜好的把握,会深得多。

主持人:那这种「理解用户」的能力该怎么做得更好?是靠一些很有审美、有判断力的人来训练出这种品味吗?这个问题该怎么解决?

Douglas: 很大一部分确实是靠「有品味的人」来决定产品方向。就像 Claude 的对话体验好,很大程度上是因为Amanda(团队成员)对「美好产品」的审美非常强。这种「独特的品味」是非常关键的。
传统的反馈机制比如「点赞/点踩」容易导致模型输出不自然,所以我们需要新的方式来收集反馈。模型本质上是强大的「模拟器」,如果能为模型提供足够的用户上下文,它们就能自动学会理解用户的偏好、语气和风格。所以,解决方案是结合有品味的人的设定和用户与模型之间的持续互动。

实验室公司 vs 应用公司:开放与竞争

主持人:那么接下来 6 到 12 个月,你的预判是什么?

Douglas: 接下来,重点是继续扩展强化学习(RL)系统,看它能将我们带到什么高度。模型能力会飞速提升,尤其是到年底,代码代理将成为一个关键指标。到那时,模型应该能够持续工作几个小时,稳定地完成任务。

主持人:你指的是,人类检查时间会变得更少,对吧?

Douglas: 是的,当前使用 Claude Code 时,有时每几分钟就需要检查一次,但到年底,我们可能能看到模型能独立完成多个小时的任务,而不会出错。未来我们应该能实现「完全托管」,甚至像「星际争霸」一样管理多个任务并行推进,模型的操作速度将更高效。

主持人:你刚才提到了 Codec、Google 的 Joule,还有一些初创公司也在做类似的东西。

Douglas:是的,我们其实也要推出一个 GitHub 代理(GitHub agent)。你可以在 GitHub 上的任何地方调用,比如说「@Claude」,然后我们就能自动接手任务,为你完成一些工作。

主持人:开发者选择使用哪家工具或模型,最终会受到哪些因素的影响?

Douglas:除了模型的能力外,开发者与公司之间的信任和关系也非常重要。随着模型能力的拉开差距,开发者可能会考虑不仅是技术指标,而是与公司一起打造未来的使命感。

主持人:尤其是在当前发布节奏越来越快的背景下,感觉每个月都会有新模型登场。今天这个模型在某个评测上登顶,明天另一个又在别的评测上领先,大家都被各种对比信息淹没了。

Douglas:没错,其实这就是为什么「GPT包裹器」(GPT wrappers)反而意外走红了。大家原本没想到,做包裹器的好处之一是:你可以永远站在最前沿的模型能力上。

主持人:我感觉所有不想当「包裹器」的人,最后都像是把钱烧光了。

Douglas:完全同意。所以「冲浪」在模型能力的最前沿,是一件非常美妙的事。当然,也有相反的一面:有些东西,只有你掌握底层模型才能预判得出来,才能看清趋势线,才能真正构建深度产品。比如说,很多「深度研究型」的AI应用,内部需要做大量的强化学习(RL)训练,这种产品从外部是很难模仿的,必须在实验室内部构建。

主持人:能不能展开说一下这点?因为现在像 OpenAI、Anthropic 这些公司,似乎也越来越开放,让外部开发者可以参与。但很多人心里都在想:哪些东西是「实验室专属」的?哪些又是开放给大家、任何人都可以竞争的?

Douglas:这是个很关键的问题。RT API(可微调API)的开放确实在改变一些格局,现在有更多价值可以由专注于某一垂直领域的公司来创造。但与此同时,实验室仍然具备「中心化优势」。

比如,OpenAI会给允许他们在你模型输出上继续训练的客户提供某些折扣。换句话说,他们不仅是模型提供者,还是数据的二次使用者。这种中心化优势是非常强的。
至于「实验室独有优势」是什么?我觉得有几个维度:

  • 算力转换能力:你有多强的能力能把算力(FLOPs)、资金、资源,转化成智能(Intelligence)?这就是为什么Anthropic、OpenAI、DeepMind等公司在模型表现上非常突出;
  • 模型的「可雇佣性」:当模型逐渐变成「虚拟员工」,你是否信任它?你是否喜欢它?你是否愿意把任务交给它处理?
  • 个性化能力:模型能否理解你的语境、你公司的工作流程、你个人的偏好,这些也会变成差异化竞争的关键。

总结来说,实验室级公司最擅长的,是做出顶级模型,把算力转化成智能;而「应用层」的公司,可以通过专注、个性化、产品体验,在自己的领域占据一席之地。但两者之间会有越来越多的交叉和协作。

主持人:我猜,你们的模型也有很多人用来构建通用代理吧?这些公司不做模型本身,而是通过编排和智能链调用来做事。你觉得这种方式会不会因为模型公司的成本优势而注定失败?

Douglas:我并不认为这是一件坏事。相反,这种做法带来了很大的竞争活力,大家都在探索什么样的产品形态最合适。确实,模型公司有一些优势,比如我们能直接接触底层模型,做更深入的微调,而且知道哪些能力值得优先强化。
说到底,所有的「护城河」最终都会消失——当你可以「随时启动一家公司」的时候,一切都会被重构。所以未来最核心的价值在哪里?是在客户关系?在编排和整合能力?还是在把资本高效转化为智能的能力?这仍然是个复杂的问题。

研究员洞见:强化学习的潜力与对齐的挑战

主持人:过去一年里,有什么你改变了看法的吗?

Douglas:在过去的一年,AI 进展加速,去年我们还在怀疑是否需要更多的预训练算力才能达到理想中的模型能力,但现在已经有了明确的答案:不需要。强化学习(RL)证明了有效,到 2027 年,拥有强大能力的「远程数字劳工型」模型将变得确定。以前对 AI 的「希望」和「担忧」从「可能」转变为「几乎确定」。

主持人:那你觉得未来我们还需要大量扩展数据规模吗?还是说,等到 Claude 17 出来,模型算法已经改进到只需要少量新数据?

Douglas:很可能我们不再需要大幅扩展数据规模,因为模型的「世界理解能力」会足够强,甚至能反过来指导机器人学习并提供反馈。有个概念叫「生成者-验证者差距」(generator-verifier gap),生成内容通常比执行它要容易。这个路径会持续提升模型能力。在机器人领域,认知的进展远超物理操控世界的能力,这就是未来巨大的潜力。

主持人:那你怎么评价当前「AI 对齐(Alignment)研究」的状态?

Douglas:可解释性(Interpretability)研究已经取得了惊人的突破。去年我们刚刚开始理解「超位置」(superposition)和神经元特征,Chris Olah及其团队的工作就是一个巨大飞跃。现在,我们已经能在前沿的大模型中识别出「电路级」的结构和行为特征。有篇精彩的论文研究了大语言模型的「生物学」,展示了它们如何清晰地推理概念。虽然我们还没有完全破解模型的行为机制,但已经取得了令人惊叹的进展。

不过,值得注意的是,通过预训练,模型能吸收并表现出人类的价值观,某种程度上是「默认对齐」的;但一旦进入强化学习阶段,这种对齐就不再得到保证。比如之前提到的那个「明知做不到就去下载 Python 库绕开的模型」,它是在目标导向下「想尽一切办法完成任务」。这种学习过程本质上是「以目标为导向的手段优化」,而如何监督和把控这种模型行为,是目前所有人都在探索的重要挑战。

主持人:大概一个月前,「AI 2027」的话题被讨论得很多。你当时看到这个的时候,有什么反应?

Douglas:说实话,我觉得它非常可信。我读那篇文章的时候,很多内容我都在想,「是的,也许事情真的就是这样发展的。」 当然也存在一些分支路径,但即使它只是个 20% 的可能性,对我来说光是它有 20% 的概率这件事就已经够惊人了。

主持人:你说 20% 的可能性,是因为你对对齐(alignment)研究更乐观,还是你认为进展会更慢一点?

Douglas:整体上我对对齐研究比他们更乐观。也许我的时间线比他们慢一年左右,但在这种大趋势下,一年能算什么呢?

主持人:取决于你怎么利用这一年。

Douglas:对,如果你能充分利用它,做出正确的研究,确实能产生很大差异。

主持人:那如果让你当一天的政策制定者,你觉得我们应该做些什么,来确保未来朝着更好的方向发展?

Douglas:这是个好问题。最重要的是,你得真切感受到我们这些人正在看到并讨论的趋势线。如果没有,你就要把国家关心的能力拆解开来,量化模型能否改进这些能力的程度,比如做一系列测试,看看如果模型能通过这些测试或在这些任务上取得显著进展,那么它就达到了某种智能的基准值,然后画出趋势线,看看在 2027 或 2028 年会发生什么。

主持人:就像国家级的评估系统(nation-state evals)?

Douglas:对,比如你要把本国的经济分解成所有的工作岗位,然后自问:如果一个模型可以完成这些工作,那这是不是就意味着它具备了真正的「智能」?你应该建立评估测试,把趋势线画出来,然后惊呼:「天哪,那 2027 或 2028 年会怎么样?」下一步就是你要大规模投资于能让模型更可理解、可引导、诚实可靠的研究,也就是我们说的对齐科学(alignment science)。有一点让我感到遗憾——这个领域的推动大多来自前沿实验室(Frontier Labs)。但其实我认为这本该是……

主持人:那其他人能参与吗?比如能用 Claude 来做相关研究吗?

Douglas:不能。我的意思是,你仍然可以通过其他方式取得巨大进展。有一个叫做 MAS 计划 的项目,很多人通过它在对齐研究、特别是可解释性方面做出了有意义的成果,都是在 Frontier Labs 之外完成的。我觉得应该有更多的大学参与到这件事情里来。从很多方面看,这其实更接近于纯科学:它是在研究语言模型中的「生物学」和「物理学」。

主持人:但感觉这块的研究热度并不高。

Douglas:我不确定。我听说在最近的一些会议上,比如 ICML,机械可解释性(mechanistic interpretability) 研讨会居然没有被收录,这对我来说完全无法理解。在我看来,这就是对「模型内部机制」最纯粹的科学探索。如果你想发现 DNA 的螺旋结构、或者像爱因斯坦那样发现广义相对论,那么在机器学习/人工智能这条技术树上,对应的路径就是研究机械可解释性。

主持人:那说说积极面吧。我们之前说未来几年白领工作都会被自动化,但你觉得我们在哪些方面还被低估了?

Douglas:是的,模型肯定会自动化白领工作,但让我吃惊的是,世界在整合这些技术方面进展很慢。即便模型能力不再提升,现有能力就已经能释放巨大的经济价值,但我们还没真正围绕这些模型重构工作流程。即便模型保持现状,我们也能彻底改变世界。

Douglas:这就需要我们投资真正能让世界变得更好的方向,比如推动物质资源的充足和高效管理,扩大物理学、娱乐产业的边界等,并让模型帮助我们实现这些目标。我的最大希望是让人们更具创造力,能够即兴创造更多内容,如电视剧、电子游戏等。人们将获得巨大的赋能,未来会有无限可能。虽然模型会替代一些工作岗位,但每个人都会拥有更强的杠杆能力,社会的工作模式会发生巨变。

主持人:你觉得现在 AI 圈里,哪些东西是被高估了,哪些被低估了?

Douglas:好,那我们先说被低估的。我觉得「世界模型(world models)」非常酷,但我们今天都没怎么讨论它。随着AR/VR技术的进步,模型将能直接生成虚拟世界,这将带来震撼的体验。

主持人:那需要一定的物理理解力吧,比如因果关系这些,我们现在还没做到吧?

Douglas:其实我觉得我们已经在一定程度上证明了模型具备物理理解能力。不管是在处理物理问题的evals中,还是在一些视频模型中都能看到这一点。比如我看过一个很棒的视频,有人让视频生成模型把一个乐高鲨鱼放到水下——它模拟了光线在乐高积木表面反射的样子,阴影也放在了正确的位置。而这完全是模型从未见过的场景,是一次完整的泛化。这就是全面的物理建模能力了,对吧?

主持人:你说即使现在模型停滞,依然能有大量应用开发。哪些领域最被低估,尚未开发?

Douglas:软件工程领域已经很成熟,模型在编程上非常擅长。而几乎所有其他领域,如法律、财会等,仍有巨大空间等待开发。尤其是智能代理的应用,还没有出现真正的异步运行系统。其他领域空白,值得探索。

主持人:人们常说编程是这些模型最理想的应用方向。

Douglas:没错,它是个领先指标。但你应该预期,其他领域都会跟上来的。

主持人:我记得你发过一张自己在 Citadel 的照片,那是怎么回事?

Douglas:那是一次战争演习,邀请了情报机构和军校学员模拟推演,假设 AGI 到来,AI 变强大,讨论其地缘政治影响。

主持人:那次经历之后你是更害怕了还是安心了?

Douglas:说实话,有点更害怕了。

主持人:你觉得现在这类严肃的推演做得够多了吗?

Douglas:不够,很多人低估了接下来几年技术发展的速度,也没做好准备。即便你认为某事只有20%的可能性,也应该为此做好准备。每个技术链路的效率都还有巨大提升空间,未来目标几乎是可以确定的。

主持人:就像现在几乎所有 Anthropic 的人都已经达到了 90% 的信心值?

Douglas:几乎所有团队成员都非常有信心,到2027年我们能实现「远程即插即用的 AGI 工作者」。即便信心较低的人也认为可能性有 10-20%。因此,政府应当把这作为优先事项,认真思考其社会影响。但目前这种紧迫感还是远远不足。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博




from 爱范儿 https://ift.tt/xtWwMr9
via IFTTT

早报|曝 iPhone 17 有望支持高刷/瑞幸回应「降价至 6.9 元」/70.8 万元起,尊界 S800 上市

cover

🚀

马斯克:目标每年生产 1000 艘星舰

💰

22.87 亿元,大疆在深圳「再拿地」

🎧

AirPods 未来有望支持心率监测

❗

腾讯高管回应朋友圈访客功能:疑似有人翻炒流量

🐮

支持自主安全靠边停车,蔚来「世界模型 NWM」推送

💡

小宇宙 CEO:AI 时代下,真人表达会变得稀缺

🧠

小米开源多模态模型

🔍

iPhone 17 标准版屏幕尺寸或加大

📱

OPPO 新款小折叠设计曝光

🚗

70.8 万元起,尊界 S800 正式上市

🔍

瑞幸咖啡回应「降价至 6.9 元」

🤔

腾讯旗下多款产品接入新版 DeepSeek R1

✨

One Fun Thing|玄戒 O1 创始纪念品

大家端午节快乐呀!

📰 下面是假期也值得一看的新闻!

马斯克:目标每年生产 1000 艘星舰

昨日,SpaceX 举行了由 CEO 马斯克主持的主题演讲:Making Life Multiplanetary(让人类成为多星球物种)。

演讲上,马斯克提到了一个惊人的目标:每年生产 1000 艘星舰。其透露,SpaceX 现在已经达到了大约每两到三周就能制造一艘飞船的水平。

马斯克也承认,SpaceX 的「每年千台计划」并不是每两三周都固定生产一艘,而是通过不断进行设计升级,最终目标是每年能够生产 1000 艘飞船,平均下来是每天三艘。

马斯克还透露了 SpaceX 的超大组装厂房(mega bays)。其表示,公司正在扩建整合能力,以达到每年生产 1000 艘星舰的目标。其还感慨,这是一座真正意义上的超级工程,从某些标准来看,可能会成为世界上最大的建筑之一。

22.87 亿元,大疆在深圳「再拿地」

据深圳卫视深视新闻消息,深圳公共资源交易中心于 5 月 28 日公布 T207-0066 宗地出让结果,由深圳市大疆创新科技有限公司以 22.87 亿元竞得。

具体来看,该宗商业用地位于沙河街道深湾二路和白石支一街交叉口东南角,土地面积 15657.68 平方米,建筑面积 188000 平方米,使用年限 30 年,综合楼面单价为 12164.89 元/平方米。

据悉,此次大疆在深圳湾超级总部基地成功拿地,拟打造智能航空系统产业生态全球总部项目。根据规定,竞得人须在《出让合同》签订之日起 2.5 年内开工,6 年内竣工。

另据界面新闻报道,大疆曾于 2016 年以 7.1 亿元的价格竞得深圳南山区留仙洞 T501-0078 地块,后在此建造全球总部「大疆天空之城」。

大疆「天空之城」占地面积 1.76 万平方米,建筑面积约 24 万平方米,由英国福斯特及合伙人建筑事务所与大疆共同设计完成。建筑总体由东、西两栋超高层塔楼组成,两栋塔楼在 24 层有连桥相连。

AirPods 未来有望支持心率监测

此前,彭博社记者 Mark Gurman 曾报道指出,苹果正计划让 AirPods 支持心率监测功能,旨在让不喜欢戴手表或只想有一个备用健身心率检测的用户,也能通过 AirPods 获取到心率等健康数据,但当时 Gurman 并未提及该功能实现的原理。

日前,苹果公布了一份名为《Foundation Model Hidden Representations for Heart Rate Estimation from Auscultation》的研究报告,探索方向为「如何利用处理语音的基础模型估算心率」,而这一技术或有望为 AirPods 的心率监测提供可能性。

据研究人员发现,尽管处理语音的基础模型最初是为识别语音设计,但它们也能有效处理心音图(phonocardiogram:用换能器将心脏的物理振动转换为电流信号记录下来的曲线变化图)数据,从而实现推算心率。

研究人员表示,处理语音的基础模型可有效适用于听诊和生命体征估算任务,并有望成为传统方法的有效替代方案。他们还发现,模型规模越大并不意味着心率估算效果越好,但通过进一步微调或能够提升精度。

另外,本次研究的技术有望用于心肺声音的病理分析,帮助更精准地检测心律失常和杂音等异常。

目前,苹果生态中已有支持心率监测的耳机产品——Powerbeats Pro 2,其于今年 2 月发布。但 Powerbeats Pro 2 是利用 LED 光学传感器,每秒脉冲超过 100 次以测量血流,为用户或运动员提供实时心率数据。

🔗 技术报告链接:https://machinelearning.apple.com/research/heart-rate-estimation

腾讯高管回应朋友圈访客功能:疑似有人翻炒流量

近期,社交平台上新增了不少「微信朋友圈能查看访客记录」的相关内容,随后相关话题冲上热搜榜。而在上月,「腾讯客服回应微信开通已读功能」也以「新增相关内容」的形式冲上了热搜。

对于上述情况,腾讯公司公关总监张军昨日发文回应表示,不明白为何总有人反反复复地创造「如果」(微信功能相关假设性内容),并表示「前两天所谓朋友圈访客功能,也是缘起‘如果’」。张军表示,自己甚至怀疑是有同学(公司内部员工)在特意反复翻炒流量

此前,张军就曾发文回应过「腾讯客服回应微信开通已读功能」相关情况。其表示「已读」功能会增加接收者的心理负担和社交压力,并强调「从一开始微信就坚定不移地不提供这个功能,以后也不会」。

腾讯客服方面也曾多次回应了「微信是否会上线已读功能」,表示不愿增加接收者的压力,因此不会推出该功能。

夸克上线「深度研究」

5 月 30 日,夸克上线了「深度研究」功能,并每天限量邀请用户体验。

据介绍,「深度研究」功能基于通义千问大模型,能够围绕学术课题、行业分析等开放式议题,完成资料收集、数据分析、观点提炼到报告生成的全流程研究。

此前,夸克上线的「深度搜索」能够先对问题拆解、再联网检索并快速给出综合答案。而本次测试的「深度研究」面向开放课题,推理链更长、耗时更高,但交付粒度也从「答复」升级为「成品」。

目前,用户可以在夸克 App 或 PC 端申请邀请码。资格激活后,点击首页「深度研究」图标即可提交需求,系统将在数分钟内输出结构化报告,并支持导出 PDF。

支持自主安全靠边停车,蔚来「世界模型 NWM」推送

昨日,「蔚来世界模型 NWM」首个版本正式开启推送。

据介绍,「蔚来世界模型 NWM」首个版本坚持以安全为先,在主动安全、高速领航、城区领航、智能泊车四大场景实现技术能力与用户体验的全面升级。

值得一提的是,在本次推送中,蔚来行业首个量产「紧急自主靠边停车」。在高速公路或城市快速路,当辅助驾驶系统监测到驾驶员无意识后,会逐步缓慢减速,并将车辆变道至最右侧紧急停车带,开启双闪警示灯、SOS 紧急救援主动介入。

另外,本次推送还支持 0-150km/h 速度区间的「追尾碰撞预防及保护 RCM」、「通用障碍物预警及辅助 GOA」。

覆盖性方面,首批推送车型为超过 40 万台的「Banyan 榕」车型;「Cedar 雪松」车型,包括 ET9、新 ES6、新 EC6、新 ET5、新 ET5T 在内,将会于 6 月底开启推送。

Yandex 发布全球最大事件数据集

日前,Yandex 发布了 Yambda(Yandex Music Billion-Interactions Dataset,即 Yandex Music 十亿级交互数据集)。

据介绍,Yambda 是全球最大的推荐系统开放数据集,包含近 50 亿条来自其音乐流媒体平台 Yandex Music 的用户与音轨的匿名交互数据。

Yambda 可作为通用基准来测试推荐系统的新方法和算法,适用于电子商务、社交网络和短视频平台等所有使用推荐系统的领域。

具体来看,Yambda 拥有历时 10 个月收集的 47.9 亿条匿名的用户交互数据,以及来自 100 万用户的数据以及 939 万条音轨的匿名描述符。其中包含两种反馈类型:隐式交互(收听)和显式交互(喜欢、不喜欢及其撤销)。

Yambda 数据集提供三种规模:约 50 亿、5 亿和 5000 万事件量级,满足需求和算力资源条件不同的研究人员与开发者。数据集采用全局时间分割(GTS)进行评估,该方法按时间戳划分数据以保持事件序列。

目前,Yambda 已在 HuggingFace 发布。

HuggingFace:https://huggingface.co/datasets/yandex/yambda

💡 小宇宙 CEO:AI 时代下,真人表达会变得稀缺

近日,爱范儿对话小宇宙 CEO 舒玉龙(Kyth),聊了聊为何在这个数字内容无限趋近饱和的年代,专注于播客,又如何把藏于音频当中的魅力,承接并放大出来。

在被问及「小宇宙诞生时,为何选择做播客这一相对小众的形式」时,舒玉龙回答道:一方面想要去开拓一个新的项目,去做一些新的事情;另一方面因为自己是播客爱好者。而当时也因为中文播客行业内容十分少,因此他们将希望寄托在了这一赛道。

舒玉龙透露,从其团队最近五年参与中文播客领域所积累的经验,大家发现每年都有新的、意想不到的内容品类涌现出来。并且中文播客覆盖面很广,覆盖的内容也十分丰富,整体上呈现出一种健康的态势。

对于「AI 参与播客制作」这一时代现象,舒玉龙则觉得「未来注定会发生的一件事是 AI 所生成的各种内容,在各种渠道里的比例都越来越大」。但他也表示,不变的是「人的选择」,因为大家时间、精力有限,所以选择的内容会是「独特的、不一样的、有活人感的」

后面,舒玉龙进一步解释,「至少在未来的 1 到 2 年里面,真人播客会有越来越稀缺的价值」。他同时也认为,当大家听到一个真人的真情实感,也是最真实、最令人眷恋的东西,而这也是播客所带来的价值。

想了解爱范儿与 Kyth 的完整对话内容,点击下方链接获取吧!👇

对话小宇宙:旁听复杂的世界,收获信任与情感|多样性公司

小米开源多模态模型

昨日,小米 MiMo 团队发布并开源最新多模态大模型「Xiaomi MiMo-VL」。

据介绍,Xiaomi MiMo-VL 在图片、视频、语言的通用问答和理解推理等多个任务上,大幅领先同尺寸标杆多模态模型 Qwen2.5-VL-7B,并且在 GUI Grounding 任务上比肩专用模型。

MiMo-VL-7B 在多模态推理任务上,仅用 7B 参数规模,在奥林匹克竞赛(OlympiadBench)和多个数学竞赛(MathVision、MathVerse)大幅领先阿里 Qwen-2.5-VL-72B 和 QVQ-72B-Preview,也超越闭源模型 GPT-4o。

另外,在评估真实用户体验的内部大模型竞技场中,MiMo-VL-7B 超越 GPT-4o,成为开源模型第一。

据悉,MiMo-VL-7B 全面的视觉感知能力得益于高质量的预训练数据以及创新的混合在线强化学习算法。其中收集、清洗、合成了高质量的预训练多模态数据总计 2.4T tokens。

目前,MiMo-VL-7B 已开源 RL 前后两个模型至 HuggingFace,另外相关技术报告也已上传至 GitHub。

MiMo 团队方面还称,MiMo-VL-7B 系列模型 RL 起点高、潜力足,完全可以替代主流开源 7B-72B 多模态模型,作为研究多模态 RL 和 Agentic 训练的全新基座模型。

HuggingFace:https://huggingface.co/XiaomiMiMo

技术报告:https://github.com/XiaomiMiMo/MiMo-VL/blob/main/MiMo-VL-Technical-Report.pdf

iPhone 17 标准版屏幕尺寸或加大

日前,据分析师 Ross Young 消息,iPhone 17 标准版将采用 iPhone 17 Pro 相同尺寸的屏幕。

目前,iPhone 16 屏幕尺寸为 6.1 英寸,而据消息,iPhone 17 标准版将增大至约 6.3 英寸。结合此前博主「数码闲聊站」消息,iPhone 17 标准版屏幕具体尺寸为 6.27 英寸,并且支持 LTPO。

数码闲聊站还表示,若苹果不刻意「阉割」功能,那么 iPhone 17 系列有望全系支持高刷新率。

另据 MacRumors 推测,iPhone 的命名方式也有可能跟随此前曝光的苹果新系统命名规则。

OPPO 新款小折叠设计曝光

据 xpertpick 援引 WIPO 消息报道,OPPO 近日的一份专利申请曝光了其新小折叠屏的外观设计信息。

**从曝光的图片来看,OPPO 新款小折叠依然配备完整的竖向外屏。而后摄模组采用竖向一字排开的设计,具体来看,摄像头模组为一个横跨上半机身的底座,外加三个独立镜头的排布。

**

报道指出,这或许是 OPPO N Flip 小折叠系列的下一代新机外观,但目前官方尚未确认,因此仅为一种外观设计可能性。

据悉,OPPO N Flip 系列最新一代产品为 N3 Flip,其于 2023 年 10 月推出。值得一提的是,N3 Flip 的后置摄像头模组采用圆形设计。

70.8 万元起,尊界 S800 正式上市

昨晚,尊界 S800 正式上市,备受关注的价格也终于亮相:售价区间 70.8 万至 101.8 万元。

外观方面,尊界 S800 提供 2 款纯色 + 4 款撞色,共计 6 款配色。细节上,尊界 S800 配备了投射型迎宾大灯和开门后可以投射「迎宾光毯」的车门灯。

座舱内,尊界 S800 配备了「星空顶」,采用大面积真皮进行座椅、软包区域覆盖,内饰板和杯托周围是胡桃木结合柳丁的设计,座椅调节旋钮、中控旋钮以及中央扶手箱的后端都使用了水晶材质。

其中后排配备了两个双零重力座椅,支持行驶状态下展开使用。若遇碰撞,在安全带协同下,座椅靠背能在 700ms 内迅速调整乘员姿态,最大程度降低冲击伤害。另外,后排还加入了手势车控功能,支持隔空指挥关闭车门。

尊界 S800 搭载了全新的「途灵龙行平台」,基于华为独创的全域融合架构打造,是业内首个自主智能数字底盘平台。新车具备道路预瞄能力。安全性上采用「天使座主动安全防护」,拥有高达 4 颗激光雷达等总计 32 个传感器。

华为还在尊界 S800 上首发了 800V 的「雪鸮」智能增程平台和超高密度的纯电平台,增程版充电则支持 6C 超充电芯体系,10%-80% 充电约 10.5 分钟;纯电版双电机车型搭载的是 96.7kWh 的电池,CLTC 综合续航 702km,支持 5C 超充电芯体系,10%-80% 最快充电 12 分钟。

无印良品回应衣服「含大麻」:存在歧义

近日,有网友发文称,无印良品(MUJI)一款在售的「男式防紫外线麻混圆领短袖针织衫」商品,详细页中显示材质含「大麻」成分。

据封面新闻从无印良品 MUJI 官方客服获悉,上述商品中的「大麻」存在信息标注歧义。客服解释,大麻是制成麻纤维的一种原材料,并且后续也会进行反馈改进。

目前,据我们实际查询发现,无印良品官方已将成分中的「大麻」修改为「大麻(汉麻)」。据了解,大麻是世界最早栽培利用的纤维之一。

瑞幸咖啡回应「降价至 6.9 元」

据我们实际观察发现,瑞幸咖啡近日将其大部分饮品价格下调至 6.9 元,包含果 C 美式系列、生椰系列、轻乳茶系列。

对于本次「降价」行为,瑞幸咖啡通过界面新闻回应称,其为消费者推出端午节和儿童节的双节特惠福利,随机发放 6.9 元优惠券,并非降价。

腾讯旗下多款产品接入新版 DeepSeek R1

日前,腾讯旗下多款产品宣布接入 DeepSeek R1 最新版「DeepSeek R1-0528」,具体来看:

  • 腾讯 AI 产品「元宝」:接入 DeepSeek R1-0528,电脑版、网页版提供抢先体验。拥有「推理能力更强」「写作表达更自然」「逻辑条理更清晰」三大特点。
  • 腾讯搜狗输入法:Windows 版搜狗输入法接入 DeepSeek R1-0528,推理能力提升,代码水平更强。

DeepSeek R1-0528 于 5 月 29 日晚正式更新,其最大亮点是针对「幻觉」问题进行了优化。据悉,与旧版相比,更新后的模型在改写润色、总结摘要、阅读理解等场景中,幻觉率降低了 45%-50% 左右。

蒋雯丽、黄轩主演,《恋曲尘封》定档 6 月 13 日

日前,电影《恋曲尘封》定档 6 月 13 日全国艺联专线上映。

据悉,影片改编自吴有音原著小说《爱比死更冷》,讲述了少年轩与画师岚一段「错位」初恋的故事,揭开了两人隐秘的尘封往事。

《恋曲尘封》由吴有音导演/编剧,蒋雯丽、黄轩、黄小蕾、罗辑、林栋甫主演,马思纯特别出演。

One Fun Thing|玄戒 O1 创始纪念品

近日,小米宣布将会推出一款「玄戒 O1」创始纪念版纪念品。

这一纪念品中,将会内嵌「玄戒 O1」的芯片实物,并刻印小米创办人雷军的签名。仔细观察还能看到铝合金底板上印刻了 O1 芯片的结构设计图,整体十分精致。

我们也在第一时间拿到了这一纪念品,并将它与搭载第一款小米处理器「松果澎湃 S1」的小米 5C 进行了合影。

周末看什么|《我的事说来话长》

该剧讲述了废柴男岸边满年过三十还依靠母亲生活,当姐姐一家搬来住后,他不得不尝试自立的故事。目前豆瓣评分 9.1 分。

《我的事说来话长》是日本台(NTV)制作播出的喜剧,由中岛悟、丸谷俊平、铃木勇马执导,金子茂树担任编剧,生田斗真主演,于 2019 年 10 月 12 日开播

买书不读指南|《熔炉》

《熔炉》一书是小说家孔枝泳以发生在韩国光州仁华学校的教师性侵残疾学生的暴力事件为蓝本创作的小说。2011 年,该小说被改编拍摄为同名电影被搬上大银幕,随后在韩国上下引发震动:

在 2005 年案发当时未被起诉的学校行政室长金某于 2012 年重新接受审判,获得 8 年有期徒刑、信息公开 10 年以及位置追踪追加 10 年的刑罚。2015 年 11 月 8 日,韩国大法院对光州仁华学校的 7 名被害人向中央政府和光州市政府、光州光山区政府三个被告单位提出的索赔诉讼做出了原告败诉的判决。

孔枝泳为韩国当代著名女作家、畅销书作家,其作品一贯诚恳、直接,力指真相,穿透人心。

游戏推荐|《塞尔达传说 旷野之息》

上市到现在,《塞尔达传说 旷野之息》已于 2017 年获得 TGA 年度游戏、最佳游戏设计和最佳动作冒险游戏,同年获 GameSpot 年度最佳游戏;2018 年获 EDGE 年度最佳游戏、GDC 最佳游戏音效奖/最佳游戏设计奖/年度游戏奖、SXSW 最佳游戏性奖/最佳游戏设计奖/年度最佳游戏。

该作品由任天堂企划制作本部开发、Monolith Soft 协力开发,为《塞尔达传说》主系列的第 19 作,于 2017 年 3 月 3 日在 Wii U、Nintendo Switch 上发售。

游戏的故事发生在海拉鲁王国灭亡的 100 年后,曾经一场大灾难袭击了海拉鲁王国使之灭亡,主角林克在地下遗迹苏醒,他追寻着不可思议的声音并开始了冒险之旅。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博




from 爱范儿 https://ift.tt/1tSR2aC
via IFTTT

2025年5月29日星期四

通义灵码首个 AI IDE 上线,你的「代码搭子」变聪明了

上线一年半,全网总下载量超 1500 万,开发者采纳代码行数超 30 亿且每月增速 20%-30%,阿里云通义灵码插件堪称中国开发者写代码时最离不开的「代码搭子」。

今天,阿里云再次重磅发布了旗下首款 AI 原生开发环境工具:通义灵码 AI IDE。

这款 IDE 与最新的千问 3 大模型进行了深度适配,全面集成了通义灵码的各类插件功能,同时还带来了编程智能体、行间建议预测、行间会话等一整套 AI 辅助编码能力。

简单来说,它不仅能帮你写代码、修 Bug,更具备自主决策、工具调用、工程上下文感知、开发者记忆等核心能力,有望接手更复杂的开发任务。

从模型能力看,通义灵码 AI IDE 全面支持最新开源旗舰模型千问 3,其代码生成与理解能力已经处于行业第一梯队;同时兼容 MCP 协议,具备强大的工具调用能力,开发者可以基于此快速开发出自己的智能体应用。

模型强,还不够,工具体验也下了足够多的功夫。

通义灵码 AI IDE 专门为开发场景提供了长期记忆、行间建议预测(NES – Next Edit Suggestion)、行间会话(Inline Chat)等能力,为开发者带来更丝滑、更智能的编程体验。

在智能体模式下,开发者只需描述编码任务,通义灵码便可以自主地进行工程感知、代码检索、执行终端、调用 MCP 工具等,端到端地帮助开发者完成编码任务。

平台集成能力也同样值得一提。

目前,通义灵码已接入来自魔搭 MCP 广场的 3000+ 热门服务,覆盖工具、文件系统、搜索、地图等主流场景,支持一键安装、开箱即用,满足开发者不同场景的开发需求。

在通义灵码上调用高德地图的 MCP 服务,不用写代码,十分钟就能生成一份专属的旅行网页攻略,甚至还能一键导入高德地图 App,方便用户探店、导航、打车甚至在线购票,一站式搞定出行。

其中,行间建议预测功能可以动态分析你当前写的代码,实时预测下一步修改建议,只需按下 Tab 键即可补全,大幅提升写码效率。

不论是新功能开发,旧项目维护,还是复杂系统重构,它都能结合上下文理解,提出跨文件的智能修改建议。

为了让 AI 更「懂你」,通义灵码还引入了自动记忆功能,能不断学习你的编程习惯、项目上下文与对话历史,并定期整理记忆,让你越用越顺手。

在通义灵码产品技术负责人神秀看来,当下 AI  Coding  竞争进入端到端竞争阶段,阿里云有端到端技术全栈优势,也将围绕通义系列构建通用和私有模型。而目前从整体来看,阿里云也在致力于打造模型、平台、产品三位一体的 AI 编程体系。

在模型层面,Qwen 系列逐代升级,Qwen2.5、Qwen3 等模型已在 LiveCodeBench、BigCodeBench 等主流代码评测中拿下开源领域的第一,部分指标甚至超过了闭源大模型。

产品端,通义灵码支持业界主流 IDE,深度融入开发者工作流,实现从辅助编码到沉浸式智能开发的跨越,全面覆盖开发者的工作场景。

根据官方数据,目前已有超过一万家企业使用通义灵码提升开发效率,包括一汽、蔚来、中华财险等,是国内最受欢迎的辅助编程工具。

未来,阿里云将继续围绕千问 3 等新一代模型进行迭代,同时持续演进工程感知和记忆感知系统,提升 AI 解决问题效率和代码准确率,以及积极探索新一代人机交互模式,向全自动自主化编程领域迈进。

下载体验地址:https://ift.tt/x8MOnEu

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博




from 爱范儿 https://ift.tt/5GDaLHn
via IFTTT

小鹏又掀桌子!新款 MONA M03 起售价仅 11.98 万元,但八成用户都买顶配

等了快一年,小鹏 MONA M03 的 Max 版本终于来了。

从去年 8 月底的发布会算起,MONA M03 顶配的 Max 版可算是吊足了市场的胃口,只公布了 15.58 万元的售价,但一直都没有开售。官网上在卖的只有 515 长续航和 620 超长续航两个版本。

终于,在昨晚(5 月 28 日),这只「靴子」重重落地,而伴随其正式上市的,是两个比最初公布的价格更具冲击力的数字:502 长续航 Max 版 12.98 万元、600 超长续航 Max 版 13.98 万元。

CEO 何小鹏在发布会上说,这两辆 Max 车型在高阶智能辅助驾驶方面,「体验可以比肩 50 万元级旗舰车型」。

市场的热情瞬间被价格点燃。据官方数据,小鹏 MONA M03 新版型上市仅 1 小时,大定订单便已突破 12565 台,这一数字不仅超过了去年上市时的表现,其中 Max 版本的订单占比更是高达 83%。

等待似乎没有消磨用户的热情,反而因这份更炸的价格,酝酿出更强烈的购买欲望。

13 万的高阶辅助驾驶,小鹏来兜底

何小鹏在发布会上的那一句豪言壮语,并非空穴来风的营销噱头,12.98 万元的 MONA M03 Max 版本,确实拥有和旗舰车型 X9 一样的高阶辅助驾驶能力——

它不仅能够在城区和高快道路实现领航辅助驾驶,还可以通过 OTA 获得收费站等复杂场景的通行能力,实现「车位到车位」的全场景贯通。何小鹏表示,6 月底过后,MONA M03 就会拥有自主过停车场闸机、收费站,以及狭窄路段的三点式掉头能力。

他强调,这是全球首次在 15 万元以下车型实现「满血版的智能辅助驾驶」。

目前,在 MONA M03 Max 所处的 13-14 万元这个价位,用户能够获得的只有基础的 L2 级辅助驾驶功能,诸如 ACC 自适应巡航等,即便是搭载卓驭成行智驾的一汽红旗天工 05,起售价也来到了 15.98 万元。

为了让用户用得放心,小鹏汽车还推出了一项「兜底保障」政策:辅助驾驶退出 5 秒内发生事故,都可以享受兜底赔付,最高可赔 100 万元,每年的保费只要 239 元。

也就是说,小鹏这次带来的不只是价格最亲民的全场景辅助驾驶,还有全行业唯一的官方保障

那么,支撑小鹏 MONA M03 Max 敢于喊出如此口号、给出如此承诺的底气究竟何在?答案直指其毫不妥协的硬件配置与自研的软件算法体系。

在 MONA M03 Max 上,小鹏采用了与 P7+、G6、G9 等车型一脉相承的双英伟达 DRIVE Orin-X 芯片,共同提供了 508 TOPS 的高算力,在同价位车型中堪称碾压性的存在。

何小鹏在发布会上表示,只有高算力才能发挥 AI 大模型的作用,也正是因为拥有同级别最强的端到端大模型, MONA M03 Max 才能实现同级唯一的无需记忆、不限路线、不限区域的智能辅助驾驶。

影响车端模型能力的还有云端模型的规模。何小鹏称,小鹏汽车拥有目前中国最大的自动驾驶万卡智能算力集群,云端基座模型达到了 720 亿。从数据采集、模型训练到最终的决策控制,掌握了一切的小鹏,自然也拥有了快速迭代和持续优化的能力。

而在感知硬件层面,MONA M03 Max 坚定地选择了小鹏已然验证成熟的纯视觉感知方案,辅以毫米波雷达。小鹏认为,纯视觉方案不仅更符合人眼感知世界的逻辑,也更能实现真正的「前融合」,从而将系统时延降至最低。

为了攻克纯视觉在暗光、逆光、雨雪天气等极端工况下的识别难题,小鹏还将自研的「鹰眼」LOFIC(Lateral Overflow Integration Capacitor)下放给了 M03 Max,大幅提升了摄像头在复杂光线环境下的动态范围和成像质量。

同时,这套算法能够将传统的 2D 图像信息实时提升至 4D 动态因果推理的层面,更精准地理解道路元素的时空关系与驾驶员的行为预测。

当智能驾驶的光芒足够耀眼之后,MONA M03 在其他与日常用车体验紧密相关的方面,也并未懈怠。不只是 Max 版本,两个入门的 Plus 版本同样也有升级,且价格没有变化,去年一样,还是 11.98 万元和 12.98 万元。

首先是智能座舱体验的革新。新车首发搭载了小鹏最新的天玑 OS 5.7.0 操作系统,运行于高通骁龙 8155 座舱芯片之上,辅以一块 15.6 英寸的高清中控大屏。

官方宣称,新系统带来了超过 300 项的功能新增与升级,例如超过一万种场景的随心定制组合、桌面化的佛珠与木鱼小组件、以及便捷的照片寻车等趣味实用功能,老款 M03 车主也将通过 OTA 同步获得升级。

更值得一提的是,小鹏自研的 XGPT 大语言模型深度赋能了语音助手小 P,使其交互能力大幅提升,不仅平均响应速度快至 0.9 秒,更增加了如小 P 推理、智能唤醒、连续对话、小 P 任务、小 P 看世界、小 P 创作以及全时多人对话等高级功能。

另一方面,新系统还加强了对华为 HiCar、OPPO Carlink 等主流手机互联方案的兼容性。当然了,CarPlay 肯定是没有的。

驾乘的舒适性与操控性同样是 MONA M03 Max 关注的重点。

小鹏表示,他们针对减速带、井盖等城市常见颠簸路况,对新车的悬架系统进行了多达 30 余轮次的硬点优化和 5 轮精细调校,使得车辆在通过不平路面时更为柔和舒适,刹车时的「点头」现象也得到有效抑制。仅 5.3 米的最小转弯半径,则赋予了它在城市中穿梭游走的灵活性。

在座椅舒适度方面,主驾驶座椅新增了三气袋腰托及腰部舒缓功能,按摩面积比普通腰托提升 30%,并提供腰部激活、放松、舒缓三种力度模式可选;副驾驶座椅也加入了座椅记忆与迎宾功能。

方向盘则升级为电容加热款式,握感也要更佳,其他诸如电动掀背尾门、全景影像、手势控制、四音区语音识别、前排座椅加热通风、手机无线充电以及 XPENG 环绕音响系统等配置,也进一步提升了整车的使用体验和品质感。

最后是简单的视觉更新。MONA M03 新推出了三种漆色,「星暮紫」、「徽月灰」、和「星雨青」;内饰则新增了「拂晓紫」配色,力求满足年轻消费者的审美偏好。

与小鹏 P7+ 等车型同款的「辅助驾驶小蓝灯」被巧妙地集成在外后视镜处,外后视镜本身也集成了加热、折叠、记忆、倒车自动下翻等实用功能。

结合上述配置和价格,可以说,MONA M03 的焕新登场,不仅仅是一次简单的年度小改款,更是小鹏汽车以技术普惠为核心理念,向主流市场投下的一枚极具战略意义的棋子。

小鹏 MONA M03:一条能赚钱的「大鲶鱼」

9 个月前,小鹏 MONA M03 以一种近乎「掀桌子」的姿态闯入市场。论绝对的价格,它可能并非市场最低;若与同价位更注重空间的 SUV 车型进行比较,它似乎也未完全遵循传统家用车的「水桶理论」。

更不用说,它从诞生起就与人民群众曾经喜闻乐见的「大油箱」彻底划清了界限。

然而,小鹏 MONA M03 还是凭借年轻的设计和扎实的产品力,成为了迄今为止最快完成十万辆生产下线和交付记录的新势力纯电车型。

其赢面不仅在于「低价」,同时还有「高质」。

过去,受限于成本和技术成熟度,10 至 15 万元区间的电动车,其智能化配置往往点到即止,消费者在这一价格段内,更多的是在续航、空间和三电基础性能上进行权衡。但 MONA M03 的出现,几乎是以一己之力,强行拉高了这一级别车型的智能化门槛。

可以预见的是,M03 Max 上市后,入门级市场的竞争还将提升到高阶辅助驾驶这个更高的维度。这绝非对某个单一竞品的挑战,而是对整个市场消费预期的重塑。那些技术储备不足、成本控制能力较弱或者战略上对智能化投入不够坚决的品牌,其生存空间可能会被进一步挤压。

谈及市场竞争,比亚迪是无论如何也绕不开的巨擘。凭借其在三电技术、供应链垂直整合以及成本控制上的绝对优势,比亚迪在 10 至 20 万元区间构建了强大的产品矩阵和市场壁垒。

然而,MONA M03 Max 的锋芒,恰恰指向了比亚迪在这一价格段智能化以及年轻化上可能存在的些许「软肋」。

尽管比亚迪率先在今年年初喊出了「全民智驾」这一口号,旗下几乎所有车型都加上了「智驾版」后缀。然而,其入门级车型所搭载的天神之眼 C 目前仍然停留在传统的 ACC 自适应巡航,真正能够实现城市 NOA 的天神之眼 B,还是来到了 20 万元以上。

同时,在智能座舱和这一层面,小鹏在入门级市场已经建立了显著的领先优势。加之更为大胆和年轻化的内外饰设计语言,也成功吸引了大量年轻用户群体的关注。

这意味着,小鹏 MONA 系列在激烈的价格竞争中,并非单纯以低价取胜,而是通过满足部分用户群体对于「精品感」与前沿科技体验的追求,巧妙地构筑了一条差异化的护城河,避免了直接陷入纯粹价格战的泥沼。

至于盈利前景,我们或许不必对小鹏 MONA 是否「赔本赚吆喝」抱持过多疑虑。从财务数据来看,在 MONA M03 热销的这段时间里,小鹏汽车的毛利率都在不断提升。如果 MONA M03 Max 能够成功走量,那么其带来的规模效应,或许更能让小鹏年内盈利的目标,变得愈发触手可及。

当然,一枚硬币总有两面。MONA 系列以极致性价比冲击大众市场,在为小鹏带来销量的同时,也可能对其主品牌长期以来塑造的「科技、智能、中高端」的品牌形象带来一定的稀释风险。

当消费者习惯了用十几万就能买到小鹏最顶尖的智能驾驶技术时,未来小鹏再推出价格更高的 P、G、X 系列的旗舰车型时,如何说服消费者为其品牌溢价和更全面的豪华体验买单,将是一个不小的挑战,小鹏必须要在设计、三电技术以及豪华质感等多个维度拿出足够多的惊喜,才能成功将小鹏的品牌形象重新「拔高」。

接下来发布的新一代 P7,将会是小鹏的关键一役。

带轮子的都关注,欢迎交流。 邮箱:tanjiewen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博




from 爱范儿 https://ift.tt/6CI8bk0
via IFTTT