2026年3月18日星期三

我在微信养了一天龙虾🦞,花了 20 万Token让它给我发压缩包

现在,你的微信里也能养「龙虾」了。

龙虾爆火后,在 AI 牌桌上一向低调的腾讯,罕见打出一套快拳,迅速端出三款「龙虾」,其中最值得拿上台面聊聊的,当数 QClaw——

这是腾讯电脑管家基于 OpenClaw 打造的一款本地 AI 助手,它最特别的地方在于你可以支持直接在微信与「龙虾」对话,让它帮你干活。

今天,QClaw 正式更新 v0.1.9 版本,用户可以通过小程序接收电脑端文件,同时上线了足以充当龙虾指南的「灵感广场」。

APPSO 第一时间实测了微信养龙虾,看看实际体验如何。

一只对小白友好的腾讯龙虾

QClaw 的界面长了一张大家都很熟悉的「AI 脸」:左边聊天,右边干活。为了让你最快上手,它在主界面的 C 位甩出了几个预设选项。点击「安装你的第一个 Skill」,这只龙虾就会手把手教你如何点亮它的技能树。

背靠 ClawHub 和 GitHub ,QClaw 拥有的 Skill 储备超过 5000 种。面对这么庞大的库,该怎么挑?腾讯给出的答案很直接:别挑,直接开口。你只需要用大白话描述你想干啥,它就会自动把合适的 Skill 端到你面前。

傻瓜式的交互,极大抹平了新手的学习曲线。但对喜欢掌控感的人来说,难免会有一点隐秘的焦虑——总得有个完整菜单让我看看有什么菜吧?

稍微翻找一下,你会发现它藏在设置的「技能管理」中。在这里,你能总览所有技能,甚至可以直接从 GitHub 粘贴导入。但耐人寻味的是,哪怕在这个稍显硬核的管理界面里,排在最前面的添加方式,依然是「通过对话创建」。

可以看出来的是,在决定基础体验与 QClaw 能干什么的事情上,腾讯想尽量将事情做简单——刚刚 QClaw 回复 Skill 列表的第三点,依旧在鼓励我直接告诉它想要什么样的 Skill。

微信养虾很有趣,只是这虾有点生

部署好电脑端之后,我们直奔重头戏——微信遥控。

先在主界面左下角用微信登录 QClaw。注意:目前内测仍需填写邀请码,没有邀请码的话,就算微信登录成功也是一个空壳,什么都做不了。

不过,光在电脑端完成登录,还不足以召唤出这只「龙虾」的完全体。要想真正把它装进口袋,还得进行一次关键的跨屏连线。

在界面左下角的头像旁唤醒「微信远程」,掏出手机微信扫一扫,界面会丝滑地跳转到微信里的 QClaw 客服对话框,另一头的电脑屏幕也会默契地亮起连接成功的提示。

不需要任何复杂的内网穿透或代码配置,你的微信聊天框,此刻已经正式变成了一个能随时使唤电脑干活的随身遥控器。

我相信大多数人面对这只一举一动都要花钱的龙虾(当然,目前内测期间 Token 免费),图的绝不仅是多一个代发微信的聊天搭子,而是能实打实分担工作压力、能帮我干活儿的数字员工。

对于我也是如此——尤其是当我不在办公电脑前,又急需一些文件和图片的时候。

QClaw 最大的亮点就是免去麻烦的部署,可以通过微信对话框指挥电脑上的 QClaw,而在 v0.1.9 版本,QClaw 上线小程序文件传输能力,用户可以直接通过小程序接收电脑端文件,灵活性进一步提升。

那它的实际表现如何呢?

在我的电脑下载中,有几张拍摄的样片急需放进推文中,但我此时离公司十万八千里,于是我通过客服号中的 QClaw 对话框下达指令,请 QClaw 将照片传递过来。结果——

啊?

不死心,重试一次。这次成功了,但只能算「基本成功」——从消息内容来看,QClaw 似乎只回过来了后半段,前半段被悄无声息地吞掉了。

为了搞清楚发生了什么,我火速赶回公司,看看电脑端的对话框里是怎么呈现的这次任务:

也就是说,其实第一次下达指令后,QClaw 是成功响应了,但没有顺利反馈到手机微信里的对话框中;而第二次更是提示我可以在 QClaw 小程序中随时查看,但消息却没发送全,唯一幸运的是后半部分的链接顺利递到了我的对话框中,让我至少能正常下载需要的照片。

对于工作来说,文件的任何信息都很重要,所以我打算进一步拷打一下 QClaw:

我需要的这些照片,会被 QClaw 偷偷压缩吗?小程序中保存的照片,与链接中的照片是否一致?有没有丢失 Exif 信息呢?

抱着这样的疑问,我用手机打开「QClaw 管家」小程序,照片确实秒速送达了。令人无奈的是,QClaw 自作主张地将三张照片打成了压缩包,文件不支持点击选中,也不给任何下载到本地再想办法解压的余地。

最后的结果是这份急需的资料就这样死死僵在了列表里,没有任何办法增删查改。折腾了半天,我唯一能做的,就是隔着手机屏幕和它干瞪眼。

▲ 啊?

此时一定有人提问:不是还有链接吗?人家说小程序是用来查看的,你用链接下载不就好了。

没毛病,但我用手机返回客服号对话框,重新找到下载链接时,发生的一幕让我血压暴涨——

这个链接,是用来跳转到 QClaw 管家小程序的。

当一个事情离谱到超出我意料的时候,我会非常执着地想看看它到底能离谱到什么地步。

于是我又不信邪,用电脑点击 QClaw 给我的那条下载链接。

可喜可贺——这一次没有出任何差错,文件下载下来了。不仅下载下来了,而且图片还没有任何压缩,Exif 信息也没有任何丢失。

但是我怎么就是高兴不起来呢?

让我们看看我最初是想干什么?

因为我不在办公电脑前,所以我找 QClaw 给我发文件;
QClaw 给我发到小程序里,还给我发了链接,相当周全;
小程序里是压缩包,我打不开、看不了、下不动、删不掉;
手机打开的下载链接也跳转到小程序,我打不开、看不了、下不动、删不掉;
最后只能用电脑点击下载链接,才能顺利看到文件。
……

好,可能是文件夹里三张图片对于 QClaw 这样刚蹒跚学步的龙虾来说太多了,我只留一张,再来一次。

▲ 终于成功了

在我特别叮嘱「别压缩」的前提下,成了!并且 Exif 信息没有任何丢失,大成特成!

顺带一提,刚刚这一顿操作下来,又是 20 万 Token 没有了。

灵感广场,教你怎么养龙虾

对没碰过「龙虾」的小白来说,前期的本地部署就像在徒手拼装一台发动机,费尽心思终于熬过了复杂配置,满心欢喜地准备拥抱赛博未来,迎面撞上的却只有一个光秃秃的代码框——我真不知道这玩意能干什么, 或者说我不知道它能怎么帮到我。

老天给你发了一把绝世好剑,却忘了给剑谱,而 v0.1.9 上线的「灵感广场」,刚好充当了剑谱作用。

腾讯在灵感广场中预设了 15 种任务模式。说实话,其中大部分任务并不能直观体现出龙虾的想象力,以前的大语言模型 AI 也能做到看看八字、梳理知识点框架。于是,在一众应用中,我找了一个较为本地化的操作:发票/单据智能归档。

我的电脑里刚好存放着去年大半年的发票准备报销,但直接在电脑上用预设功能实在没什么意思,我打算用微信通知 QClaw 帮我智能归类,并输出为 Excel 表格:

把电脑上下载中发票报销文件夹里的发票都帮我整理成报销明细 Excel 表格

不知道是不是我在发票报销的文件夹中根据项目分出了近十个小文件夹的原因,QClaw 执行整个指令用了约五分钟的时间,最终输出的 Excel 表格通过文字反馈给了微信客服号的对话框中,并同样附上了小程序的链接。

美中不足的是,QClaw 出现了部分发票识别不了的情况——我所有的发票都是 PDF 格式,但由拍摄转为 PDF 的实体发票识别无一例外都失败了,结果差强人意。

随后,我又用电脑端单独输入了一遍同样的指令,得到的结果保持一致——由照片转来的五张发票无法顺利识别。

打开设置看看用量统计,电脑整理发票这条指令消耗了 839,061 Token,是单条简单对话的 20 倍左右,而手机微信远程指挥的消耗则为 459,501,Token 消耗比较不稳定。

不过在折腾这个任务时,我也踩到了微信遥控 QClaw 的弊端——

你在手机微信里下发的所有指令,到了电脑端并不会根据任务自动分流,全都简单粗暴地把消息塞进了一个对话框里。:一旦你想回到电脑端复盘之前的任务进度,面对的就是一个深不见底的文字瀑布。没有标签,没有分类,你唯一能做的,就是疯狂搓动鼠标滚轮,在海量的历史记录里苦苦打捞你需要的回答。

预设任务完成得尚可,更个人、更日常的任务呢?

我打算从最简单的入手——发微信。

我请 QClaw 帮我叫女朋友起床,按道理,在 v0.1.9 版本中,QClaw 已经接入微信了,发个微信应该不是什么难事儿。但意外的是,接入微信的 QClaw,找不到我的微信联系人。

面对这种窘境,QClaw 反复尝试挣扎,在经过备注、用户名、微信号三重查找后,浪费了近 20 万 Token 的 QClaw 终于找到了问题所在:

看到问题了!微信渠道虽然启用了,但 guid 和 userId 都是空的,说明微信账号还没有完成绑定/授权。

看起来很合理,但我目前已经绑定了微信,并退出重新登陆过一次,依旧无法成功,换到手机微信客服号远程指挥电脑上的 QClaw,也依旧失败。

于是我继续追问如何填充 guid 与 userld,又花费了近 20 万 Token 的 QClaw 这样回答:

看起来头头是道,逻辑正确、方案合理,但我翻遍了设置也没有找到其中任何一个解决办法的入口,而截止本篇体验完稿时,我依旧没能叫她起床……

关掉 QClaw,读者们大概会分成两拨——乐观者会期待,悲观者会批评。

但我并不打算对一个版本号仅为 v0.1.9 的初生牛犊过于苛刻。这是一个相当年轻的版本,从产品逻辑上,能看出腾讯在尽力降低龙虾的准入门槛,但一旦触及到细分需求,它就会出现零零散散的不如意。

这很符合逻辑,易用需要大众,而生产力则天生偏向极致细分,解决这样的矛盾还需要时间。目前的 QClaw 只是呈现一个粗糙的框架,向我们掀起未来一角。

跳出 QClaw 这盘「小龙虾」,也许我们还可以有一些更大的猜想——

之前我们在文章《OpenClaw 让每个聊天软件都有机会变成微信》中提到:

当一个聊天窗口可以调用任意 agent 完成从订票、编程到数据分析的任意任务时,它已经不只是一条管道——它正在变成一个超级接口。

有意思的是,这个让全球开发者兴奋不已的叙事,对中国用户来说却充满着强烈的既视感。用一个封闭生态实现「全服务覆盖」,这不就是微信当年用小程序做过的事吗?

QClaw 在体验上的种种不如意,以及未来可以预见的权限摩擦,本质上是开放工具撞上封闭生态时的必然代价。它费尽心思想绕过的那堵权限墙,对微信自己来说,不过是底层架构里的一行代码。

第三方工具在缝隙里挣扎的每一步,对平台原生能力来说都只是举手之劳。

能力的边界,往往就是入场资格的起点。

QClaw 只是掀开了一角,让我们看到了 IM 平台向「通用交互层」进化的可能性。而真正的问题是:当微信亲自下场,把原生 Agent 融入其中,那个版本的体验会是什么样的?

想象一下,不需要邀请码,不需要跨屏连线,不需要在压缩包和跳转链接之间反复横跳——只需要打开一个你每天都在用的聊天框,说一句话,事情就办完了。

这才是那个 AI 时代真正意义上的「超级接口」。

QClaw 让我们预习了这道题,但最终交卷的人,可能另有其人。

让我有个美满旅程

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。



from 爱范儿 https://ift.tt/gDQctyC
via IFTTT

马斯克下场点赞!Kimi 这篇论文撬动了大模型的「祖传地基」

同样的算力,同样的数据,凭什么效果不一样?大多数人的直觉是:模型更大、数据更好、工程师更厉害。但 Kimi 给出了一个更出人意料的答案。

3 月 16 日,月之暗面 Kimi 发布了一项重磅技术报告《Attention Residuals》(注意力残差)。

这项技术针对几乎所有现代大模型都在使用的残差连接结构进行了改造,并在实验中证明,用同样多的算力,新方法训练出的模型效果相当于基线模型花费 1.25 倍算力才能达到的效果。

报告发布后,也毫无意外得到了许多硅谷顶尖 AI 人物的点赞背书。

▲附 GitHub 开源地址:github.com/MoonshotAI/Attention-Residuals

比如马斯克通过社交媒体表示「「Impressive work from Kimi」(令人印象深刻的工作)」OpenAI o1 主要发明者 Jerry Tworek 称其为「深度学习 2.0」的开端。

前 OpenAI 联创 Andrej Karpathy 说「看来我们还没把『Attention is All You Need』这句话按字面意思理解透。」但比起这些夸奖,技术论文背后的信号或许更值得关注:深度学习最基础的范式,正在发生变化。

十年没人动过的地基,被撬动了

过去两年,大模型的竞争主要在「上层建筑」展开:更好的注意力变体、更聪明的 MoE 路由策略、更精巧的对齐方法,大家都在 Transformer 这栋大楼的高层精装修。

唯独有一样东西,从 2015 年 ResNet 论文发表以来,几乎没人动过:残差连接(Residual Connections)。

要理解这项技术,得先知道大模型内部的基本结构。

现代大模型,其实都是由很多层神经网络叠加而成的,少则几十层,多则上百层。信息从底部输入,一层一层往上传递,每一层都对信息做一次加工,最终在顶部输出结果。

可以把它想象成一条流水线上的工人:原材料从第一道工序进来,每个工人对它加工一遍,再传给下一个,最终出来成品。问题是,流水线越长,越难训练。

假设第 50 道工序的工人犯了错,你想纠正他,就得把这个「纠错信号」一路往回传,经过 49 个工人才能传到第 1 个。传着传着,信号就消失了,底层的工人根本不知道自己哪里出了问题。

为了让这么深的网络能够训练起来,知名学者何恺明团队在 2015 年发表了一篇题为《Deep Residual Learning for Image Recognition》的论文,引入了一个关键设计,叫做残差连接(Residual Connections):

每一层在加工信息的同时,还会保留一条「直通道」,把原始输入原封不动地加到加工结果上,再往下传。这条直通道让梯度在反向传播时可以绕过中间的变换,一路流回底层,从根本上解决了深层网络难以训练的问题。

比较通俗的理解是,在每道工序旁边加一条「直通道」,把原材料原封不动地绕过这道工序,直接和加工结果合并,再往下传。这样纠错信号就可以沿着直通道一路畅通无阻地传回底层,不会消失。

这篇论文后来成为计算机视觉乃至整个深度学习领域引用次数最多的论文之一,残差连接也沿用至今,是几乎所有大模型的基石。

残差连接虽然好用,但它做信息聚合的方式非常粗暴:把所有前面层的输出,无差别地等权相加。

还是用流水线来比喻。到了第 51 道工序,这个工人手里拿到的,是前面 50 道工序所有产出物的等量混合,每道工序的产出各占一份,不多不少。他没有办法说「我想多要一点第 3 道工序的原料」,也没有办法说「第 20 道工序的东西对我没用,少给我一点」。

这带来了一个名为 PreNorm 稀释的实际问题 :随着网络越来越深,累积叠加的信息越来越多,每一层自己的贡献在庞大的总量里越来越微不足道。越靠后的层,想要让自己的声音被「听见」,就得输出越来越大的数值,否则就会被淹没。

结果就是,很多中间层其实没在认真干活。已有研究发现,大模型里相当一部分层直接删掉,效果几乎不变,这说明这些层的贡献实际上极为有限。

大多数团队早就知道这个问题,选择绕开它,转而在在现有架构上叠加更好的数据配比、更精巧的训练策略、更长的上下文窗口。这些工作当然有价值,但本质上是在一个已有的技术框架内做增量优化。

Kimi 选择的是一条更孤独也更难的路:回到最基础的结构,用第一性原理重新审视那些「理所当然」的设计。

今天凌晨,Kimi 创始人杨植麟在 GTC 2026 演讲中提到:「行业目前普遍使用的很多技术标准,本质上是八九年前的产物,正逐渐成为 Scaling 的瓶颈。」

杨植麟认为,要推动大模型智能上限的持续突破,必须对优化器、注意力机制及残差连接等底层基石进行重构。

一次优雅的「旋转」

Kimi 团队这篇论文的核心突破,其实也来自一个优雅的类比发现。

处理文字序列时,早期的循环神经网络(RNN)也有类似的额外问题:记性差。它读完一整段话之后,早期读到的内容会被后来的内容不断覆盖,等读到最后一个词,前几句说了什么已经模糊了。

后来 Transformer 用注意力机制解决了这个问题,相当于给模型配了一张「全文笔记」,处理每个词的时候,都可以翻回去查任意一个之前出现过的词,而且查哪里、查多少,由当前的内容自己决定。

研究人员发现,残差连接在深度方向上碰到的问题,和 RNN 在时间方向上碰到的问题,数学结构完全一样。换句话说,把 Transformer 想象成一张二维的网格:

横轴是序列方向,一句话里从左到右的每个词;纵轴是深度方向,从底层到顶层的每一层网络。传统的注意力机制是沿着横轴工作的,处理某个词时去查同一层里其他词的信息。

而 Attention Residuals 做的事情,就是把完全相同的机制转到纵轴上去,处理某一层时去查前面所有层的输出,决定要参考哪些层、参考多少。操作对象从「同一层里的不同词」变成了「同一个词在不同层里的状态」,机制本身一模一样,好比方向转了 90 度。

既然注意力机制解决了序列方向的问题,旋转一下搬到深度方向上,同样有效。

这里有一个更深层的理论发现值得一提。研究人员通过数学分析发现,过去十年里所有对残差连接的改进,包括标准残差、Highway 网络、mHC 等各种变体,在数学上其实都是同一件事的不同形式,都等价于某种「深度方向的线性注意力」。换句话说,大家一直在朝同一个方向努力,只是当时没意识到。

而 AttnRes 的核心思路在于,把注意力机制从「处理文字序列」的维度,移植到「跨越网络深度」的维度上。

具体做法是,给每一层配备一个小小的「查询向量」,就像给每道工序的工人配了一张需求单。工人在开工前,先拿着需求单去翻所有前面工序的产出,根据相关度算出一套取用比例,再按这个比例把需要的原料混合起来。

这样一来,每一层不再是被动接受所有前面层输出的等权叠加,而是主动、有选择性地决定要从哪些层提取多少信息,比例还会根据当前任务的内容动态变化。每层只新增一个向量和一个归一化操作,参数量的增加对整个模型来说几乎可以忽略不计。

为了保证训练初期稳定,这个查询向量必须初始化为全零,相当于让工人一开始什么偏好都没有、平等对待所有前序产出,等训练推进了再慢慢形成自己的判断。

值得一提的是,研究人员也测试过一个更激进的版本:让查询向量不再是固定参数,而是根据每一层当前的输入内容动态生成。这个版本效果确实更好,损失值进一步下降。

但最终没有采用,原因是推理时这种方式需要顺序读取内存,会增加延迟。这个取舍体现了贯穿整篇论文的工程哲学,理论上更优的方案,不一定是实用上应该选的方案。

大模型的新技术,最后都得过这一关

全量 AttnRes 在小规模实验中很好用,但一到大规模训练就遇到了麻烦。

它需要每一层都能访问所有前面层的输出。模型有一百多层,每层的输出都得保存在内存里,还要在不同计算节点之间来回传输,内存和通信开销随层数线性增长,在大模型上根本承受不起。

Kimi 团队的解法很实在:Block AttnRes。把网络所有层划分为若干个 Block(48B 模型中分了 8-9 个 Block,每个 Block 约 6 层),Block 内部沿用传统残差连接,Block 之间使用 softmax 注意力。打个比方——不必给每层楼都装电梯,在关键楼层之间架设快速通道就够了。

这样,需要保存和传输的数据量,从「所有层的数量」降低到「块的数量」,开销大幅缩小。实验发现,分成约 8 个块就能保留全量方法绝大部分的性能提升。

在具体的工程实现上,团队还做了两项优化。

训练端设计了跨阶段缓存机制,在流水线并行训练中每次切换阶段时只传输新增的那一小部分块数据,而不是每次都把全部历史重新传一遍,实测整体训练额外开销不超过 4%。

推理端设计了两阶段计算策略,把一个块内所有层的查询打包成一次矩阵运算统一处理,把重复的内存访问摊销掉,最终推理延迟增加不超过 2%。

那实验效果怎么样呢?研究人员测了五个不同规模的模型。

结果显示,Block AttnRes 在全部规模上均以更低的验证损失领先于基线,且改善幅度随规模增大而稳定保持。按拟合曲线推算,在相同的计算量下,Block AttnRes 相当于基线模型用 1.25 倍算力才能达到的效果。

在 48B 参数(3B 激活)规模的 Kimi Linear 架构实验中,Block AttnRes 展现了极强的泛化性:在全部 15 项主流评测基准中,其表现均持平或优于 PreNorm 基线模型。

例如,在博士级科学推理 GPQA-Diamond 上实现了 7.5% 的飞跃,在数学 Math (+3.6%) 及代码生成 HumanEval (+3.1%) 任务中也录得了显著增益 。

从训练过程来看,基线模型的各层输出数值随深度单调增大,印证了 PreNorm 稀释问题;而 AttnRes 的各层输出数值在块边界处得到重置,呈现周期性变化,各层梯度分布也更加均匀,说明更多的层真正参与到了有效的学习中。

此外,研究人员还可视化了训练后模型学到的注意力权重,发现了几个有趣的规律。

每一层仍然最依赖直接前一层的输出,局部性依然是主要的信息流通方式。但同时出现了一些跳跃性的连接,比如某些层会稳定地回溯到很早期的层,还有些层会特别关注最初的词嵌入输出。

另一个规律是,注意力层和 MLP 层的「回望」模式不同:注意力层倾向于关注更广泛的历史,MLP 层则更依赖近邻层。这与两者在模型中的功能分工是吻合的。

AttnRes还带来了一个对未来模型设计有参考价值的发现。研究人员在固定总计算量和参数量的前提下,枚举了 25 种不同的深度与宽度组合,对比基线模型和 AttnRes 各自偏好的最优架构。

结果发现,标准残差连接偏好「更宽、层数更少」的模型,而 AttnRes 的最优点偏向「更窄、层数更多」的模型。这说明 AttnRes 能够更有效地利用深度,让每增加一层都真正产生价值,而不是让深度变成一种边际效益递减的堆砌。

这个发现的含义不止于此。它意味着 AttnRes 不只是在原有架构上打了一个补丁,而是从根本上改变了网络深度的利用效率,也为未来设计大模型时如何分配深度与宽度的资源提供了新的参考依据。

杨植麟曾提到,十年前不是没有好想法,而是没有算力去验证。现在有了足够的资源和「缩放阶梯(Scaling Ladder)」,那些被搁置的问题才终于能被认真答一遍。

大佬点赞的背后,是一个时代在转弯

一个中国团队在最底层的架构创新上获得硅谷顶级人物的实质性认可,这件事本身十分罕见,他们认可的不只是论文成果本身,更在于Kimi 这篇论文指向了一个全新的方向:优化已经从 attention、MoE 这些上层模块,深入到了最底层的残差连接。

在 GTC 2026 演讲中,杨植麟还披露了一连串底层技术创新:MuonClip 优化器实现了相比 AdamW 2 倍的计算效率提升——要知道 Adam 优化器自 2014 年以来几乎未被撼动,属于深度学习的「不可触碰之物」;Kimi Linear(KDA 架构)在 128K 到百万级超长上下文下实现 5-6 倍的解码加速;Vision RL 的跨模态训练甚至让纯文本 benchmark 也提升了约 2.1%。

杨植麟把这些创新概括为三个维度的 Scaling 框架:Token 效率 × 长上下文 × Agent Swarms。

「当前的 Scaling 已经不再是单纯的资源堆砌,而是要在计算效率、长程记忆和自动化协作上同时寻找规模效应。」

一家公司,同时在优化器、残差连接、注意力架构、跨模态训练这些底层战场上全线推进,这种打法在行业里相当特立独行。

这也是为什么 Jerry Tworek 会说出「深度学习 2.0」这样的判断。当然不是说 Attention Residuals 这篇论文就能颠覆一切,更多是它代表了一种方法论的回归:不再满足于在已有框架上修修补补,去重新审视那些被所有人当作「已解决问题」的基础设施。

如果残差连接可以被重新设计,那么 Adam 优化器呢?层归一化呢?位置编码呢?深度学习的基础范式本身正在发生变化,这扇门一旦推开,后面的故事就不再是线性外推能预测的了。

Karpathy 那句「Attention is All You Need 还没被理解透」的感慨,大概也是这个意思。

过去几年,中国 AI 团队的贡献更多集中在工程落地和应用创新上,在底层架构理论方面的原创性突破相对稀缺。Kimi 这篇论文走的是一条完全不同的路线——一个统一的理论框架,一个优雅的工程实现,加上严谨的大规模实验验证。

当然,Kimi 这篇论文还有留下不少需要解决的问题。论文的大规模验证是在 48B 总参数(3B 激活参数)的模型上完成的,这个规模放在今天的第一梯队里并不算大。在真正的千亿乃至万亿参数模型上,1.25 倍的等效优势能否稳住,目前还是个问号。

同时论文展示的也只是预训练阶段的收益,经过指令微调、RLHF 等后训练步骤后,AttnRes 的优势是否会被稀释,缺乏数据。

但话说回来,这些局限恰恰也是想象力的来源。一个仅需约 100 行代码改动、增加不到 4% 训练开销的轻量修改,就能在 48B 规模上带来这样的提升。

当它被应用到更大规模的下一代模型上时,收益的天花板在哪里,谁也说不准。

Attention Residuals 抬高了 Token 效率的天花板,Kimi Linear 拓展了长上下文的边界,Agent Swarms 指向智能体协作的未来。当这三条技术线在下一代模型中汇合,呈现出的可能就是新的范式转变。

在 AI 这座通天塔的工程上,所有人都在争着往上添砖加瓦,而 Kimi 低头往路基重重地凿了一锹,恰好撬动了深度学习的地基。

作者:莫崇宇,李超凡

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。



from 爱范儿 https://ift.tt/jyM1LSA
via IFTTT

2026年3月17日星期二

拆开 MacBook Neo,我发现了未来苹果电脑的蛛丝马迹

对比换芯不换型的 MacBook Pro 和 MacBook Air,不管是设计、新品还是定位都完全新款的 MacBook Neo,自然成为了今年开年最受关注的 MacBook 新品。

如果说 MacBook Neo 圆润可爱,没有刘海的设计已经足够讨喜,那么当我们把它拆开之后,我们还能看到更多更有意思的变化。

MacBook Neo 是 14 年来最好拆修的 MacBook,并且其内部有不少新的设计和趋势,或许将会出现在未来更多的 Mac 产品上。

▲ 图源:iFixit

14 年来最好拆的 MacBook

首先,在「开盖」上,MacBook Neo 就已经大幅降低了拆机门槛,只要用对应的螺丝刀卸下笔记本 D 面的五角螺丝,就能徒手将后盖卸下,而以往的 MacBook 还需要用吸盘、翘板等工具打开卡扣。

总体来说,MacBook Neo 的内部结构与 MacBook Air 比较相似,都是无风扇的轴对称设计, 零部件从上到下依次摆放。

▲ 左:MacBook Air M2,右:MacBook Neo

有趣的是,除了大面积的电池和触控板,位于机身下方两侧的扬声器体积也异常巨大,不过比较轻,意味着腔体内部有不少剩余空间。

▲ 图源:iFixit

机械结构的触控板在设计上类似 Windows 阵营的同类设计,机制比压感要简单,在触控板的下方中央有一个按钮结构,两块铰链也确保了整块触控板都有着相对一致的扎实手感。

▲ 红圈部分为触控板的按钮结构,图源:iFIxit

以往的 MacBook,电池都会用胶水固定在机身内部,这导致用户更换起来相当困难,MacBook Neo 居然很罕见使用了 18 颗螺丝来固定电池。

iFixit 认为,MacBook Neo 是苹果为应对欧盟新规的一次试水:2027 年,所有在欧盟销售的便携式产品必须配备用户可更换的电池。今年年底,MacBook Pro 也将更换全新模具,届时很可能也换采用这种螺丝电池架的结构。

▲ 图源:iFixit

对于「做工」这件事,苹果的态度相当认真。MacBook Neo 的电池托架上的加强结构,以及数量远超常规的 18 颗螺丝,作用不仅仅只是为了固定电池,还能充当笔记本的结构部件,使得上方的电池不会太薄弱,于是实测中我们发现,MacBook Neo 的机身维持了以往的强韧。

同样让人惊喜的是,MacBook Neo 的屏幕、接口也采用了相对容易拆卸的设计,至于键盘,即使结构相对独立,没有被连接到电池上,但同样需要处理一些胶带和粘合剂,以及拧下 41 颗螺丝。

▲ 图源;iFixit

YouTube 博主 TECH RE-NU 将整台 MacBook Neo 所有部件拆下,总计花了 6 分钟左右的时间,比拆一台 iPhone 还快。iFixit 则给出了 6 分的可维修分数,同样是近年来 MacBook 的最高。

iPad 自行维修难度不低,官方维修报价高昂,这都是它在教育市场被冷落的重要原因,毕竟熊孩子们很容易就能导致设备故障,在 MacBook Neo 身上,苹果明显吸取了教训。

但 MacBook Neo 最有意思的部分,是这个比电池、扬声器,甚至天线还要小的主板。

▲ 图源:哔哩哔哩@冯主任手机维修

超小主板,解锁未来 Mac 新形态

MacBook Neo 的主板,形态上就像一把尺子,不仅要远小于 MacBook Air M3,甚至还要略小于 iPad 10——不过比起同款 A18 Pro 的 iPhone 16 Pro 双层主板,还是要大上不少的。

▲ 由上往下依次是 iPad 10、MacBook Neo、MacBook Air M2、iPhone 16 Pro 的主板,图源:iFixit

和以往的 MacBook 一样,存储芯片焊接在主板上,内存颗粒直接集成于芯片之中,都是用户无法自行更换的。不过国内 UP 主@冯主任手机维修 已经成功尝试更换一颗 1TB 的硬盘,可以正常开机使用。

拆开主板的贴纸,我们还能发现 MacBook Neo 确实使用了一颗联发科的 Wi-Fi 与网络芯片,而并非博通或者苹果自研。对于这么一款入门产品来说,苹果正在通过多元化供应商,来进一步控制成本。

▲ 图源:冯主任手机维修

有意思的是,对比 iPhone 16 Pro 和 MacBook Neo 的 A18 Pro 芯片,会发现两者在大小、尺寸都基本一致,Neo 上这颗芯片很可能是当时生产缺少一颗 GPU 核心的次品。

▲ 上:iPhone 16 Pro 主板;下:MacBook Neo 主板

比起这个主板设计,其实更有趣的讨论在于,苹果真的将电脑主板做得比平板还小,成本反而还比常规的产品更低,完全可以在此基础上,进一步开发更多全新 Mac 形态。

比如说,一个比 Mac mini 性能更小更弱,价格比 MacBook Neo 更低的 Mac mini Neo,是不是能成为更多人的第一台 Mac?

甚至可以更极简一点,将主板压缩到一个 U 盘的大小,连接电源插在显示器上启动完整 macOS——没错,就是当年英特尔想做的那种「计算棒」的形态,有桌面级算力的手机芯片 A18 Pro 完全能够实现。

▲ 图源:The Verge

当价格、性能、和便携性三者都不拖后腿,有趣又实用的产品形态,也会得以诞生。

MacBook Neo,是一次全新尝试

苹果在 MacBook Neo 中,埋进了不少小彩蛋。

比如说,覆盖在 MacBook Neo 新机上的保护纸,有一个「hello」的提手,并且字体的颜色还和机身匹配。

▲ 图源:X@Noah Cat

系统强调色,以及机身下方的脚垫,也都特意换成了和机身一样的颜色。

关于 Mac 的壁纸,其实一直以来都有个小巧思,乍一看看起来是抽象的花纹,但其实都隐藏了产品名信息,比如 MacBook Air 上的「AIR」,iMac 上的「iMac」。

但 MacBook Neo 那几张异彩纷呈的壁纸,隐藏的却是「MAC」,而不是「Neo」字样。

于是外界纷纷猜测,很可能 MacBook Neo 一开始就是叫无后缀的「MacBook」,但最终苹果决定将其命名为 Neo。

无论真相究竟如何,从这个全新的外部造型,到内部元器件的排布,以及苹果准备的小彩蛋,都足以可以看出,苹果在构建和物料上省了成本,却在产品设计上给足心思。

对于苹果来说,做一款低价产品,最好的方式是从现存的 MacBook Air 模具上动刀,砍掉一堆现有的配置,塞进去更便宜的 A18 Pro,而不是从头到尾设计一个全新的模具,还给内部的电池、键盘和屏幕结构采用全新设计。

而凭借强大的供应链管理,以及自研处理器和系统,苹果成为了地球上唯二有能力,做出像 MacBook Neo 这样的电脑——另外一家,是情况有点不同的华为。

多数人不知道的是,MacBook Neo 其实不是第一台搭载 A 芯片的 Mac 产品。2020 年 WWDC 上,苹果宣布 Mac 将向自研芯片和 ARM 架构过渡,一起推出的还有一个开发者样机,Mac mini 的外壳搭载了 A12Z 处理器。

某种程度上说,A12Z 的开发者样机上已经注定了 MacBook Neo 的诞生,苹果只是在等待一颗性能足够强大的 iPhone 芯片正式问世,直到两年前的 iPhone 16 Pro 的 A18 Pro 反超了 M1。

不过,我总觉得目前的 MacBook Neo 还略显青涩,下一代或许会在形态和配置上更加成熟。

目前 iPhone 17 Pro 上的 A19 Pro 处理器,集成 12GB 的运行内存,如果用在下一代 MacBook Neo 上,想必是更多人更乐于见到的配置。键盘背光这种重要配置的缺失,也很可能在下一代补上。

但鉴于芯片产能和产品定位,MacBook Neo 可能不会一年一更。如果你对 MacBook Neo 心动不已,现在的它,也已经足够优秀。

更重要的是,它为未来的 Mac 产品线,甚至说所有苹果产品,都打开了全新的可能性:电脑的体积、性能与形态,都还有进一步变化的空间。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。



from 爱范儿 https://ift.tt/RKynlbw
via IFTTT