FengLika: 耳机上为何长出了摄像头？

2025年12月24日星期三

耳机上为何长出了摄像头？｜AI 器物志

编者按：

当 AI 开始寻找自己的形状，有些选择出人意料。

AI 在智能手机上生出了一颗独立按键，似乎让智能手机找回了久违的进化动力。眼镜凭借着视觉和听觉的天然入口，隐隐有了下一代个人终端的影子。一些小而专注的设备，在某些瞬间似乎比 All in one 的设备更为可靠。与此同时，那些寄望一次性替代手机的激进尝试，却遭遇了现实的冷遇。

技术的落地，从来不只是功能的堆叠，更关乎人的习惯、场景的契合，以及对「好用」的重新定义。

爱范儿推出「AI 器物志」栏目，想和你一起观察：AI 如何改变硬件设计，如何重塑人机交互，以及更重要的——AI 将以怎样的形态进入我们的日常生活？

临近年底，此前名不见经传的创业公司光帆科技，发布了一款看起来有些「反直觉」的产品：Lightwear AI 全感智能套装（以下简称 Lightwear）

笼统地讲，这玩意是智能耳机+手表的套装。但具体细节更加有趣：

首先，每只耳机上，各装了一枚有 200 万像素的摄像头，单耳重量 11g，因为要确保视觉功能的续航够用；智能手表是显示终端，也是额外的交互输入工具；但这个套装的智能中枢不一定是手机，而是内置了 eSIM 能力和 GPS 芯片的耳机盒，智能手表都可以直接与之相连接——

这意味着，Lightwear 能够彻底脱离手机，独立存在、工作。

这种独特的设计理念实践，在行业前所未有。裸露的摄像头挂在耳机上，放在耳边，比带摄像头的智能眼镜还要挑战普遍审美，更是撞上了隐私的敏感神经。

但如果我们将视野放到整个科技和消费电子行业在未来 5-10 年即将去往的方向，你会发现 OpenAI、Meta、阿里夸克、理想、苹果，在类似的产品定义上是有共识的——而光帆科技抢在这些巨头和大公司之前，把这个共识给首先产品化了。

即是：AI 需要真的理解世界，光靠麦克风已经不够了。

而这个共识的另一面是：模型的多模态能力，正在倒逼产品设计去满足模型的需求。

也即，无论是光帆这种带摄像头的耳机，还是接受度相对更高但仍然争议不断的智能眼镜——这些产品形态都是模型能力倒逼出来的结果，与审美无关。

一家脱胎于小米的 AI 硬件公司

光帆科技成立于 2024 年 10 月，创始人董红光是小米集团初创团队成员、89 号员工。在小米任职的 14 年间，他先后以核心身份参与 MIUI、快应用、自研手机、汽车 OS 等高级别项目的研发工作。

按照该公司的官方介绍，创始团队属于典型的「高P团队」，除了小米之外还汇集来自华为、字节、阿里、腾讯等企业的资深专家，具有深厚的软硬件、AI 开发能力。

更值得注意的是资本累积的速度。光帆科技在三个月内迅速完成两轮累计 1.3 亿元人民币融资，投后估值超 5 亿元。投资方包括柏睿资本（宁德时代副董事长李平创办）、韶音、同歌创投（歌尔升学旗下）、清辉投资、鼎晖投资、阿尔法公社、英诺天使等知名基金与机构。

这其中的产业资本颇为瞩目，多为音频和高新制造巨头：韶音在骨传导及开放式耳机市场占据 50% 以上份额，歌尔则是可穿戴设备的 ODM 龙头，清辉投资背后是兆易创新这一存储头部企业，宁德时代更无需多提。

这些产业资本的加入，既为这家公司和这个尚未成熟的形态提供试错空间，更是彰显了产业巨头们提前布局的动作。

摄像头的存在，是让 AI 能看见你看见的

过去 20 年的时间里，人机交互的主线其实清晰无比：打字、触屏、拍照、上传，然后等待设备反馈。虽然设备本身所内置的软件与服务在今天能做的非常多，能力很强，但交互的逻辑是没有变的：你控制设备，设备给你反馈。

而最近 3-5 年里基于大语言模型的 AI 新浪潮，彻底改变了这个逻辑。由于模型具备处理多模态信息的能力，能够理解图像、声音、文字之间的关系，且具备了更加接近「人类直觉」的能力。因此，由大模型驱动的 AI 产品，能够更加积极主动地对用户以及用户所处的数字世界——甚至真实世界——发起交互。

从硅谷的 OpenAI、苹果、Meta，到国内的各家大厂，搭载摄像头的 AI 设备已经成为一个共识方向。这背后的原因并不复杂：语音能捕捉到的是「你所描述的世界」，而加上摄像头，AI 才能真正理解「你身处何处」「面前何物」「世界正在发生什么」

第三方设计的 OpenAI 耳机遐想图

问题来了：难道每次 AI 需要理解的时候，我都要掏出手机来吗？摄像头没有更好的安身之处吗？

只剩下两个现实选择：带在头上，或者贴在身体上。

在 2025 的年底，这两者我们早已见过了无数尝试者、失败者、领先者与落后者。

在贴身设备上，Humane AI Pin 和 Rabbit R1 一度被硅谷奉为「the next iPhone」，然而却因为到得太早，且效果太糟而早早收场，但在这个领域仍然不断有人推陈出新，比如近期出口转内销的 Looki。

人们又想起了十多年前曾经流行的 Google Glass 和 VR 头显，将两者合在一起，造出了新一代的智能眼镜。目前，这个品类被硅谷奉为圭臬，且由于能够和日常佩戴的眼镜有机结合，接受度相对更高。但仍然有人觉得，智能眼镜并不理想，不会成为手机的真正替代品。

紧接着，耳机来了。在手机、穿戴设备、智能眼镜中间，耳机卡在了一个微妙的位置：它已经被社会默许可以长期佩戴，同时又天然接近「视」与「听」这两个核心感官的位置。这让它成为了 AI 感知计算能力的合理载体，下一个 AI 硬件的试错空间。

耳机离眼睛和耳朵更近，且消费者心智教育完成，佩戴接受度广泛。更重要的是，相比眼镜的显眼和沉重（最少也要 40 多克），Lightwear 耳机不仅轻（Lightwear 单耳 11g），虽然加了摄像头让它看起来有些「异物感」，但至少在社交场合的存在感比眼镜更低。

从用户优先，到模型优先的产品逻辑

单纯依靠语音识别的 AI 耳机，市场相对饱和，已经明显进入瓶颈阶段了。根据爱范儿的观察，当前市场上大部分所谓的 AI 耳机，定价都在千元左右或以下，主要围绕 AI 翻译场景展开，功能趋于同质化。

而光帆想的、在 Lightwear 上做的，跟那些普通耳机都非常不一样。普通耳机像是被锁死在「听觉」的范畴内，但光帆多想了一步，它想的是一个更深层的问题：AI 需要更多的上下文，我用耳机能不能获得？

这个问题的答案，其实藏在 AI 时代交互方式的根本转变中。

从电脑到手机，目前为止都是 GUI（图形用户界面）的时代，屏幕、按钮、图标缺一不可，因为我们精准控制每一个操作对象。

但生成式 AI 改变了这个逻辑：交互可以完全依靠自然语言，你给系统的是模糊描述的指令，系统反馈的是并不精确但可用的结果，高频沟通和反馈变得更重要，精准度反而没那么关键——也就是 NUI（自然用户界面）。说和听，反而成了更自然的方式。图形界面变得非必要了。

这样的新交互范式，落在耳机上是很合理的：耳机可以做到 10g 甚至更低，佩戴无负担，续航长，可以全天候在线。相当于人体有了一个智能外挂，一直在线，随时待命。

但这个智能外挂还缺一样东西：和人类一样，接收足够多的信息。而在所有感知维度中，视觉是信息最丰富、最重要的一种。

于是结论很清晰——要给耳机加上一个摄像头。

在发布会现场，光帆展示了 Lightwear 感知能力结合的实际应用。这些场景覆盖了日常生活与工作中的高频需求：

O2O 场景：用户唤醒设备，问「帮我看下这家怎么样」，耳机通过摄像头识别面前的餐馆店面招牌，结合 GPS 定位确认位置，结合 AI 产品积累的记忆，进行个性化口味比对、附近更优餐厅推荐，进行主动取号、智能提醒到号等。
差旅：收到出差短信/邮件，Lightwear 可以主动为你安排日程，发现日程冲突并解决冲突、智能回复短信/邮件，搜索并下单机酒，完成最后一公里打车环节
购物：用户看到感兴趣的商品，只需提问，耳机即可直接视觉识别，在线比价，加购甚至直接下单。
日常提醒：根据日程安排，主动唤醒并提醒用户（比如重要纪念日）

整个过程中，用户不需要打开手机，不需要进入 App 操作，甚至不需要明确说出自己想要的什么—— AI 将视觉、地理信息结合，自己就补全了需要的上下文。

这类设备天生适合以下几种场景：你说不清楚的东西（「就这个」「不是，是旁边内个」）；不值得专门掏出手机拍一张，或者掏出手机很打断「心流」的场景（走路、逛展、炒菜等等）等等。

200万像素够用吗？够了，因为照片是给模型看的

如果以传统消电产品的眼光去审视 Lightwear，槽点确实很多：摄像头外露，隐私压力大；比一般耳机重，全天候佩戴未必属实；社交压力；很容易联想到 Google Glass、AI Pin 等失败案例，等等……

然而这纯粹是 missing the point. 给耳机加上摄像头，其实服务的是 AI 的理解效率。摄像头，根本不是给人用的。这个设计的出发点是服务模型的。模型需要更连续、更及时的视觉流，更真实的 FPV。

这里有个关键设计值得注意：Lightwear 的摄像头采用了「阅后即焚」的影像处理机制。

在 Lightwear 系统设计中，你无法以「拍照」为目的去命令耳机拍照片。这是因为摄像完全服务 AI，用于即时性的视觉上下文理解。照片文件不会在本地或云端保存，可以理解为「用后即焚」。这个设计背后有几层考虑：

显然，这个设计的首要考虑是保护隐私。不保存影像文件，就能从根本上杜绝隐私泄露，用户无需担心自己的生活细节被拍下，甚至在意外情况中被「偷拍」保存。

以及，不保存照片也能够显著优化成本：既然是给美胸看的，画质就完全不需要达到人眼标准。200 万像素对于物体识别、场景理解早已足够，而且像素越低，处理速度越快、功耗越低，存储和流量成本越小。目前设备做到 9 – 15 小时续航，足以实现全天候伴随。

当然，关于这个产品「模型优先、用户靠后」的论断，只是我的主观认为。其他人包括光帆可能和我都有不一样的看法。在发布会上董红光强调，AI 硬件应该「让技术退后一步，让人站在中心」，但实际产品所呈现出来的，至少在我的逻辑里，恰恰是技术先行。

但这年头，又有哪个 AI 硬件能免除这样的矛盾感呢？

在这里我们可以大胆地抛出一个论断：当下和未来一段时间内所有的 AI 硬件，都应该是以模型优先，以满足模型需求为第一出发点的产品定义。

因为我们远未探到 AI 模型与电子硬件产品结合的的能力边界在哪里。所以毫无疑问，我们未来还会看到更多像 Lightwear 这样，你甚至可以说有点像「缝合怪」一样的东西。

只有做更多的尝试，尽管其中大部分是试错，这些产品公司才能真正摸到边界在哪里，才能带来更加优秀的体验。

说在最后

当然，Lightwear 还是一个正经要发售的产品。这个套装的价格并不便宜，在这里我无意给 Lightwear 过高的评价，免得大家形成错觉。

在发布会现场我们上手的是「工程样机」，包括日程管理、消息提醒转述、差旅预定、叫车、餐厅点评信息和排号、视觉搜索/商品加购物车等高频刚需场景，体验起来均流畅运行。

但由于耳机直连耳机盒 (eSIM 4G 网络）加之现场网络一般，对话的时延还是比较明显，距离《Her》电影里那种理想化的对话节奏还是有距离的。现场工程师透露，工程样机的体验距离明年 Q1 发售的市售版，大约实现了 7-8 成水平。

但实话来说，体验过 Lightwear 后，我觉得它已经足够令我满意。我觉得，OpenAI 和苹果筹划中的，可能会在 26 或 27 年正式发售的「带摄像头的 AI 耳机」产品，体验不会比光帆的方案好出太多——

这和产品力、工程能力无关，纯粹在于这个产品形态目前的想象空间也就这样了。这些功能谁都能做，像光帆这样的，脱胎于小米的中国团队，应该只会做的更好。

如果问我怎么看这种形态的 AI 硬件，我的回答是：高度合理、不够优雅、大概率不是最终形态。

高度合理：因为它准确的解决了多模态 Agent 与硬件结合时的上下文痛点。AI 如果需要理解真实世界，不能没有视觉感知；
不够优雅：产品机身大于 AirPods，会带来一定的社会压力。对于普通用户来说，甚至可能成为购买后吃灰的理由；
不是最终形态：接上一条，目前的 Lightwear 更像是初步和过渡性的产物。我们可以想象成熟产品应有的样子：摄像头进一步缩小到难以察觉，从而让整个产品更像 AirPods——被社会广泛接受的产品形态。这方面我们无需担心，参考智能眼镜和录音卡片的经验，一开始都相当笨重，后面随着市场火热、供应链进步，方案也会日趋成熟。

以及目前 Lightwear 搭载的是一个自研的 AI 操作系统 Lightware OS，它背后能接多类大语言模型/多模态模型、MCP、API，具备 Phone/Browser Use 能力等等——所以，就算未来摄像头耳机这个形态被证明不可行，光帆的 OS 也可以快速迁移到眼镜或其它的载体上。

从 AI AirPods，到 Meta 据传几年前就有立项的 Camerabuds 耳机，再到 OpenAI 招来前苹果设计传奇 Jony Ive 做的神秘新硬件——这些产品的传闻都不谋而合地提及了搭载摄像头的耳机方案。这绝对不是简单的巧合，更像是「英雄所见略同」。

而在这样一个非常早期但已强敌环伺的市场，光帆率先发布了一个高度可用的产品，这本身就是一件值得兴奋的事情。

从技术演进的必经之路来看，在一个划时代的革命性产品书写全新定义之前，各种新东西、「怪东西」此起彼伏是必然的。当 AI 开始主动理解世界时，设备形态一定会变得有些奇怪——任何事物在早期阶段都是这样，别忘了小汽车在最一开始也被当成马戏一样看。

当然，从用户接受的角度，社会规范、隐私边界、审美偏好等等软性因素的转变，往往比技术进步要慢得多。真正的临界点在哪里，现在还不太看得清。

但可以确定的是，我们已经经过了一个朦胧的新起点。未来会有越来越多被 AI 彻底改变设计、重塑人机交互的新形态产品。透过《AI 器物志》这个专题，爱范儿将持续观察它们如何进入、改变我们的生活。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

from 爱范儿 https://ift.tt/nzhGO1s
via IFTTT

没有评论:

发表评论

订阅：博文评论 (Atom)