Long-form

端侧 AI 的崛起:当 Chrome 静默安装 4GB 模型,On-Device LLM 意味着什么

6 min read ·

事件回顾

2026 年 5 月 5 日,一篇标题为 “Google Chrome silently installs a 4 GB AI model on your device without consent” 的帖子登上了 Hacker News 首页,收获了 1700+ 评论

事实如下:

这不是一个安全漏洞——Google 在 Chrome 的更新日志中提到了这个功能。但”更新日志”和”明确征求同意”是两回事。

这件事引发的讨论远超技术本身——它触及了端侧 AI 的核心命题:谁有权决定在你的设备上运行 AI?

端侧 AI 的三条路线

路线 1: Chrome Web AI(浏览器内置)

Google 的策略是把 AI 能力内置到浏览器中,通过标准化的 Web API 暴露给网页开发者。

// Chrome 的 window.ai API(实验性)
const session = await window.ai.languageModel.create({
  systemPrompt: "你是一个写作助手",
});

const result = await session.prompt("帮我润色这段文字:...");
console.log(result); // 本地推理,不需要网络

优势

劣势

路线 2: Apple Intelligence(系统集成)

Apple 的策略是把 AI 深度集成到操作系统中:

与 Chrome 方案的关键区别

Chrome AIApple Intelligence
集成层级浏览器操作系统
数据访问仅网页内容通讯录、日历、邮件、照片
模型能力2B(Gemini Nano)3B 端侧 + 云端大模型
硬件利用受限(沙箱)充分(Neural Engine)
隐私模型浏览器沙箱设备级加密 + PCC
开放性任何网站可用仅 Apple 生态

路线 3: NPU 硬件加速

芯片厂商在硬件层面为端侧 AI 铺路:

芯片NPU 算力适用设备
Apple M4 Neural Engine38 TOPSMac, iPad
Apple A18 Pro Neural Engine35 TOPSiPhone
Qualcomm Snapdragon X Elite45 TOPSWindows PC
Intel Core Ultra 200V48 TOPSWindows PC
MediaTek Dimensity 940046 TOPSAndroid 旗舰

TOPS(Tera Operations Per Second) 是 NPU 的核心指标。45 TOPS 足以让 3-7B 的量化模型实时运行。

但硬件有了,软件生态还没跟上

隐私的灰色地带

端侧 AI 常被宣传为”隐私友好”,但现实更复杂:

端侧不等于隐私安全

  1. 模型本身可能泄露训练数据:端侧模型仍然可能通过特定 prompt 被诱导输出训练数据中的个人信息
  2. 推理结果可能被回传:Chrome 的 Gemini Nano 虽然在本地推理,但 Google 可能收集使用统计数据(哪些功能被调用、频率等)
  3. 端侧 AI 扩大了数据访问范围:Apple Intelligence 能读取你的邮件和通讯录——即使不上传,这也意味着一个 AI 模型可以访问你所有的私密数据

Chrome 事件的核心问题

不是”端侧 AI 好不好”的问题,而是知情同意的问题:

对比 Apple Intelligence:首次使用时会弹出明确的权限请求,用户可以逐项选择哪些 App 数据允许 AI 访问。

技术挑战

挑战 1: 模型能力天花板

端侧模型受限于设备算力和内存:

设备可运行的最大模型等效智力水平
iPhone 16 (8GB)3B Q4GPT-3.5 的 60%
MacBook Air M4 (16GB)8B Q4GPT-3.5 级别
MacBook Pro M4 (36GB)14B Q4接近 GPT-4 的 70%
Gaming PC (RTX 4090)70B Q4接近 GPT-4

手机上能跑的 3B 模型,能力大约是 GPT-3.5 的 60%。对于简单任务(纠错、摘要、分类)够用,对于复杂推理不够。

挑战 2: 模型更新

云端 AI 可以随时更新模型版本。端侧 AI 的更新面临:

挑战 3: 能耗

LLM 推理是计算密集的操作:

Llama 3 8B Q4 在 M4 Pro 上:
- 推理速度: 45 tokens/s
- 功耗: ~15W(仅 Neural Engine)
- 生成 500 tokens 需要约 11 秒
- 消耗约 0.046 Wh 电量

对于桌面设备这不是问题,但对于手机:

端云协同:务实的架构

纯端侧和纯云端都不是最优解。2026 年的最佳架构是端云协同

用户输入

[复杂度评估] — 端侧小模型快速判断任务难度

简单任务 → [端侧模型] → 返回结果(零延迟、零成本、完全隐私)

复杂任务 → [云端大模型] → 返回结果(高质量、需网络、有成本)

超敏感任务 → [端侧模型 + 降级策略] → 质量不够就告知用户

分流标准

任务类型端侧处理云端处理
拼写纠错
短文本摘要 (<500字)
情感分类
表单自动填写
复杂代码生成
长文档分析
多步推理
含敏感数据的简单任务❌(隐私优先)

对开发者的影响

1. Web AI API 标准化

Chrome 的 window.ai API 正在走 W3C 标准化流程。一旦标准化:

2. 新的应用范式

端侧 AI 催生了”AI-First Offline App”的新范式:

3. 隐私作为产品特性

当云端 AI 的隐私担忧越来越强烈时,“100% 端侧处理”可以成为产品的核心卖点:

"你的数据从不离开你的设备。
所有 AI 分析都在本地完成。
我们无法看到你的数据——因为我们根本收不到。"

我的判断

端侧 AI 不是云端 AI 的替代——它是补充。

短期(2026-2027):端侧 AI 处理简单、高频、隐私敏感的任务;云端 AI 处理复杂、低频、能力要求高的任务。两者通过端云协同架构配合。

中期(2028-2029):NPU 算力翻倍(100+ TOPS),端侧模型能力接近当前的 GPT-4 水平,更多任务可以纯端侧完成。

长期(2030+):端侧 AI 成为操作系统的基础能力,就像今天的 GPU 加速一样——你不会意识到它的存在,但所有应用都在用它。

Chrome 静默安装 4GB 模型的争议会过去,但它标志着一个转折点:AI 正在从云端走向你的设备。这个趋势不可逆转——问题只是以什么速度、以什么方式到来。

Frequently asked questions

Chrome 静默安装的 AI 模型是什么?
Google 在 Chrome 浏览器中集成了 Gemini Nano——一个约 3.8GB 的小型 LLM,用于驱动浏览器内置的 AI 功能(如智能摘要、自动翻译、表单辅助填写)。争议在于 Chrome 在没有明确弹窗征求同意的情况下自动下载了这个模型,占用了用户的磁盘空间和下载带宽。用户需要手动在 chrome://flags 中关闭。
端侧 AI 和云端 AI 的核心权衡是什么?
核心权衡是'能力'vs'隐私'。云端 AI(如 Claude API)可以运行千亿参数的大模型,能力上限很高,但数据必须发送到服务器;端侧 AI 受限于设备算力(通常只能跑 2-7B 的小模型),能力有限,但数据完全不离开设备。2026 年的趋势是混合架构——简单任务在端侧处理,复杂任务上云。
Apple Intelligence 和 Chrome AI 的路线有什么区别?
Apple 走的是'系统级深度集成'路线——AI 模型嵌入 iOS/macOS 操作系统,可以访问通讯录、日历、邮件等系统数据,提供跨 App 的智能体验。Chrome 走的是'浏览器沙箱'路线——模型只能在浏览器内运行,通过 Web API 暴露能力给网页应用。Apple 的方式更强大但封闭(只限 Apple 设备),Chrome 更开放但受限于浏览器沙箱。
NPU 对端侧 AI 有多重要?
NPU(Neural Processing Unit)是端侧 AI 的硬件基础——它比 CPU 快 10-50 倍、比 GPU 功耗低 5-10 倍(在 AI 推理任务上)。2026 年主流芯片都集成了 NPU:Apple M4 的 Neural Engine(38 TOPS)、Qualcomm Snapdragon X 的 Hexagon NPU(45 TOPS)、Intel Core Ultra 的 NPU(13 TOPS)。但 NPU 的软件生态还不成熟——大多数 AI 框架还不能自动利用 NPU。
端侧 AI 对开发者意味着什么?
三个变化:1) Web 开发者可以通过 Chrome 的 AI API(window.ai)在网页中调用本地 LLM,不需要后端服务器;2) 移动开发者可以利用 Core ML / TensorFlow Lite 在 App 中集成离线 AI 功能;3) 隐私敏感型应用(医疗、金融)有了不发送数据到云端的可行方案。但端侧模型能力有限,开发者需要学会设计'端云协同'的架构。