Long-form

Agentic OS 时代来了:Gemini Spark 把 Agent 从『工具』推向『常驻服务』的范式转变

7 min read ·

💡 一句话总结:Gemini Spark 不是又一个 ChatGPT 替代品,而是 Google 在押注『未来 5 年最重要的软件形态是常驻 Agent 服务』。这条赌注成立的前提是用户愿意为『一个永远在背景里替你工作的 AI』付费。

5 月 19 日,Sundar Pichai 在 I/O 上的那句话

“Welcome to the agentic Gemini era.”

不是营销话术。Pichai 整场 keynote 用了 47 分钟讲一件事——Gemini 不再只是模型,而是一个常驻 Agent 服务

他演示 Spark 的场景非常具体:

整个过程中用户的 Mac/手机有 80% 时间是关闭状态——Spark 跑在 Google Cloud 的一个隔离 VM 里。

这件事不可能由 ChatGPT Agent 或 Claude 完成,因为它们的设计假设是『用户在线 + 一次性 session』。Spark 测试的是新假设——Agent 是常驻服务,不是工具

三个产品三种哲学

理解 Spark 必须先把 5 月之前的 Agent 产品归类:

路线一:Session-based Agent(ChatGPT Agent)

代表产品:ChatGPT Agent (DeepResearch 进化版)、Perplexity Spaces

适合场景:研究、一次性查询、内容生成

路线二:Desktop Assistant Agent(Claude Cowork)

代表产品:Claude Cowork、Anthropic Mythos(推迟发布)

适合场景:编程、文档处理、个人助理

路线三:Cloud Daemon Agent(Gemini Spark)

代表产品:Gemini Spark(仅此一家敢做到全云端 + 永远在线)

适合场景:长程任务、跨工具流程、proactive 监控

三种路线的取舍如表:

维度SessionDesktopCloud Daemon
用户在线要求必须必须不需要
任务时长分钟级小时级天级
数据隔离厂商沙箱本地机器厂商 VM
隐私模型低(数据上云)
工程难度
商业模式按 task 收费订阅订阅 + 计算

Spark 的架构剖析

I/O keynote 加 Google Cloud blog 透露的细节,可以拼出 Spark 的架构图:

┌──────────────────────────────────────────────┐
│           用户层 (iOS / Android / Web)        │
│  - 任务接收、通知 push、approval UI          │
└──────────────────────────────────────────────┘

                    ▼ gRPC over QUIC
┌──────────────────────────────────────────────┐
│            Spark Orchestrator                │
│  - 任务接入、调度、状态管理 (Spanner)         │
│  - 用户偏好学习                              │
│  - 通知路由                                  │
└──────────────────────────────────────────────┘

        ┌───────────┼───────────┐
        ▼           ▼           ▼
┌──────────┐ ┌──────────┐ ┌──────────┐
│ Task VM 1│ │ Task VM 2│ │ Task VM 3│  ephemeral
│Antigravity│ │Antigravity│ │Antigravity│  per-task
│Gemini 3.5│ │Gemini 3.5│ │Gemini 3.5│  isolated
└──────────┘ └──────────┘ └──────────┘
        │           │           │
        ▼           ▼           ▼
   Gmail/Drive   3rd-party     Tools
   (OAuth)      Web access     Native

四个关键设计:

1. 任务级 VM,不是 session 级

每个具体任务(『订机票』『写周报』)分配独立 VM。VM 在任务完成后销毁。step 之间通过 Orchestrator 持久化状态。

这是反直觉的设计——大多数 Agent 系统会让一个 session 复用一个 VM 来减少冷启动开销。Spark 选了相反方向,因为:

代价是 step 切换开销,但 Google 算过这笔账:单 task VM 损失 2-5 秒延迟,换来安全性提升和水平扩展能力,划算。

2. Antigravity 当 runtime

Antigravity 是 Google 在 11 月推出的 Agent 编程框架(2026-05 更新到 2.0),原本是给开发者构建 Agent 应用用的。Spark 把 Antigravity 作为内部 runtime——Spark 用户看不到 Antigravity,但每个任务底层用的就是它的 Browser/IDE/Terminal 三窗口模型。

这是 Google 经典的『dogfood』策略:内部用 Antigravity 跑了 6 个月,证明稳定后包装成 Spark。和 Kubernetes 当年从 Borg 演化出来的路径一样。

3. Gemini 3.5 base + agentic harness

Spark 的核心推理模型是 Gemini 3.5(不是 Pro,是介于 Flash 和 Pro 之间的中型模型),外面套一层 agentic harness——负责工具调用、规划、状态管理。

为什么不用更强的 Pro?因为长程任务的瓶颈不是单次推理质量,而是『tool use 准确性 + 状态管理』。Gemini 3.5 + 强 harness > Gemini 3.5 Pro + 弱 harness。这和 Anthropic 的 Claude Code 选择 Sonnet 而不是 Opus 是同一个思路。

4. 信任 / 安全护栏

四层护栏:

  1. OAuth scope 限制:Spark 接 Gmail/Drive 时申请最小 scope,比如只读邮件而不能删邮件
  2. Approval gate:发邮件、付款、删文件、修改 Calendar 重大事项前向用户 push 通知,必须 approve 才执行
  3. Action audit log:每个任务每个 action 记录到用户可访问的日志
  4. Ephemeral credentials:VM 拿到的 token 是 scoped + short-lived,VM 销毁 token 也作废

这套护栏在 I/O demo 里特意强调,因为 Spark 的『常驻 + 自主』属性让用户最担心的就是『它会不会替我做我没批准的事』。

proactive 通知怎么不变骚扰

Spark 设计组花了大量篇幅讲『通知设计』。这件事看起来软,其实是 Spark 能不能存活的关键。

Demo 里展示的一个细节:

Spark 一周跑了 213 个任务,发了 7 条通知。

7 条里:

剩下的 206 个任务全部静默完成。这个比例(7/213 ≈ 3%)是经过 A/B 测试调出来的——再低用户会怀疑 Spark 没在干活,再高变成骚扰。

通知模型:

priority = task_importance * decision_urgency / silence_penalty
notify_if priority > user_threshold AND not in_quiet_hours

用户可以为不同任务类别(出差/财务/工作/家庭)设不同 threshold。这是 Spark 跟 ChatGPT Agent 的明显差异——后者基本不主动通知,因为它没有『常驻』属性,也就没有通知需求。

Agentic OS 三层模型

把 Spark、Claude Cowork、ChatGPT Agent、Anthropic Mythos 放在一起,能看出一个浮现中的『Agentic OS 三层模型』:

┌─────────────────────────────────────────┐
│  L3: Agentic Service Layer (常驻服务)    │ ← Gemini Spark 在这里
│  - 24/7 运行                            │
│  - 跨设备同步                           │
│  - proactive notification               │
├─────────────────────────────────────────┤
│  L2: Agentic Assistant Layer (会话助手)  │ ← Claude Cowork, ChatGPT Agent
│  - 用户在线时活跃                       │
│  - 任务粒度                             │
│  - reactive only                        │
├─────────────────────────────────────────┤
│  L1: Agent Runtime Layer (基础设施)      │ ← Antigravity, LangGraph, Mistral Workflows
│  - 工具调用                             │
│  - 状态管理                             │
│  - 编排                                 │
└─────────────────────────────────────────┘

L1 是基础设施,开发者 visible;L2 是消费级会话产品,用户 visible;L3 是常驻服务,更像水电煤——你不太『使用』它,它就在那里运行。

Spark 是第一个公开发力 L3 的产品。Anthropic 的 Mythos 推迟(公开理由是『安全顾虑』,但很多业内推测是技术上还没把 24/7 模式做到位)。OpenAI 暂时没有 L3 路线产品,ChatGPT Agent 还在 L2。

谁能率先把 L3 跑通,可能拿到下一代 OS 的入口。这就是 Google 在 Spark 上 all-in 的根本逻辑。

路线分歧背后的判断差异

为什么 Anthropic 和 OpenAI 不跟进 L3?

Anthropic 的判断:Agent 的安全边界还没磨好,让 Agent 24/7 自主跑风险大于收益。Dario Amodei 在 5 月初的访谈里明确说过『我们不会发布我们自己都不会用的 Agent』。Mythos 推迟就是这个判断的体现。

OpenAI 的判断:Agent 应该跟着用户的注意力走,离开用户就停。Sam Altman 在播客里说『用户应该控制 Agent 什么时候在工作』。这是 L2 的哲学。

Google 的判断:消费级 AI 的下一波增长在『代你做事』,session-based 模型不够远。Pichai 在 I/O 把 Spark 摆中央是赌这个。

三家判断都有道理。一年后能验证:

值得在这个时间点开始观察的几个信号——

  1. Spark 的 DAU/留存数据(Google 公开还是内部数据泄露)
  2. Spark 的『误操作』率(多少用户撤回过 Spark 的 action)
  3. 是否出现 Spark-Claude 之类的『跨厂 Agent 协议』
  4. iOS/Android 是否引入原生 Agent 系统服务

这场赌局还在开局阶段。但选择已经下了,Google 的注比谁都大。

Frequently asked questions

Gemini Spark 和 ChatGPT Agent、Claude Cowork 的本质区别是什么?
三个产品代表三种 Agent 落地哲学。ChatGPT Agent 是『session-based』——用户开一个对话、Agent 在浏览器沙箱里跑一段、完成后关掉,模型是『随启随用』的工具。Claude Cowork 是『desktop assistant』——常驻在桌面但只在用户在线时工作,强调安全边界(什么文件能读、什么 API 能调)。Gemini Spark 是『cloud daemon』——在 Google Cloud 一个 ephemeral VM 里跑,设备关机它还在干活,强调『代你执行长任务』。三个路线对应不同假设:OpenAI 假设 Agent 是工具、Anthropic 假设 Agent 是助手、Google 假设 Agent 是服务。Google 这条路最激进,对 trust 和安全要求也最高。
为什么 Google 选 Antigravity 作为 Spark 的底座?
Antigravity 是 Google 11 月发布的 Agent 编程框架,2.0 在 5 月更新加了 long-running 任务支持和细粒度权限模型。Spark 直接用 Antigravity 当 runtime 有几个原因:(1) Antigravity 的 Browser/IDE/Terminal 三窗口模型适合 Agent 操作多种工具;(2) 它的 Subagent 机制让 Spark 能拆分长任务给子 Agent 并行做;(3) 它已经有完整的『approval gate』和『rollback』机制,给安全性兜底;(4) Google 内部已经用 Antigravity 跑了 6 个月,证明 24/7 运行稳定。这是『内部工具 → 对外产品』的典型路径,Spark 不是从零搭,是把 Antigravity 这台引擎装上消费级外壳。
ephemeral VM + 长程任务怎么协调?任务跑一半 VM 销毁了怎么办?
Spark 的执行模型是『任务级 VM』而不是『session 级 VM』——每个具体任务(如『订机票』『整理周报』)分配一个独立 VM,任务完成立刻销毁。长程任务通过 Spark 的『任务调度器』拆成多个 step,每个 step 在新 VM 里跑、step 之间状态写入持久化存储(Google 自己的 Spanner)。VM 寿命短意味着即使一个 VM 被攻破也只影响一个 step,且攻击者拿不到长期凭证(VM 里的 token 也是 scoped + short-lived)。这是 Google Cloud 老本行——Spark 本质是『把多年的容器/VM 管理经验用在 Agent 上』。代价是 step 切换有 2-5 秒开销,单个任务跑得比单 VM 慢,但安全和隔离性显著提升。
Spark 的 proactive notification 怎么不变成骚扰?
这是 Google 在 I/O 2026 主动回应的设计点。三条规则:(1) Spark 默认只在『任务有明确进展或需要决策时』发通知,不发『还在跑』『又前进了一步』这种状态更新;(2) 高风险动作(发邮件、付款、删文件)必须用户显式 approve,不能 Spark 自作主张;(3) 用户可以设『静音时间』和『通知优先级』,把『订机票成功』和『日历冲突警告』分别归入不同重要级别。Google 在 demo 里特意展示了 Spark 一周跑 200+ 任务、但只发了 7 条通知,因为绝大多数任务跑通后无需用户介入。这条产品哲学背后是『信任经济』——Agent 必须证明它不会让你的注意力贬值,用户才愿意让它常驻。
Agentic OS 真的会成为下一个 OS 形态吗?还是只是大厂叙事?
短期看是大厂叙事(Spark 必然锁 Gmail/Drive 生态、Claude 锁 Claude 生态),长期看有真趋势:Agent 长程化(分钟到天)、设备解耦(关机任务仍跑)、proactive 化(主动通知而非被动等指令)这三件事必然推动『常驻 Agent 服务层』出现,不管叫不叫 Agentic OS。值得跟踪三个信号:Spark/ChatGPT Agent 的日活留存、跨厂 Agent 互操作协议(类似 SMTP 之于邮件)、iOS/Android 是否原生加入 Agent 系统服务。任一发生,Agentic OS 就坐实。
// next.txt ›

Some outbound links in this post are affiliate links — see disclosure.