▸~/posts

215 essays · sorted by date desc

215 Mythos 5 的双重身份：Anthropic Project Glasswing 与 AI 能力管控的新范式 long-form 06/29 214 BenchPress 速评：5 个探针基准预测 LLM 完整性能矩阵，排名准确率 92.1% tools 06/29 213 Claude Fable 5 API 生产集成实战：refusal 处理、回退机制与迁移指南 workshop 06/29 212 DanceOPD 论文速读：在线策略生成场蒸馏统一图像局部与全局编辑 paper 06/29 211 AI 重写网络安全规则：五眼联盟警告、OpenAI Daybreak 与前沿模型管控的三角博弈 long-form 06/29 210 Cursor Composer 2 实战：用 Kimi K2.5 MoE 驱动的 Agentic 编程模型 workshop 06/28 209 LLM 可观测性平台 2026 横评：Future AGI vs Arize vs Langfuse vs Confident AI tools 06/28 208 Gemini 3.5 Pro 跳票背后：2026 年大模型竞争的真实战场已经转移 long-form 06/28 207 AI 周报 2026-W26：Composer 2 自研编程模型 / Gemini 3.5 Pro 延期 / Qwen-AgentWorld / Agent 记忆系统评估 weekly 06/28 206 Qwen-AgentWorld 论文速读：用语言模型预测环境动态，统一训练通用 Agent paper 06/28 205 Coding Agent 的下一个瓶颈：为什么验证比生成更难了 paper 06/27 204 DeerFlow 2.0 实战：ByteDance 开源 Super Agent Harness 本地部署与自定义 workshop 06/27 203 GPT-5.6 Sol/Terra/Luna 选型指南：三档定价、能力差距与 API 迁移 tools 06/27 202 Jalapeño、GPT-5.6、联邦监管：OpenAI 正在下一盘更大的棋 long-form 06/27 201 iLLaDA 精读：扩散语言模型首次与自回归 7B 模型正面对决 paper 06/27 200 AXIOM：让 LLM 做规范化器而非求解器，CAS 验证数学推理的可信架构 paper 06/26 199 GLM-5.2：开源旗舰大模型的战略拐点，以六分之一成本击败 GPT-5.5 long-form 06/26 198 本地 VLM 横评 2026-06：Qwen3-VL 8B 还是 Qwen3.6 27B，谁是最优解？ tools 06/26 197 Docker MicroVM 沙箱：给 AI Agent 代码执行加上安全护栏 workshop 06/26 196 SAFARI：用主动调查扩展多智能体系统的长视野故障归因 paper 06/26 195 FAPO 评测：全自动多步骤 LLM 流水线提示优化，告别手写 Prompt 调参 tools 06/25 194 Moebius 论文速读：0.2B 参数达到 10B 级图像修复效果，知识蒸馏挑战 Scaling Law paper 06/25 193 Rapid-MLX 实战：Apple Silicon 本地 LLM 推理速度提升 4 倍，完整工具调用支持 workshop 06/25 192 GitHub AI PR 泛滥危机：当开源维护者成为 AI 生成垃圾代码的第一道防线 long-form 06/25 191 LedgerAgent 论文速读：结构化状态让工具调用 Agent 严格遵守业务策略 paper 06/25 190 2026 AI Agent 框架横评：LangGraph vs CrewAI vs Claude Agent SDK vs OpenAI Agents SDK tools 06/12 189 DiffusionGemma 实战：文本扩散模型本地部署，单用户推理速度提升 4 倍 workshop 06/12 188 MCP 2026-07-28 规范重构全解析：从有状态握手到无状态协议的范式转移 long-form 06/12 187 Miasma 蠕虫深度剖析：当供应链攻击开始瞄准 AI 编码 Agent long-form 06/12 186 Speculative Speculative Decoding：让草稿模型永不等待的异步推理加速 paper 06/12 185 Claude Managed Agents 实战：10 分钟部署你的第一个生产级 AI Agent workshop 06/11 184 2026 年中 AI 编码 Agent 三国杀：Claude Code vs Codex vs Gemini Code Assist long-form 06/11 183 GPT-5.5 技术解析：OpenAI 前沿模型的能力跃迁与工程实践 paper 06/11 182 Scaling Test-Time Compute for LLM Agents：当推理时计算遇上 Agent paper 06/11 181 Claude Opus 4.8 Dynamic Workflows 深度评测：千级子代理编排新范式 tools 06/11 180 Apple Foundation Models 实战：用 Swift 调用端侧大模型 workshop 06/10 179 Claude Dreaming 深度剖析：当 AI Agent 学会在空闲时进化 long-form 06/10 178 Google I/O 2026 Agentic Web 横评：WebMCP、Modern Web Guidance 与信息代理 tools 06/10 177 当 AI 构建自身：Anthropic 递归自我改进路径深度解读 paper 06/10 176 PaddleOCR-VL 1.5 实战：0.9B 参数撬动多模态文档解析 workshop 06/10 175 论文速读：AIDev 用 93 万个 PR，拍下了 AI 队友重写 GitHub 的全景 paper 06/08 174 深度长文：长程 Agent 的记忆，正在从「检索过去」转向「管理状态」 long-form 06/08 173 实战工坊：用 Mem0 给 AI Agent 装上「记得住」的长期记忆 workshop 06/08 172 论文速读：SkillGuard 给 Agent Skills 套上权限沙箱 paper 06/08 171 工具速评：6 款 AI Agent 可观测性平台横评（2026 年 6 月） tools 06/08 170 AI 周报 2026-06-01 ~ 06-07：端侧 Agent 上位、Context Rot 给百万 token 降温、SDD 工具爆发 weekly 06/07 169 深度长文：Context Rot——百万 token 上下文为什么会「越喂越笨」 long-form 06/07 168 论文速读：DualTune 把工具调用拆成两半，让端侧小模型也会用工具 paper 06/07 167 实战工坊：用 RAG-Anything 给 RAG 装上「看图读表」的眼睛 workshop 06/07 166 工具速评：四款规格驱动开发工具横评——告别 Vibe Coding tools 06/07 165 会推理的蠕虫：自带开源模型的自主恶意软件，撕开了哪道防线 long-form 06/06 164 实战工坊：把 Gemma 4 12B 多模态模型塞进 16GB 笔记本 workshop 06/06 163 实战工坊：双 3090 跑 Qwen3.6-27B，llama.cpp 与 vLLM 全流程调优 workshop 06/06 162 工具速评：Microsoft Build 2026 一口气端出 Scout、MAI-Thinking-1 与 Solara tools 06/06 161 论文速读：SIRI 让 Agent 把技能「内化」进权重，而非外挂检索 paper 06/06 160 论文速读：RL 推理为什么扩不动——熵崩溃机制与 Clip-Cov/KL-Cov paper 06/05 159 论文速读：MALT——让三个 LLM 像团队一样被「联合训练」去推理 paper 06/05 158 深度长文：Mistral 的全栈豪赌——从模型实验室到工业 AI 伙伴 long-form 06/05 157 工具速评：Nemotron 3 Ultra——NVIDIA 用 LatentMoE 押注「又快又开」的编程模型 tools 06/05 156 实战工坊：用 vLLM 压扁 KV Cache——FP8、TurboQuant 与华为 KVarN workshop 06/05 155 论文速读：你的 Agent 也在变老——长期部署的退化与 AgingBench paper 06/04 154 论文速读：AI 研究 Agent 正在让科学探索变窄 paper 06/04 153 2026 LLM 推理引擎横评：vLLM、SGLang、TensorRT-LLM 到底选谁 tools 06/04 152 Token 越来越便宜，账单却越来越贵：AI 推理经济学的拐点 long-form 06/04 151 Mellum2 实战：把 JetBrains 的 12B MoE 代码模型跑在自己机器上 workshop 06/04 150 AgentOps 论文速读：给 Agent 系统建一套「监控—定位—修复」运维体系 paper 06/03 149 MiniMax M3 实战：1M 上下文 + 稀疏注意力的开源编码模型怎么用 workshop 06/03 148 2026 年 6 月开源权重大模型横评：Nemotron 3 Ultra、MiniMax M3、Kimi K2.6 怎么选 tools 06/03 147 本地 AI 的拐点不是模型，是分发：从 PewDiePie 的 Odysseus 说起 long-form 06/03 146 用 Harbor 跑 Terminal-Bench 2.0：给你的 coding agent 做一次真实评测 workshop 06/03 145 原型速度的范式转变：AI 编码助手如何重塑工程文化 long-form 06/01 144 markitdown 实战：把任意文档转成 LLM-Ready Markdown 的数据预处理流水线 workshop 06/01 143 MCMPO 论文速读：让 Agent 学会「该不该记、该不该忘」的元认知策略 paper 06/01 142 VoxCPM 实战：抛弃 token 的多语种 TTS 与零样本声音克隆 workshop 06/01 141 自托管 AI 工作区横评 2026：Odysseus / Open WebUI / LibreChat / Cherry Studio / Jan tools 06/01 140 2026 AI Agent 框架星标竞赛：OpenClaw、Hermes 与传统框架的格局 tools 05/30 139 AI 攻防失衡：当 time-to-exploit 转负，防御方如何用 AI 扳回平衡 long-form 05/30 138 LightRAG 实战：用知识图谱给 RAG 装上多跳推理大脑 workshop 05/30 137 MobileGym 论文速读：可验证、高并行的手机 GUI Agent 仿真平台 paper 05/30 136 把轨迹提升为逻辑：NSI 用神经符号学习归纳可执行技能 paper 05/30 135 BASIS 论文精读：单样本 RL 也能高效训练推理型 LLM paper 05/29 134 Bumblebee 速评：Perplexity 开源的 AI 供应链安全扫描器值不值得用 tools 05/29 133 Anthropic Mythos 向公众开放：当 AI 找漏洞比人类更快更准 long-form 05/29 132 nanochat 实战：用 $100 从零训练一个能对话的 ChatGPT 克隆 workshop 05/29 131 pi-mono 实战：用 TypeScript 搭建统一多模型 AI Agent 工具箱 workshop 05/29 130 BadHost 深度分析：一个 Host Header 如何击穿百万 AI Agent 的认证防线 long-form 05/28 129 claude-context 实战：用语义搜索 MCP 让编码 Agent 精准定位百万行代码 workshop 05/28 128 OpenHuman 速评：27K Star 的 Rust 桌面 AI Agent 能替代 Claude Desktop 吗？ tools 05/28 127 DMPO 论文速读：用前向 KL 散度解决 GRPO 推理的模式崩塌 paper 05/28 126 SkillOpt 论文速读：微软把梯度下降搬到了 skill.md，52 场全胜 paper 05/28 125 Cursor Composer 2.5 Build in Parallel 实战：把 IDE 当依赖图调度器 workshop 05/27 124 GoLongRL 速读：开源版长上下文 RLVR，30B 追平 235B 思维模型 paper 05/27 123 MemORAI 速读：图谱记忆 + 动态加权 PageRank，F1 从 16 拉到 56 paper 05/27 122 实时语音 Agent API 三家横评：GPT-Realtime-2 vs Gemini Live vs ElevenLabs tools 05/27 121 2026 LLM 训练数据墙：合成数据是出路还是下一个泡沫 long-form 05/27 120 Agentic OS 时代来了：Gemini Spark 把 Agent 从『工具』推向『常驻服务』的范式转变 long-form 05/26 119 Memex(RL) 论文速读：用『索引化经验记忆』把长程 Agent 成功率从 24% 拉到 85% paper 05/26 118 Orchestration Traces RL：用『编排迹』当统一原语训练多 Agent 系统的 5 月新论文 paper 05/26 117 STATE-Bench 实测：微软给 Agent 记忆系统下了一张 450 题考卷，主流方案谁能及格？ tools 05/26 116 Windsurf Wave 13 实战：并行 5 个 Agent + Cascade Hooks 把 IDE 当生产线 workshop 05/26 115 AI Harness 革命：从 Prompt Engineering 到 Agent Operating Environment 的系统工程 long-form 05/25 114 Google Antigravity 2.0 全面评测：五端 Agent 开发平台到底香在哪、坑在哪 tools 05/25 113 Short-m@k 论文速读：短推理链反而比长 CoT 更准？test-time compute 的反常识发现 paper 05/25 112 MARAG-R1 论文速读：用强化学习教 Agent 同时调度多个检索器，HotpotQA 提升 18 个点 paper 05/25 111 Mistral Workflows 实战：用 Temporal 引擎在 30 分钟把 AI 流程从 PoC 推到生产 workshop 05/25 110 AI 周报 2026-05-18 ~ 05-24：Gemini 3.5 Flash 抢 Pro 风头、RAMPART 把 Agent 安全做进 CI、OpenClaw 21 万星 weekly 05/24 109 编码 Agent 模型三国杀：Gemini 3.5 Flash vs GPT-5.5 vs Claude Opus 4.7 实战横评 tools 05/24 108 EverMemOS 论文速读：把 LLM Agent 的长期记忆做成『海马体级』的操作系统 paper 05/24 107 Mastra 实战：用 TypeScript 30 分钟搭一个带工具、记忆和工作流的生产级 Agent workshop 05/24 106 自托管 AI Agent 的去中心化时刻：OpenClaw 半年 21 万星背后的范式迁移 long-form 05/24 105 AI Agent 安全测试工具横评 2026：RAMPART、Garak、Promptfoo、DeepEval 怎么选 tools 05/23 104 LangGraph 1.2 实战：用 error_handler + per-node timeout 把 Agent 容错率拉到生产级 workshop 05/23 103 SubQ SSA 论文速读：第一个真正子二次方注意力做到 12M token，FlashAttention 快 52 倍 paper 05/23 102 长上下文架构之争：FlashAttention、子二次方、稀疏 KV、Mamba 谁能笑到最后 long-form 05/23 101 World Action Models 论文速读：VLA 的下一站，把"预测世界"和"决定动作"合二为一 paper 05/23 100 本地文档解析 VLM 横评 2026：Granite-Docling vs MinerU 2.5 vs Nougat vs olmOCR tools 05/22 099 AI 编码 Agent 的沙盒化革命：E2B、Daytona、Modal、Runtime 如何重构开发工作流 long-form 05/22 098 Forge 实战：用 Guardrails 把 8B 模型 Agent 完成率从 53% 拉到 99% workshop 05/22 097 Toto 2.0 论文精读：时间序列预测进入规模化时代 paper 05/22 096 在 5 年前 MacBook 上本地索引一年视频：Gemma 4 31B + WhisperX + ffmpeg 全流程 workshop 05/22 095 Agent Meltdowns 论文速读：64.7% 智能体在异常环境下做出不安全行为 paper 05/21 094 3800 仓库泄露事件复盘：AI 编程工具的供应链安全已经失守 long-form 05/21 093 CodeGraph 实战：给 Claude Code 接入预索引代码知识图谱 workshop 05/21 092 Qwen3.7-Max 实测评测：阿里能在 Agent 赛道追上 Claude 吗 tools 05/21 091 tokens/s 实测：N tokens/s 到底意味着什么用户体验 workshop 05/21 090 AI 正在瓦解开放知识网络：Wikipedia、Stack Overflow 与搜索引擎的生存危机 long-form 05/20 089 RAG-Anything 实战：用双知识图谱统一多模态文档检索 workshop 05/20 088 NVIDIA Star Elastic 实战：一个 Checkpoint 切出 30B/23B/12B 三种推理模型 workshop 05/20 087 2026 年 5 月前沿大模型横评：GPT-5.5 / Gemini 3.1 Pro / Claude Opus 4.7 / Mistral Large 128B tools 05/20 086 Orthrus 论文速读：双视图扩散架构实现 7.8x 无损并行解码加速 paper 05/20 085 Claude Agent Skills 实战：用 SKILL.md 构建跨 IDE 复用的智能体能力包 workshop 05/19 084 Context Engineering 全景剖析：当提示工程不再够用，下一代 AI 系统怎么搭 long-form 05/19 083 LaProx 论文速读：把 KV Cache 淘汰重铸成『输出感知矩阵近似』问题 paper 05/19 082 Hybrid RAG 三级级联实战：BM25 + Dense + Cross-Encoder Reranker 怎么搭 workshop 05/19 081 2026 H1 开源 MoE 模型横评：DeepSeek V4 / Llama 4 / Qwen 3.5 / Mistral Large 3 怎么选 tools 05/19 080 Causal Forcing++ 论文速读：实时交互视频生成的少步蒸馏新范式 paper 05/18 079 APWA 深度解析：把 MapReduce 思想搬到 Agent 系统的分布式架构 long-form 05/18 078 2026 Agent 框架横评：8 大主流 SDK 的生产实测对比 tools 05/18 077 MolmoAct2 实战：用 5B 参数 VLA 模型驱动 SO100 机械臂 workshop 05/18 076 SU-01 论文速读：30B-A3B 模型如何用简单食谱拿下奥数金牌 paper 05/18 075 AI 周报 2026-05-11 ~ 05-17：DeepSeek V4 开源、MS Agent Framework 1.0、Cola DLM、Gemini Omni 泄露 weekly 05/17 074 Cola DLM 论文精读：连续潜空间扩散如何挑战自回归语言模型 paper 05/17 073 DeepSeek V4 架构深度解析：mHC + CSA/HCA 如何撑起原生 1M 上下文 long-form 05/17 072 LLM 可观测性工具横评 2026：Langfuse / LangSmith / Helicone / Braintrust / Latitude 实测 tools 05/17 071 Microsoft Agent Framework 1.0 实战：从单 agent 到多 agent 编排的生产级落地 workshop 05/17 070 DeepMind 让 LLM 学会主动搜索：Context Training 论文速读 paper 05/16 069 MinT 论文速读：用一套基础设施跑百万 LoRA 适配器 paper 05/16 068 Codex Mobile 实战工坊：在地铁上远程接管 vibe coding 会话 workshop 05/16 067 AI Coding 移动端横评 2026：Codex Mobile vs Claude Remote vs 第三方 tools 05/16 066 Spec-Driven Development 反攻 vibe coding：GitHub Spec Kit 深度剖析 long-form 05/16 065 BrowseComp 2026 横评：21 个 LLM 网页 Agent 实测排行 tools 05/15 064 EBCAR 论文精读：直接在 embedding 上跑的轻量级 Reranker paper 05/15 063 Long Context vs RAG 之战：1M 上下文窗口何时是错的工具 long-form 05/15 062 Qwen3.6 Plus Agentic 编程实战：24 小时一手体验报告 workshop 05/15 061 Routing-Free MoE 论文精读：让稀疏模型摆脱路由器 paper 05/15 060 Gemma 4 MTP 推理加速实战：开源模型推理速度提升 3 倍的秘密 workshop 05/14 059 AI Agent 写的代码靠谱吗？24000+ PR 数据揭示真相 tools 05/14 058 AI 武器化的第一枪：Google 确认首例 AI 辅助零日漏洞利用 long-form 05/14 057 论文精读：Flow-OPD — 让文生图模型对齐不再顾此失彼 paper 05/14 056 论文精读：Learning, Fast and Slow — 让大模型持续学习而不遗忘 paper 05/14 055 Agentic RAG 深度解析：从检索增强到智能体驱动的 RAG 架构演进 long-form 05/13 054 Draft-Thinking：让长思维链推理成本降低 40% 的新方法 paper 05/13 053 AI 代码编辑器横评 2026：Cursor vs Windsurf vs GitHub Copilot vs Claude Code tools 05/13 052 UI-TARS Desktop：ByteDance 开源桌面自动化 AI Agent 实战指南 workshop 05/13 051 LLM 推理引擎横评 2026：vLLM vs SGLang vs TensorRT-LLM 实测对比 tools 05/13 050 AI 代理框架 2026 全景对比：LangGraph vs CrewAI vs AutoGen vs Mastra vs DeerFlow long-form 05/12 049 2026年5月AI模型大战：GPT-5.5 vs Claude vs Gemini vs DeepSeek V4全景分析 long-form 05/12 048 AI 编码助手写的代码越多，维护成本越高？实战降低维护成本指南 workshop 05/12 047 AI 安全 2026：国际安全报告、对齐研究突破与安全最佳实践 workshop 05/12 046 AI 周报 002：Claude Code 限频翻倍、GPT-5.5 Instant、Qwen3.6 MoE 开源 weekly 05/12 045 Claude Code 限频翻倍：5 月新规下的实战优化策略 workshop 05/12 044 GitHub Trending AI工具周榜：2026年5月第2周 tools 05/12 043 Google I/O 2026 实战指南：Gemini API、Android 17 AI 功能与 Aluminium OS 开发者机会 workshop 05/12 042 GPT-5.5-Cyber 安全能力深度实战：漏洞分析、威胁情报与代码审计 workshop 05/12 041 异构 Agent 企业化组织：OneManCompany 框架如何用公司架构管理 AI 团队 long-form 05/12 040 Claude Computer Use 构建 RPA：实战可行但成本是传统方案的 45 倍 workshop 05/12 039 KV Cache 压缩技术全景：从 GQA 到量化到 PagedAttention 的工程进化 paper 05/12 038 2026 本地 AI 研究工具横评：Ollama、LM Studio、vLLM 等 7 款工具实测对比 tools 05/12 037 本地 LLM 部署工具 2026 实测：Ollama vs LM Studio vs vLLM vs llama.cpp tools 05/12 036 MARBLE：扩散模型强化学习中的多维奖励平衡新范式 paper 05/12 035 MCP企业采用率78%背后：技术演进、安全挑战与最佳实践 workshop 05/12 034 MCP安全实战：从CVE-2026-26030看AI Agent安全边界 workshop 05/12 033 MCTS-Driven Knowledge Retrieval for LLMs：用蒙特卡洛树搜索增强大模型推理 paper 05/12 032 端侧 AI 的崛起：当 Chrome 静默安装 4GB 模型，On-Device LLM 意味着什么 long-form 05/12 031 Prompt Caching 实战：一行配置让 Claude/GPT API 成本降低 90% workshop 05/12 030 Qwen3.6-35B-A3B 评测：3B 激活参数如何打赢 22B Dense 模型 tools 05/12 029 Skill1 论文精读：用 RL 统一训练 Agent 的技能选择、利用与蒸馏 paper 05/12 028 SOM论文速读：LLM Agent如何建模对手行为？ paper 05/12 027 投机解码从理论到生产：Speculative Decoding 全链路优化指南 long-form 05/12 026 向量数据库 2026 选型：Milvus vs Qdrant vs Weaviate vs PgVector 终极对比 tools 05/12 025 AI Agent 正在吃掉 SaaS：从工具到平台的架构革命 long-form 05/11 024 Browser Use 实战：让 AI Agent 操控浏览器完成自动化任务 workshop 05/11 023 Continuous Latent Diffusion Language Model：当扩散模型学会写文字 paper 05/11 022 DeepSeek V4 深度测评：开源模型如何重新定义 LLM 性价比 tools 05/11 021 Dify 实战：用开源 LLMOps 平台 30 分钟搭建企业级 AI 应用 workshop 05/11 020 AI Agent Memory 架构全解：从 Buffer 到 Persistent Memory 的工程实践 long-form 05/10 019 Attention Sink 深度解析：StreamingLLM 如何让大模型突破上下文窗口 paper 05/10 018 Devin vs OpenHands vs SWE-agent：2026 自主编程 Agent 终极横评 tools 05/10 017 LangGraph 实战：用状态机思维构建生产级多 Agent 工作流 workshop 05/10 016 Gemma 4 深度解析：Google 开源模型的逆袭之路 paper 05/10 015 LLM 微调 2026：从 LoRA 到 QLoRA 到 DoRA 的技术演进与选型指南 long-form 05/10 014 Structured Output 实战：用 JSON Schema 构建可靠的 LLM 数据提取管线 workshop 05/10 013 Ollama 实战：本地部署 LLM 的完整指南——从安装到生产级 API 集成 workshop 05/10 012 Vibe Coding 2026：当「描述想法」取代「写代码」 tools 05/10 011 Agentic AI 第二年：从 PoC 到生产系统的五个认知跃迁 long-form 05/09 010 AI Agent 安全红线：当 Agent 开始违规，我们怎么设计信任边界 long-form 05/09 009 AI 周报 #001: Claude Opus 4.7 发布 · OpenAI Frontier 计划 · Agentic AI 全面铺开 weekly 05/09 008 Claude Code vs Cursor vs Windsurf: 2026 AI 编程助手终极横评 tools 05/09 007 Claude Opus 4.6 vs GPT-5.4 vs Gemini 3.1 Pro: 2026 春季 LLM 实测横评 paper 05/09 006 MCP 实战：从零搭建一个 Model Context Protocol Server workshop 05/09 005 LLM 推理优化全景 2026：从 10x 降本到实时响应的工程路径 long-form 05/09 004 多模态 AI 实战：用 Claude 4.7 和 Gemini 3 搭建图文理解 Pipeline workshop 05/09 003 RAG 架构选型 2026: Pipeline vs Agentic vs Knowledge Graph — 怎么选不翻车 workshop 05/09 002 State Space Models 深度解析：Mamba 凭什么挑战 Transformer paper 05/09 001 Hello, World — 一个面向 AI 前沿的工程笔记 long-form 05/09