YOMXXX

YOMXXX https://yomxxx.com/ Frontier ML, decoded. Production AI, dissected. en-us Wed, 13 May 2026 13:20:32 GMT Agentic RAG 深度解析：从检索增强到智能体驱动的 RAG 架构演进 https://yomxxx.com/posts/2026-05-13-agentic-rag-architecture-deep-dive https://yomxxx.com/posts/2026-05-13-agentic-rag-architecture-deep-dive Wed, 13 May 2026 00:00:00 GMT 深度剖析 Agentic RAG 的架构设计、核心模式与工程实践，对比传统 RAG 的局限性，展示如何用 Agent 驱动多步检索、自适应推理和工具调用来构建企业级知识系统。 long-form Draft-Thinking：让长思维链推理成本降低 40% 的新方法 https://yomxxx.com/posts/2026-05-13-draft-thinking-efficient-cot-reasoning https://yomxxx.com/posts/2026-05-13-draft-thinking-efficient-cot-reasoning Wed, 13 May 2026 00:00:00 GMT 论文速读 Draft-Thinking，一种通过先生成精简草稿再展开推理的方法，在保持推理精度的同时大幅减少 token 消耗，对 LLM 推理成本优化意义重大。 paper AI 代码编辑器横评 2026：Cursor vs Windsurf vs GitHub Copilot vs Claude Code https://yomxxx.com/posts/2026-05-13-ai-code-editor-comparison-2026 https://yomxxx.com/posts/2026-05-13-ai-code-editor-comparison-2026 Wed, 13 May 2026 00:00:00 GMT 深度对比 2026 年四大 AI 代码编辑器 Cursor、Windsurf、GitHub Copilot 和 Claude Code 的功能、性能、定价与适用场景，从自动补全到 Agent 模式全面测试，附开发者选型指南。 tools UI-TARS Desktop：ByteDance 开源桌面自动化 AI Agent 实战指南 https://yomxxx.com/posts/2026-05-13-ui-tars-desktop-automation-guide https://yomxxx.com/posts/2026-05-13-ui-tars-desktop-automation-guide Wed, 13 May 2026 00:00:00 GMT 详解 ByteDance 开源的 UI-TARS Desktop 多模态桌面自动化 Agent，从架构原理到实战部署，手把手教你用 AI 控制电脑完成复杂任务自动化。 workshop LLM 推理引擎横评 2026：vLLM vs SGLang vs TensorRT-LLM 实测对比 https://yomxxx.com/posts/2026-05-13-llm-inference-engine-comparison-2026 https://yomxxx.com/posts/2026-05-13-llm-inference-engine-comparison-2026 Wed, 13 May 2026 00:00:00 GMT 基于 H100 GPU 实测数据，横向对比 vLLM、SGLang、TensorRT-LLM 三大主流 LLM 推理引擎的吞吐量、延迟、显存效率和部署复杂度，附选型决策树。 tools AI 代理框架 2026 全景对比：LangGraph vs CrewAI vs AutoGen vs Mastra vs DeerFlow https://yomxxx.com/posts/2026-05-12-ai-agent-frameworks-comparison-2026 https://yomxxx.com/posts/2026-05-12-ai-agent-frameworks-comparison-2026 Tue, 12 May 2026 00:00:00 GMT 深度对比2026年主流AI代理框架LangGraph、CrewAI、AutoGen、Mastra、DeerFlow，从架构设计、多代理协作、生产就绪度、生态系统等维度全面解析，为开发者提供选型指南和最佳实践。 long-form 2026年5月AI模型大战：GPT-5.5 vs Claude vs Gemini vs DeepSeek V4全景分析 https://yomxxx.com/posts/2026-05-12-ai-model-war-may-2026 https://yomxxx.com/posts/2026-05-12-ai-model-war-may-2026 Tue, 12 May 2026 00:00:00 GMT 深度剖析2026年5月AI模型竞争格局，对比GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro、DeepSeek V4四大模型的性能、价格与适用场景 long-form AI 编码助手写的代码越多，维护成本越高？实战降低维护成本指南 https://yomxxx.com/posts/2026-05-12-ai-coding-maintenance-cost https://yomxxx.com/posts/2026-05-12-ai-coding-maintenance-cost Tue, 12 May 2026 00:00:00 GMT James Shore 提出 AI 编码的维护成本悖论：代码产出翻倍但维护天数不变，总成本反而飙升。本文通过重构、测试生成、文档自动化、债务检测四个实战方向，教你用 Claude Code 和 Cursor 降低维护成本。 workshop AI 安全 2026：国际安全报告、对齐研究突破与安全最佳实践 https://yomxxx.com/posts/2026-05-12-ai-safety-2026-guide https://yomxxx.com/posts/2026-05-12-ai-safety-2026-guide Tue, 12 May 2026 00:00:00 GMT 深度解析2026年AI安全领域最新进展，涵盖国际AI安全报告核心发现、Constitutional AI和DPO对齐技术突破、红队测试方法论、安全护栏实现，以及EU AI Act合规指南，为开发者提供全面的安全实践指南。 workshop AI 周报 002：Claude Code 限频翻倍、GPT-5.5 Instant、Qwen3.6 MoE 开源 https://yomxxx.com/posts/2026-05-12-ai-weekly-002 https://yomxxx.com/posts/2026-05-12-ai-weekly-002 Tue, 12 May 2026 00:00:00 GMT 2026 年 5 月第 2 周 AI 行业热点速览：Anthropic 翻倍 Claude Code 限频、OpenAI 发布 GPT-5.5 Instant、阿里开源 Qwen3.6-35B-A3B MoE 编码模型、Skill1 统一 Agent 技能训练框架、OneManCompany 多 Agent 组织架构。 weekly Claude Code 限频翻倍：5 月新规下的实战优化策略 https://yomxxx.com/posts/2026-05-12-claude-code-rate-limits-doubled https://yomxxx.com/posts/2026-05-12-claude-code-rate-limits-doubled Tue, 12 May 2026 00:00:00 GMT Anthropic 于 2026 年 5 月 6 日宣布 Claude Code 限频翻倍并移除高峰时段限制。本文解析新配额计算方式，对比新旧限频表，提供 5 个最大化利用新配额的实战技巧，附配额监控脚本。 workshop GitHub Trending AI工具周榜：2026年5月第2周 https://yomxxx.com/posts/2026-05-12-github-trending-ai-tools-week18 https://yomxxx.com/posts/2026-05-12-github-trending-ai-tools-week18 Tue, 12 May 2026 00:00:00 GMT 深度盘点2026年5月第2周GitHub最热门的AI开源项目，包括字节跳动UI-TARS-desktop多模态Agent、MCP服务器生态爆发、LangChain与MetaGPT框架对比等5大热门项目的技术特点与实用价值分析 tools Google I/O 2026 实战指南：Gemini API、Android 17 AI 功能与 Aluminium OS 开发者机会 https://yomxxx.com/posts/2026-05-12-google-io-2026-developer-guide https://yomxxx.com/posts/2026-05-12-google-io-2026-developer-guide Tue, 12 May 2026 00:00:00 GMT 2026年5月12日Google I/O开发者大会开幕，本文深度解析Gemini API多模态函数调用、Android 17端侧AI能力、Aluminium OS桌面体验，为开发者提供实战指南。 workshop GPT-5.5-Cyber 安全能力深度实战：漏洞分析、威胁情报与代码审计 https://yomxxx.com/posts/2026-05-12-gpt55-cyber-security-workshop https://yomxxx.com/posts/2026-05-12-gpt55-cyber-security-workshop Tue, 12 May 2026 00:00:00 GMT OpenAI GPT-5.5-Cyber 网络安全专用模型实战教程，涵盖漏洞分析、威胁情报解读、代码审计三大场景的 API 调用示例、批量审计方案与工程化最佳实践。 workshop 异构 Agent 企业化组织：OneManCompany 框架如何用公司架构管理 AI 团队 https://yomxxx.com/posts/2026-05-12-heterogeneous-agent-organization https://yomxxx.com/posts/2026-05-12-heterogeneous-agent-organization Tue, 12 May 2026 00:00:00 GMT 深度解析 OneManCompany 框架如何将企业管理理念引入多 Agent 系统——从 Agent 身份、动态团队组装、层级决策到绩效评估，探索 AI Agent 组织化的工程实践。 long-form Claude Computer Use 构建 RPA：实战可行但成本是传统方案的 45 倍 https://yomxxx.com/posts/2026-05-12-claude-computer-use-rpa https://yomxxx.com/posts/2026-05-12-claude-computer-use-rpa Tue, 12 May 2026 00:00:00 GMT 用 Claude 的 Computer Use 能力构建自动化 RPA 工作流——从截图理解到鼠标键盘操作的完整链路，对比传统 RPA（UiPath/Power Automate）的成本、可靠性和维护性，附真实场景的成本核算。 workshop KV Cache 压缩技术全景：从 GQA 到量化到 PagedAttention 的工程进化 https://yomxxx.com/posts/2026-05-12-kv-cache-compression-engineering https://yomxxx.com/posts/2026-05-12-kv-cache-compression-engineering Tue, 12 May 2026 00:00:00 GMT 系统梳理 LLM 推理中 KV Cache 的内存瓶颈和五种主流压缩方案——MQA/GQA 减头、KV Cache 量化、PagedAttention 分页、Sliding Window 裁剪、Token Merging 合并——对比精度、延迟、内存和适用场景。 paper 2026 本地 AI 研究工具横评：Ollama、LM Studio、vLLM 等 7 款工具实测对比 https://yomxxx.com/posts/2026-05-12-local-ai-research-tools-2026 https://yomxxx.com/posts/2026-05-12-local-ai-research-tools-2026 Tue, 12 May 2026 00:00:00 GMT 实测 Ollama、LM Studio、vLLM、llama.cpp、LocalAI、Jan、GPT4All 七款本地 AI 推理工具，在 Apple Silicon M4 Pro/Max 上跑分对比 tokens/s、显存占用与易用性。 tools 本地 LLM 部署工具 2026 实测：Ollama vs LM Studio vs vLLM vs llama.cpp https://yomxxx.com/posts/2026-05-12-local-llm-tools-comparison-2026 https://yomxxx.com/posts/2026-05-12-local-llm-tools-comparison-2026 Tue, 12 May 2026 00:00:00 GMT 深度实测2026年四大本地LLM部署工具Ollama、LM Studio、vLLM、llama.cpp，从性能基准、易用性、功能特性、适用场景等维度全面对比，为开发者提供选型指南和最佳实践。 tools MARBLE：扩散模型强化学习中的多维奖励平衡新范式 https://yomxxx.com/posts/2026-05-12-marble-diffusion-rl-alignment https://yomxxx.com/posts/2026-05-12-marble-diffusion-rl-alignment Tue, 12 May 2026 00:00:00 GMT 深度解读 HuggingFace 热门论文 MARBLE（arXiv:2605.06507），该框架在梯度空间中实现扩散模型强化学习微调的多维奖励同步优化，彻底解决多奖励冲突与训练不稳定问题，附伪代码和工程实践分析。 paper MCP企业采用率78%背后：技术演进、安全挑战与最佳实践 https://yomxxx.com/posts/2026-05-12-mcp-enterprise-adoption-deep-dive https://yomxxx.com/posts/2026-05-12-mcp-enterprise-adoption-deep-dive Tue, 12 May 2026 00:00:00 GMT 深度解析MCP协议在企业中的大规模采用现状，从78%企业AI团队采用率统计数据、安全漏洞案例分析到生产部署最佳实践，全面掌握MCP企业级应用的技术演进与安全防护策略 workshop MCP安全实战：从CVE-2026-26030看AI Agent安全边界 https://yomxxx.com/posts/2026-05-12-mcp-security-cve-analysis https://yomxxx.com/posts/2026-05-12-mcp-security-cve-analysis Tue, 12 May 2026 00:00:00 GMT 深度剖析Semantic Kernel两大CVE漏洞（CVE-2026-26030和CVE-2026-25592），掌握MCP协议安全防护最佳实践，构建安全可靠的AI Agent系统 workshop MCTS-Driven Knowledge Retrieval for LLMs：用蒙特卡洛树搜索增强大模型推理 https://yomxxx.com/posts/2026-05-12-mcts-knowledge-retrieval-llm https://yomxxx.com/posts/2026-05-12-mcts-knowledge-retrieval-llm Tue, 12 May 2026 00:00:00 GMT 精读arXiv论文2601.00003，深度解析如何用蒙特卡洛树搜索（MCTS）优化LLM的知识检索和推理过程，详解算法原理、实验结果和工程实践，提升复杂问答任务的准确率。 paper 端侧 AI 的崛起：当 Chrome 静默安装 4GB 模型，On-Device LLM 意味着什么 https://yomxxx.com/posts/2026-05-12-on-device-ai-chrome-model https://yomxxx.com/posts/2026-05-12-on-device-ai-chrome-model Tue, 12 May 2026 00:00:00 GMT 从 Google Chrome 静默下载 Gemini Nano 引发的隐私争议说起——深度分析端侧 AI 的技术架构、隐私权衡、性能瓶颈和产业格局，覆盖 Chrome AI、Apple Intelligence、Qualcomm NPU 三条路线的对比。 long-form Prompt Caching 实战：一行配置让 Claude/GPT API 成本降低 90% https://yomxxx.com/posts/2026-05-12-prompt-caching-cost-optimization https://yomxxx.com/posts/2026-05-12-prompt-caching-cost-optimization Tue, 12 May 2026 00:00:00 GMT 深度解析 Anthropic 和 OpenAI 的 Prompt Caching 机制——从原理到实战，覆盖缓存命中条件、最佳 Prompt 结构设计、成本计算公式和六个高 ROI 场景，附 TypeScript 完整代码示例。 workshop Qwen3.6-35B-A3B 评测：3B 激活参数如何打赢 22B Dense 模型 https://yomxxx.com/posts/2026-05-12-qwen3-6-35b-moe-review https://yomxxx.com/posts/2026-05-12-qwen3-6-35b-moe-review Tue, 12 May 2026 00:00:00 GMT 全面评测阿里 Qwen3.6-35B-A3B——35B 总参数、3B 激活的稀疏 MoE 编码模型。对比 Qwen3.5、DeepSeek-V4、Gemma 4 等模型的编码能力，附本地部署和 API 接入完整指南。 tools Skill1 论文精读：用 RL 统一训练 Agent 的技能选择、利用与蒸馏 https://yomxxx.com/posts/2026-05-12-skill1-unified-agent-rl https://yomxxx.com/posts/2026-05-12-skill1-unified-agent-rl Tue, 12 May 2026 00:00:00 GMT 深度解读 Skill1 框架如何用单一强化学习策略同时优化 Agent 的技能检索、选择和蒸馏三个能力，解析其架构设计、完整训练流程和 benchmark 评测结果。 paper SOM论文速读：LLM Agent如何建模对手行为？ https://yomxxx.com/posts/2026-05-12-som-opponent-modeling-llm-agents https://yomxxx.com/posts/2026-05-12-som-opponent-modeling-llm-agents Tue, 12 May 2026 00:00:00 GMT 深度解析SOM框架如何利用结构因果模型（SCM）提升LLM Agent在多智能体博弈中的对手建模能力，探索AI Agent的策略推理前沿技术与实际应用场景深度分析 paper 投机解码从理论到生产：Speculative Decoding 全链路优化指南 https://yomxxx.com/posts/2026-05-12-speculative-decoding-production-guide https://yomxxx.com/posts/2026-05-12-speculative-decoding-production-guide Tue, 12 May 2026 00:00:00 GMT 深入解析 Speculative Decoding 的数学原理、工程实现与生产部署策略，覆盖草拟模型选型、接受率调优、vLLM/TensorRT-LLM 实战配置，以及 Medusa、EAGLE 等前沿变体的对比分析。 long-form 向量数据库 2026 选型：Milvus vs Qdrant vs Weaviate vs PgVector 终极对比 https://yomxxx.com/posts/2026-05-12-vector-database-comparison-2026 https://yomxxx.com/posts/2026-05-12-vector-database-comparison-2026 Tue, 12 May 2026 00:00:00 GMT 基于 100 万条向量的实测数据，从性能、可扩展性、部署复杂度、成本和生态集成五个维度对比四款主流向量数据库——Milvus、Qdrant、Weaviate 和 PgVector，附 RAG 场景的选型决策树。 tools AI Agent 正在吃掉 SaaS：从工具到平台的架构革命 https://yomxxx.com/posts/2026-05-11-ai-agent-eating-saas https://yomxxx.com/posts/2026-05-11-ai-agent-eating-saas Mon, 11 May 2026 00:00:00 GMT 当 AI Agent 开始直接操作数据库、调用 API、填写表单，传统 SaaS 的 GUI 层变得多余。本文从架构视角分析 Agent 如何重塑软件产品形态——从 CRUD 到 Intent-Driven，从 UI-First 到 API-First，附三个已被 Agent 颠覆的 SaaS 品类分析。 long-form Browser Use 实战：让 AI Agent 操控浏览器完成自动化任务 https://yomxxx.com/posts/2026-05-11-browser-use-ai-automation https://yomxxx.com/posts/2026-05-11-browser-use-ai-automation Mon, 11 May 2026 00:00:00 GMT 用 Browser Use 这个 GitHub 热门开源项目，让 LLM 直接操控浏览器——点击、填表、截图、提取数据，实现从'人手动操作网页'到'Agent 自动化完成'的跃迁，附 Python 完整代码和 5 个实际案例。 workshop Continuous Latent Diffusion Language Model：当扩散模型学会写文字 https://yomxxx.com/posts/2026-05-11-continuous-latent-diffusion-language-model https://yomxxx.com/posts/2026-05-11-continuous-latent-diffusion-language-model Mon, 11 May 2026 00:00:00 GMT 解读 2026 年最受关注的语言模型新范式——连续潜空间扩散语言模型（CLDLM），从离散 token 预测到连续空间扩散的范式转移，对比 Autoregressive LM 的本质差异、优势局限和工程前景。 paper DeepSeek V4 深度测评：开源模型如何重新定义 LLM 性价比 https://yomxxx.com/posts/2026-05-11-deepseek-v4-review https://yomxxx.com/posts/2026-05-11-deepseek-v4-review Mon, 11 May 2026 00:00:00 GMT 基于 SWE-bench、MMLU-Pro、HumanEval 三大基准和真实编码任务的 DeepSeek V4 深度测评，对比 Claude Sonnet 4.6、GPT-4o、Llama 3.1 405B 的能力和性价比，附 API 定价分析和选型建议。 tools Dify 实战：用开源 LLMOps 平台 30 分钟搭建企业级 AI 应用 https://yomxxx.com/posts/2026-05-11-dify-llmops-enterprise-ai-app https://yomxxx.com/posts/2026-05-11-dify-llmops-enterprise-ai-app Mon, 11 May 2026 00:00:00 GMT 从 Docker Compose 部署到完整 RAG 应用上线——用 Dify 这个 GitHub 50K+ Star 的开源 LLMOps 平台搭建客服问答系统，覆盖知识库配置、工作流编排、API 发布和生产监控全流程。 workshop AI Agent Memory 架构全解：从 Buffer 到 Persistent Memory 的工程实践 https://yomxxx.com/posts/2026-05-10-agent-memory-architecture https://yomxxx.com/posts/2026-05-10-agent-memory-architecture Sun, 10 May 2026 00:00:00 GMT 基于 Mem0 的 State of AI Agent Memory 2026 报告，深度解析三层记忆架构——Working Memory、Episodic Memory、Semantic Memory——的工程实现、选型建议和生产陷阱。 long-form Attention Sink 深度解析：StreamingLLM 如何让大模型突破上下文窗口 https://yomxxx.com/posts/2026-05-10-attention-sink-streaminglm https://yomxxx.com/posts/2026-05-10-attention-sink-streaminglm Sun, 10 May 2026 00:00:00 GMT 从 Attention Sink 现象到 StreamingLLM 的工程实现——解析大模型处理无限长文本的核心机制，对比 Sliding Window、RoPE 外推和 Sink Token 三种长上下文方案的精度与延迟权衡。 paper Devin vs OpenHands vs SWE-agent：2026 自主编程 Agent 终极横评 https://yomxxx.com/posts/2026-05-10-autonomous-coding-agent-showdown https://yomxxx.com/posts/2026-05-10-autonomous-coding-agent-showdown Sun, 10 May 2026 00:00:00 GMT 基于 SWE-bench Verified 基准和真实项目测试，从任务完成率、代码质量、成本效率、可控性四个维度对比三款自主编程 Agent——Devin、OpenHands（原 OpenDevin）和 SWE-agent。 tools LangGraph 实战：用状态机思维构建生产级多 Agent 工作流 https://yomxxx.com/posts/2026-05-10-langgraph-multi-agent-workflow https://yomxxx.com/posts/2026-05-10-langgraph-multi-agent-workflow Sun, 10 May 2026 00:00:00 GMT 从 LangChain 的线性 Chain 到 LangGraph 的状态图——手把手用 TypeScript 搭建一个包含 Planner、Researcher、Coder 三个 Agent 的协作系统，附完整代码和踩坑经验。 workshop Gemma 4 深度解析：Google 开源模型的逆袭之路 https://yomxxx.com/posts/2026-05-10-gemma4-deep-dive https://yomxxx.com/posts/2026-05-10-gemma4-deep-dive Sun, 10 May 2026 00:00:00 GMT 深度解析 Google DeepMind 2026 年发布的 Gemma 4 开源模型：MoE 架构创新、256K 上下文、Benchmark 对比 Llama/Qwen，附 Ollama 本地部署代码和选型建议。 paper LLM 微调 2026：从 LoRA 到 QLoRA 到 DoRA 的技术演进与选型指南 https://yomxxx.com/posts/2026-05-10-llm-finetuning-lora-qlora-dora https://yomxxx.com/posts/2026-05-10-llm-finetuning-lora-qlora-dora Sun, 10 May 2026 00:00:00 GMT 系统梳理 2024-2026 年 LLM 微调技术的三次关键演进——LoRA 的低秩分解、QLoRA 的量化微调、DoRA 的权重分解——对比精度、显存、训练速度和适用场景，附生产级微调 checklist。 long-form Structured Output 实战：用 JSON Schema 构建可靠的 LLM 数据提取管线 https://yomxxx.com/posts/2026-05-10-structured-output-data-extraction https://yomxxx.com/posts/2026-05-10-structured-output-data-extraction Sun, 10 May 2026 00:00:00 GMT 从 prompt hacking 到 Structured Output——用 Claude 和 GPT 的原生 JSON Schema 约束能力构建生产级数据提取管线，覆盖发票解析、简历提取、合同条款抽取三个完整案例，附错误处理和质量保障方案。 workshop Ollama 实战：本地部署 LLM 的完整指南——从安装到生产级 API 集成 https://yomxxx.com/posts/2026-05-10-ollama-local-llm-complete-guide https://yomxxx.com/posts/2026-05-10-ollama-local-llm-complete-guide Sun, 10 May 2026 00:00:00 GMT 用 Ollama 在本地 Mac/Linux 上一行命令运行 Llama 3、Qwen 2.5、Gemma 4 等开源大模型，覆盖模型选择、量化对比、REST API 调用、LangChain 集成和性能优化，附 M4 Mac 实测数据。 workshop Vibe Coding 2026：当「描述想法」取代「写代码」 https://yomxxx.com/posts/2026-05-10-vibe-coding-revolution https://yomxxx.com/posts/2026-05-10-vibe-coding-revolution Sun, 10 May 2026 00:00:00 GMT 深度剖析 Vibe Coding 编程范式的三个层级——Tab 补全、Composer 多文件、Agentic 全自主——对比 Cursor/Claude Code/Codex/Copilot 四大工具，附真实案例和风险边界分析。 tools Agentic AI 第二年：从 PoC 到生产系统的五个认知跃迁 https://yomxxx.com/posts/2026-05-09-agentic-ai-architecture-evolution https://yomxxx.com/posts/2026-05-09-agentic-ai-architecture-evolution Sat, 09 May 2026 00:00:00 GMT 回顾 18 个月 Agentic AI 生产实践中的五次认知转变——从 Chain 到状态机、从 API 调用到契约、从向量搜索到三层记忆、从通信到信任链、从准确率到多维评估体系。 long-form AI Agent 安全红线：当 Agent 开始违规，我们怎么设计信任边界 https://yomxxx.com/posts/2026-05-09-ai-agent-security-trust-boundary https://yomxxx.com/posts/2026-05-09-ai-agent-security-trust-boundary Sat, 09 May 2026 00:00:00 GMT 从 IETF Agent 认证草案到运行时约束到审计回滚，拆解三层安全架构和五种常见失败模式，附 TypeScript Guard Wrapper 代码和 Supervisor vs Consensus 信任模型对比。 long-form AI 周报 #001: Claude Opus 4.7 发布 · OpenAI Frontier 计划 · Agentic AI 全面铺开 https://yomxxx.com/posts/2026-05-09-ai-weekly-001 https://yomxxx.com/posts/2026-05-09-ai-weekly-001 Sat, 09 May 2026 00:00:00 GMT YOMXXX AI 周报第一期：Anthropic 发布 Claude Opus 4.7、OpenAI 公布 Frontier 计划、Google Gemini 3.1 Pro 发布、Agentic AI 成为行业主旋律，附本周值得关注的工具和论文。 weekly Claude Code vs Cursor vs Windsurf: 2026 AI 编程助手终极横评 https://yomxxx.com/posts/2026-05-09-ai-coding-assistant-showdown-2026 https://yomxxx.com/posts/2026-05-09-ai-coding-assistant-showdown-2026 Sat, 09 May 2026 00:00:00 GMT 基于半年深度使用经验，从代码生成质量、上下文理解、多文件协作、Agentic 能力、价格五个维度对比 Claude Code、Cursor、Windsurf 三款主流 AI 编程助手。 tools Claude Opus 4.6 vs GPT-5.4 vs Gemini 3.1 Pro: 2026 春季 LLM 实测横评 https://yomxxx.com/posts/2026-05-09-llm-benchmark-spring-2026 https://yomxxx.com/posts/2026-05-09-llm-benchmark-spring-2026 Sat, 09 May 2026 00:00:00 GMT 深度对比 2026 年三大前沿 LLM 的基准测试成绩、实际编码表现、定价与适用场景。基于 SWE-bench、HumanEval、MMLU-Pro 等基准以及真实项目重写实测。 paper MCP 实战：从零搭建一个 Model Context Protocol Server https://yomxxx.com/posts/2026-05-09-mcp-server-from-scratch https://yomxxx.com/posts/2026-05-09-mcp-server-from-scratch Sat, 09 May 2026 00:00:00 GMT 手把手用 TypeScript 搭建 MCP Server，从协议原理到完整代码到 Claude Code 集成，覆盖 Tool、Resource、Prompt 三大核心概念和 2026 路线图展望。 workshop LLM 推理优化全景 2026：从 10x 降本到实时响应的工程路径 https://yomxxx.com/posts/2026-05-09-llm-inference-optimization-landscape https://yomxxx.com/posts/2026-05-09-llm-inference-optimization-landscape Sat, 09 May 2026 00:00:00 GMT 四层优化金字塔——从 Prompt 优化到模型路由到量化到推理引擎——系统性降低 LLM 推理成本和延迟，附 vLLM vs SGLang 实测数据和生产部署 checklist。 long-form 多模态 AI 实战：用 Claude 4.7 和 Gemini 3 搭建图文理解 Pipeline https://yomxxx.com/posts/2026-05-09-multimodal-ai-pipeline https://yomxxx.com/posts/2026-05-09-multimodal-ai-pipeline Sat, 09 May 2026 00:00:00 GMT 三个真实场景的 TypeScript 代码实现——发票 OCR、架构图理解、视频会议摘要——附 2026 多模态基准对比和 Claude 4.7 vs Gemini 3 选型指南。 workshop RAG 架构选型 2026: Pipeline vs Agentic vs Knowledge Graph — 怎么选不翻车 https://yomxxx.com/posts/2026-05-09-rag-architecture-selection-guide https://yomxxx.com/posts/2026-05-09-rag-architecture-selection-guide Sat, 09 May 2026 00:00:00 GMT 深度对比三种主流 RAG 架构——Pipeline RAG、Agentic RAG、Knowledge Graph RAG——的准确率、延迟、成本与适用场景，附带决策矩阵、可运行代码和生产踩坑经验。 workshop State Space Models 深度解析：Mamba 凭什么挑战 Transformer https://yomxxx.com/posts/2026-05-09-state-space-models-vs-transformer https://yomxxx.com/posts/2026-05-09-state-space-models-vs-transformer Sat, 09 May 2026 00:00:00 GMT 从 S4 到 Mamba 到 Mamba-2 的演进路线，用直觉而非公式解释 SSM 的核心思想，对比 Transformer 的复杂度瓶颈，分析混合架构趋势和工程落地场景。 paper Hello, World — 一个面向 AI 前沿的工程笔记 https://yomxxx.com/posts/2026-05-09-welcome https://yomxxx.com/posts/2026-05-09-welcome Sat, 09 May 2026 00:00:00 GMT YOMXXX 开篇——一个面向 AI 前沿的个人工程博客。本文介绍为什么我决定开这个博客、会写什么样的内容、每周的发布节奏，以及作为读者你能期待从这里获得什么样的深度文章与工程洞见。 long-form