AI Agent 不是大模型 API 调用。真正的 Agent 架构包含 Model、Harness、Memory 三大组件。本文拆解常见的 Agent 架构模式,以及在实际生产环境中的权衡。
2024 年中,Cursor 爆火、Windsurf 入场、Copilot 全面更新、Devin 正式发布。AI Coding 工具进入战国时代。这篇文章帮你梳理各家的核心差异和实际体验。
vLLM 是当下最流行的开源 LLM 推理引擎。它的 PagedAttention 技术让同等硬件下 throughput 提升 24 倍。这篇文章讲清楚 vLLM 是什么、怎么部署、以及实际使用中的注意事项。
2024 年上半年,小型开源模型爆发:Mistral 7B、Phi-3、Gemma 陆续发布,3B/7B 模型就能跑出接近 GPT-3.5 的效果。本文分析这波小模型浪潮背后的原因和实际影响。
Ollama 让本地跑 LLM 变得极其简单。一个命令就能起模型,Mac 上 7B 模型跑得流畅。这篇是实战记录,讲清楚怎么用、什么时候用、以及真实的性能数据。
RAG(Retrieval-Augmented Generation)是 LLM 落地的热门方案。但真正把它用到生产环境时,有太多文档不会告诉你的坑。这篇文章来自真实踩坑经验。