2024 年中,Cursor 爆火、Windsurf 入场、Copilot 全面更新、Devin 正式发布。AI Coding 工具进入战国时代。这篇文章帮你梳理各家的核心差异和实际体验。
vLLM 是当下最流行的开源 LLM 推理引擎。它的 PagedAttention 技术让同等硬件下 throughput 提升 24 倍。这篇文章讲清楚 vLLM 是什么、怎么部署、以及实际使用中的注意事项。
2024 年上半年,小型开源模型爆发:Mistral 7B、Phi-3、Gemma 陆续发布,3B/7B 模型就能跑出接近 GPT-3.5 的效果。本文分析这波小模型浪潮背后的原因和实际影响。
Ollama 让本地跑 LLM 变得极其简单。一个命令就能起模型,Mac 上 7B 模型跑得流畅。这篇是实战记录,讲清楚怎么用、什么时候用、以及真实的性能数据。
RAG(Retrieval-Augmented Generation)是 LLM 落地的热门方案。但真正把它用到生产环境时,有太多文档不会告诉你的坑。这篇文章来自真实踩坑经验。
不是一篇过期的模型擂台赛,而是一篇放到 2026 还站得住的开源模型比较方法:怎么从指令跟随、多语言、代码能力、延迟、内存占用、许可约束和本地部署适配度来做负责任的判断。