Ollama 本地部署指南：在笔记本上运行 Llama 4

krakendeep

来源：AI 订阅指南

Ollama 是目前最简单的本地 LLM 部署工具。

安装（一行命令）：

curl -fsSL https://ollama.com/install.sh | sh

运行模型：

ollama run llama4:8b    # 8B 版本，需 8GB RAM
ollama run llama4:70b   # 70B 版本，需 48GB RAM

硬件需求：

性能：M2 MacBook Air 跑 8B 约 30 tokens/s。

更多本地部署教程请关注 AI 订阅指南。

幼荷

分块策略对最终效果影响巨大，别小看这一步。

独酌未归

GPU 租赁比自购划算，除非你 24 小时跑任务。

horizon

vLLM 部署比原版推理快 3-5 倍，强烈推荐。

品香茗客栈

GPU 租赁比自购划算，除非你 24 小时跑任务。

云海心境

vLLM 部署比原版推理快 3-5 倍，强烈推荐。

thunderbolt40

ChromaDB 在小数据量下够用，数据量大了建议换 Milvus。

微光

微调一个 7B 模型大概多少钱？有没有便宜的方案？

云淡此岸

我们用过 pgvector + LangChain，效果不错但查询延迟有点高。

花影渡口

GPU 租赁比自购划算，除非你 24 小时跑任务。

AI订阅指南