Ollama 使用指南：从安装到高级配置

小角落

摘要

Ollama 是一个强大的本地大语言模型（LLM）运行工具，支持 macOS、Windows 和 Linux。本文将详细介绍如何升级 Ollama、查看日志、配置 GPU 加速、调整上下文窗口大小、管理模型存储位置，以及优化并发请求处理。此外，我们还会探讨如何在代理服务器后使用 Ollama、如何预加载模型以提升响应速度，以及如何启用 Flash Attention 和量化 K/V 缓存来优化性能。

1. 如何升级 Ollama？

macOS 和 Windows：Ollama 会自动下载更新，只需在任务栏或菜单栏中点击 “重新启动以更新” 即可应用最新版本。

Linux：重新运行安装脚本：

curl -fsSL https://ollama.com/install.sh | sh

2. 如何查看日志？

Ollama 的日志可用于故障排查，具体方法请参考官方故障排除文档。

3. 我的 GPU 与 Ollama 兼容吗？

参考 GPU 文档确认您的 GPU 是否支持 Ollama。

4. 如何调整上下文窗口大小？

默认上下文窗口大小为 2048 个 token，可通过环境变量调整：

OLLAMA_CONTEXT_LENGTH=8192 ollama serve

或在使用 ollama run 时设置：

/set parameter num_ctx 4096

API 调用时指定 num_ctx：

{
  "model": "llama3.2",
  "prompt": "Why is the sky blue?",
  "options": { "num_ctx": 4096 }
}

5. 如何判断模型是否加载到 GPU？

运行 ollama ps，查看 Processor 列：

100% GPU：完全加载到 GPU
100% CPU：完全加载到系统内存
48%/52% CPU/GPU：部分加载到 GPU 和内存

6. 如何配置 Ollama 服务器？

macOS

launchctl setenv OLLAMA_HOST "0.0.0.0:11434"

重启 Ollama 生效。

Linux (systemd)

sudo systemctl edit ollama.service

添加：

[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"

然后重启：

sudo systemctl daemon-reload
sudo systemctl restart ollama

Windows

通过 控制面板 > 环境变量 设置 OLLAMA_HOST 和 OLLAMA_MODELS，然后重启 Ollama。

7. 如何在代理后使用 Ollama？

设置 HTTPS_PROXY（不要设置 HTTP_PROXY）：

export HTTPS_PROXY=https://proxy.example.com

Docker 代理配置

docker run -d -e HTTPS_PROXY=https://proxy.example.com -p 11434:11434 ollama/ollama

8. 如何公开 Ollama 到网络？

默认绑定 127.0.0.1:11434，修改 OLLAMA_HOST 以更改绑定地址：

OLLAMA_HOST=0.0.0.0:11434 ollama serve

9. 如何预加载模型以提升响应速度？

使用 API 预加载：

curl http://localhost:11434/api/generate -d '{"model": "mistral"}'

或 CLI：

ollama run llama3.2 ""

10. 如何优化并发请求？

调整以下环境变量：

OLLAMA_MAX_LOADED_MODELS：最大同时加载模型数（默认 3）
OLLAMA_NUM_PARALLEL：每个模型的并行请求数（默认 4）
OLLAMA_MAX_QUEUE：最大排队请求数（默认 512）

11. 如何启用 Flash Attention？

减少内存占用，提升大上下文性能：

OLLAMA_FLASH_ATTENTION=1 ollama serve

12. 如何量化 K/V 缓存？

减少内存使用，可选 f16（默认）、q8_0、q4_0：

OLLAMA_KV_CACHE_TYPE=q8_0 ollama serve

结论

Ollama 提供了灵活的配置选项，适用于不同硬件和网络环境。通过优化 GPU 加速、调整上下文大小、预加载模型和启用 Flash Attention，可以显著提升性能。希望本指南能帮助您更好地使用 Ollama！

如需更多帮助，请访问 Ollama 官方文档。 🚀

如果觉得文章对你有用，请随意赞赏

大模型 AI deepseek 开源 github 软件 ollama 服务器 Server 容器系统

Ollama 使用指南：从安装到高级配置

https://www.niujinkai.com/archives/1742461481543.html

作者

哦吼

发布于

2025-03-20

更新于

2025-03-26

许可协议

CC BY 4.0

Ollama 使用指南：从安装到高级配置

摘要

1. 如何升级 Ollama？

2. 如何查看日志？

3. 我的 GPU 与 Ollama 兼容吗？

4. 如何调整上下文窗口大小？

5. 如何判断模型是否加载到 GPU？

6. 如何配置 Ollama 服务器？

macOS

Linux (systemd)

Windows

7. 如何在代理后使用 Ollama？

Docker 代理配置

8. 如何公开 Ollama 到网络？

9. 如何预加载模型以提升响应速度？

10. 如何优化并发请求？

11. 如何启用 Flash Attention？

12. 如何量化 K/V 缓存？

结论

作者

发布于

更新于

许可协议

评论