Ollama 使用指南:从安装到高级配置
编辑摘要
Ollama 是一个强大的本地大语言模型(LLM)运行工具,支持 macOS、Windows 和 Linux。本文将详细介绍如何升级 Ollama、查看日志、配置 GPU 加速、调整上下文窗口大小、管理模型存储位置,以及优化并发请求处理。此外,我们还会探讨如何在代理服务器后使用 Ollama、如何预加载模型以提升响应速度,以及如何启用 Flash Attention 和量化 K/V 缓存来优化性能。
1. 如何升级 Ollama?
macOS 和 Windows:Ollama 会自动下载更新,只需在任务栏或菜单栏中点击 “重新启动以更新” 即可应用最新版本。
Linux:重新运行安装脚本:
curl -fsSL https://ollama.com/install.sh | sh
2. 如何查看日志?
Ollama 的日志可用于故障排查,具体方法请参考官方 故障排除文档。
3. 我的 GPU 与 Ollama 兼容吗?
参考 GPU 文档 确认您的 GPU 是否支持 Ollama。
4. 如何调整上下文窗口大小?
默认上下文窗口大小为 2048 个 token,可通过环境变量调整:
OLLAMA_CONTEXT_LENGTH=8192 ollama serve
或在使用 ollama run
时设置:
/set parameter num_ctx 4096
API 调用时指定 num_ctx
:
{
"model": "llama3.2",
"prompt": "Why is the sky blue?",
"options": { "num_ctx": 4096 }
}
5. 如何判断模型是否加载到 GPU?
运行 ollama ps
,查看 Processor
列:
100% GPU:完全加载到 GPU
100% CPU:完全加载到系统内存
48%/52% CPU/GPU:部分加载到 GPU 和内存
6. 如何配置 Ollama 服务器?
macOS
launchctl setenv OLLAMA_HOST "0.0.0.0:11434"
重启 Ollama 生效。
Linux (systemd)
sudo systemctl edit ollama.service
添加:
[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"
然后重启:
sudo systemctl daemon-reload
sudo systemctl restart ollama
Windows
通过 控制面板 > 环境变量 设置 OLLAMA_HOST
和 OLLAMA_MODELS
,然后重启 Ollama。
7. 如何在代理后使用 Ollama?
设置 HTTPS_PROXY
(不要设置 HTTP_PROXY
):
export HTTPS_PROXY=https://proxy.example.com
Docker 代理配置
docker run -d -e HTTPS_PROXY=https://proxy.example.com -p 11434:11434 ollama/ollama
8. 如何公开 Ollama 到网络?
默认绑定 127.0.0.1:11434
,修改 OLLAMA_HOST
以更改绑定地址:
OLLAMA_HOST=0.0.0.0:11434 ollama serve
9. 如何预加载模型以提升响应速度?
使用 API 预加载:
curl http://localhost:11434/api/generate -d '{"model": "mistral"}'
或 CLI:
ollama run llama3.2 ""
10. 如何优化并发请求?
调整以下环境变量:
OLLAMA_MAX_LOADED_MODELS
:最大同时加载模型数(默认 3)OLLAMA_NUM_PARALLEL
:每个模型的并行请求数(默认 4)OLLAMA_MAX_QUEUE
:最大排队请求数(默认 512)
11. 如何启用 Flash Attention?
减少内存占用,提升大上下文性能:
OLLAMA_FLASH_ATTENTION=1 ollama serve
12. 如何量化 K/V 缓存?
减少内存使用,可选 f16
(默认)、q8_0
、q4_0
:
OLLAMA_KV_CACHE_TYPE=q8_0 ollama serve
结论
Ollama 提供了灵活的配置选项,适用于不同硬件和网络环境。通过优化 GPU 加速、调整上下文大小、预加载模型和启用 Flash Attention,可以显著提升性能。希望本指南能帮助您更好地使用 Ollama!
如需更多帮助,请访问 Ollama 官方文档。 🚀
- 1
- 0
-
分享