悠米是只猫

悠米是只猫

Ollama 使用指南:从安装到高级配置

2025-03-20

摘要

Ollama 是一个强大的本地大语言模型(LLM)运行工具,支持 macOS、Windows 和 Linux。本文将详细介绍如何升级 Ollama、查看日志、配置 GPU 加速、调整上下文窗口大小、管理模型存储位置,以及优化并发请求处理。此外,我们还会探讨如何在代理服务器后使用 Ollama、如何预加载模型以提升响应速度,以及如何启用 Flash Attention 和量化 K/V 缓存来优化性能。


1. 如何升级 Ollama?

  • macOS 和 Windows:Ollama 会自动下载更新,只需在任务栏或菜单栏中点击 “重新启动以更新” 即可应用最新版本。

Linux:重新运行安装脚本:

curl -fsSL https://ollama.com/install.sh | sh

2. 如何查看日志?

Ollama 的日志可用于故障排查,具体方法请参考官方 故障排除文档。


3. 我的 GPU 与 Ollama 兼容吗?

参考 GPU 文档 确认您的 GPU 是否支持 Ollama。


4. 如何调整上下文窗口大小?

默认上下文窗口大小为 2048 个 token,可通过环境变量调整:

OLLAMA_CONTEXT_LENGTH=8192 ollama serve

或在使用 ollama run 时设置:

/set parameter num_ctx 4096

API 调用时指定 num_ctx

{
  "model": "llama3.2",
  "prompt": "Why is the sky blue?",
  "options": { "num_ctx": 4096 }
}

5. 如何判断模型是否加载到 GPU?

运行 ollama ps,查看 Processor 列:

  • 100% GPU:完全加载到 GPU

  • 100% CPU:完全加载到系统内存

  • 48%/52% CPU/GPU:部分加载到 GPU 和内存


6. 如何配置 Ollama 服务器?

macOS

launchctl setenv OLLAMA_HOST "0.0.0.0:11434"

重启 Ollama 生效。

Linux (systemd)

sudo systemctl edit ollama.service

添加:

[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"

然后重启:

sudo systemctl daemon-reload
sudo systemctl restart ollama

Windows

通过 控制面板 > 环境变量 设置 OLLAMA_HOSTOLLAMA_MODELS,然后重启 Ollama。


7. 如何在代理后使用 Ollama?

设置 HTTPS_PROXY不要设置 HTTP_PROXY):

export HTTPS_PROXY=https://proxy.example.com

Docker 代理配置

docker run -d -e HTTPS_PROXY=https://proxy.example.com -p 11434:11434 ollama/ollama

8. 如何公开 Ollama 到网络?

默认绑定 127.0.0.1:11434,修改 OLLAMA_HOST 以更改绑定地址:

OLLAMA_HOST=0.0.0.0:11434 ollama serve

9. 如何预加载模型以提升响应速度?

使用 API 预加载:

curl http://localhost:11434/api/generate -d '{"model": "mistral"}'

或 CLI:

ollama run llama3.2 ""

10. 如何优化并发请求?

调整以下环境变量:

  • OLLAMA_MAX_LOADED_MODELS:最大同时加载模型数(默认 3)

  • OLLAMA_NUM_PARALLEL:每个模型的并行请求数(默认 4)

  • OLLAMA_MAX_QUEUE:最大排队请求数(默认 512)


11. 如何启用 Flash Attention?

减少内存占用,提升大上下文性能:

OLLAMA_FLASH_ATTENTION=1 ollama serve

12. 如何量化 K/V 缓存?

减少内存使用,可选 f16(默认)、q8_0q4_0

OLLAMA_KV_CACHE_TYPE=q8_0 ollama serve

结论

Ollama 提供了灵活的配置选项,适用于不同硬件和网络环境。通过优化 GPU 加速、调整上下文大小、预加载模型和启用 Flash Attention,可以显著提升性能。希望本指南能帮助您更好地使用 Ollama!

如需更多帮助,请访问 Ollama 官方文档。 🚀