需先安装ollama运行时并验证版本,再拉取deepseek-coder:6.7b或deepseek-r1:14b模型,接着用ollama run启动交互式会话,或通过ollama serve启用api服务,最后可配置nvidia gpu加速。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

如果您希望在本地运行DeepSeek模型,但尚未配置Ollama环境,则可能是由于Ollama未安装或模型未正确拉取。以下是完成DeepSeek本地部署的步骤:
一、安装Ollama运行时
Ollama是一个轻量级工具,用于在本地启动和管理大语言模型,它提供命令行接口与模型交互,并自动处理GPU加速和模型加载。确保系统满足最低依赖要求是成功部署的前提。
1、访问 https://ollama.com/download,根据您的操作系统(Windows/macOS/Linux)下载对应安装包。
2、双击安装程序并按提示完成安装;Linux用户可执行 curl -fsSL https://ollama.com/install.sh | sh 安装。
3、打开终端或命令提示符,输入 ollama --version 验证是否返回版本号。
二、拉取DeepSeek官方模型
Ollama支持直接从其模型库中拉取预构建的DeepSeek模型镜像,无需手动下载权重文件或配置参数。拉取过程将自动适配当前硬件环境。
1、在终端中执行 ollama pull deepseek-coder:6.7b 获取代码专用版本。
2、如需通用对话能力,运行 ollama pull deepseek-r1:14b 拉取R1系列模型。
3、执行 ollama list 确认模型名称与状态显示为 loaded。
三、通过命令行运行DeepSeek模型
使用Ollama内置的run命令可快速启动交互式会话,适用于调试、测试及简单推理任务,无需额外编写服务代码。
1、输入 ollama run deepseek-coder:6.7b 启动模型并进入聊天界面。
2、键入问题如 “请生成一个Python函数,计算斐波那契数列前n项” 并回车。
3、等待响应输出完毕后,输入 /exit 退出当前会话。
四、启动Ollama API服务
Ollama默认以API服务器形式运行,允许外部应用(如前端界面、LangChain脚本)通过HTTP请求调用模型,这是集成到自定义系统的关键步骤。
1、在终端中运行 ollama serve 启动后台服务,端口默认为 11434。
2、新开终端窗口,执行 curl http://localhost:11434/api/tags 检查服务是否响应模型列表JSON。
3、发送推理请求:运行 curl http://localhost:11434/api/chat -d '{"model":"deepseek-r1:14b","messages":[{"role":"user","content":"你好"}]}'。
五、配置GPU加速(NVIDIA显卡)
若本地配备NVIDIA GPU,启用CUDA可显著提升推理速度与上下文处理能力,Ollama会在检测到驱动后自动启用GPU卸载。
1、确认已安装 NVIDIA驱动(v525+)与nvidia-container-toolkit。
2、Linux用户执行 sudo ollama serve 启动服务以获取设备权限。
3、运行 OLLAMA_NUM_GPU=1 ollama run deepseek-r1:14b 强制启用单GPU加速。











