Python梯度下降怎么写_批量下降与随机梯度下降更新原理与Python代码实现

P粉602998670

发布时间：2026-03-12 15:39:15

680人浏览过

来源于php中文网

原创

<p>梯度下降更新公式为 theta = theta - learning_rate * gradient，其中 gradient 必须是当前参数下损失函数对 theta 的真实偏导，且需特征归一化、合理设 learning_rate 与 batch_size 才能稳定收敛。</p>

python梯度下降怎么写_批量下降与随机梯度下降更新原理与python代码实现

梯度下降更新公式怎么写才不跑偏

梯度下降本质是用负梯度方向去逼近损失最小点，关键不是“写出来”，而是每一步更新是否真的在减小损失。常见错误是直接套公式但忘了 learning_rate 太大导致发散，或没对特征做归一化让梯度方向歪掉。

theta = theta - learning_rate * gradient 是通用形式，但 gradient 必须是当前参数下的真实梯度（比如对 loss 关于 theta 求偏导）
线性回归中，gradient 就是 X.T @ (X @ theta - y) / m（批量），注意除以样本数 m 保证梯度量级稳定
如果 X 各列量纲差十倍（比如年龄 vs 收入），梯度会严重偏向大数值特征，训练抖动甚至不收敛——必须先做 StandardScaler 或手动归一化
用 np.allclose(loss_history[-2:], atol=1e-6) 判断收敛比固定迭代次数更可靠

批量梯度下降（BGD）的 Python 实现要点

BGD 每次用全部数据算梯度，更新稳但慢，适合小数据集或需要精确解的场景。容易被忽略的是矩阵运算维度和内存占用。

输入 X 应为 (m, n)，y 为 (m, 1) 或 (m,)；若 y 是一维，X @ theta - y 会触发广播，但结果仍是正确形状
别写 for i in range(m): grad += ... ——纯 Python 循环太慢，必须用向量化：grad = X.T @ (X @ theta - y) / m
如果 m 超过 10 万，X.T @ X 可能爆内存，此时即使叫“批量”，也得切块或换 SGD

示例核心片段：

theta = np.zeros((X.shape[1], 1))<br>for _ in range(max_iter):<br>    pred = X @ theta<br>    grad = X.T @ (pred - y) / len(y)<br>    theta -= lr * grad

随机梯度下降（SGD）为什么 loss 曲线跳得厉害

SGD 每次只用一个样本算梯度，更新快、省内存，但梯度噪声大，loss 不单调下降是正常现象，不是 bug。

飞书多维表格

表格形态的AI工作流搭建工具，支持批量化的AI创作与分析任务，接入DeepSeek R1满血版

下载

不能直接用 np.random.choice 每次抽一个——那样可能漏样本或重复太多；应先 np.random.shuffle(indices)，再按序遍历
学习率必须衰减，比如 lr = lr0 / (1 + decay * t)，否则后期更新幅度过大会绕着最优点打转
单样本梯度是 x_i.T @ (x_i @ theta - y_i)（无除法），注意 x_i 是行向量，需转成列向量再参与运算，否则 shape 报错
验证时别用单个样本算 loss，要用全量或 mini-batch 验证，否则评估失真

mini-batch SGD 怎么设 batch_size 才合理

这是实际项目中最常用的折中方案，batch_size 太小接近 SGD 噪声大，太大接近 BGD 内存压力高。

立即学习“Python免费学习笔记（深入）”；

常见取值：16、32、64、128 —— 优先选 2 的幂，GPU 显存对齐更高效
如果显存允许，batch_size=64 在多数中小数据集上训练稳定性与速度平衡得最好
不要设 batch_size=len(X) 还叫 mini-batch；也不要把 batch_size=1 当成 mini-batch——那是 SGD
PyTorch/TensorFlow 里 DataLoader 自动处理切片和 drop_last，手写时注意最后一批不足 batch_size 时要不要丢弃（drop_last=True 更稳）

梯度下降真正难的不是写几行代码，而是每次更新前确认：梯度算对了没、学习率跟得上当前 loss 曲率没、数据有没有悄悄破坏了假设。这些地方一松懈，模型就只是在拟合噪声。

如何高效地对字典列表进行排序（Python 教程）

Python 类属性动态更新与依赖初始化的正确实践

Python包版本冲突怎么办_pip依赖解析错误解决思路与方案

Python Tkinter Radiobutton怎么用_单选按钮组绑定IntVar变量实现互斥选择操作

Python源码级面试题汇总_解释器原理

相关标签:

python batch for 循环切片 len 线性回归 tensorflow bug

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Pandas怎么存Excel文件_to_excel()与多Sheet写入ExcelWriter用法下一篇：如何在保留首列字符串的前提下，用每行数值列的均值填充 NaN

作者最新文章

mysql如何使用加密与解密函数_mysql md5/sha2/aes_encrypt

2026-03-12 11:13

如何在Java中过滤List中的空值_Stream.filter与Objects.nonNull结合

2026-03-12 11:13

Golang指针基础：什么时候该使用指针 Go语言指针传递性能评估

2026-03-12 11:14

CSS如何实现带有粒子感的按钮点击过渡_结合伪元素与transition动画配合

2026-03-12 11:14

CSS如何实现带自适应文本的圆形标签_通过Aspect-ratio固定比例css

2026-03-12 11:15

如何在Golang中利用Build Tags实现按需编译 Go语言条件编译文件名规则

2026-03-12 11:15

Django怎么跑起来_runserver命令与本地开发服务器启动

2026-03-12 11:16

CSS如何实现多层重叠的卡片布局_通过逐级增加z-index与relative偏移

2026-03-12 11:17

NumPy如何按权重抽样_np.random.choice()的p参数设置概率分布

2026-03-12 11:17

大型复杂数据库如何进行逻辑模型转为物理模型_模块化管理方案

2026-03-12 11:16

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

go语言数组和切片

本专题整合了go语言数组和切片的区别与含义，阅读专题下面的文章了解更多详细内容。

2025.09.03

go语言数组和切片

本专题整合了go语言数组和切片的区别与含义，阅读专题下面的文章了解更多详细内容。

2025.09.03

Python AI机器学习PyTorch教程_Python怎么用PyTorch和TensorFlow做机器学习

PyTorch 是一种用于构建深度学习模型的功能完备框架，是一种通常用于图像识别和语言处理等应用程序的机器学习。使用Python 编写，因此对于大多数机器学习开发者而言，学习和使用起来相对简单。 PyTorch 的独特之处在于，它完全支持GPU，并且使用反向模式自动微分技术，因此可以动态修改计算图形。

2025.12.22

Python 深度学习框架与TensorFlow入门

本专题深入讲解 Python 在深度学习与人工智能领域的应用，包括使用 TensorFlow 搭建神经网络模型、卷积神经网络（CNN）、循环神经网络（RNN）、数据预处理、模型优化与训练技巧。通过实战项目（如图像识别与文本生成），帮助学习者掌握如何使用 TensorFlow 开发高效的深度学习模型，并将其应用于实际的 AI 问题中。

186

2026.01.07

TensorFlow2深度学习模型实战与优化

本专题面向 AI 与数据科学开发者，系统讲解 TensorFlow 2 框架下深度学习模型的构建、训练、调优与部署。内容包括神经网络基础、卷积神经网络、循环神经网络、优化算法及模型性能提升技巧。通过实战项目演示，帮助开发者掌握从模型设计到上线的完整流程。

2026.02.10

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

2026.03.06

热门下载

网站特效

网站源码

网站素材

前端模板