如何正确分离特征与标签并重塑 NumPy 数组形状

聖光之護

发布时间：2026-01-20 20:26:31

757人浏览过

来源于php中文网

原创

如何正确分离特征与标签并重塑 NumPy 数组形状

本文详解如何从 pandas dataframe 中正确提取特征（x）和标签（y），避免因错误切片导致的维度错误（如“too many indices for array”），并确保 x_train 为 (100, 2)、y_train 为 (100, 1) 的合规形状，同时支持后续可视化与建模。

在机器学习数据预处理中，将原始表格数据正确拆分为特征矩阵 X_train 和标签向量 y_train 是关键一步。你当前的代码存在两个核心问题：

索引逻辑错误：data[0, [0,2]] 仅取第 0 行的第 0 和第 2 列，返回的是 shape 为 (2,) 的一维数组，而非全部 100 行；
维度不匹配：y_train 被错误赋值为与 X_train 相同的二维切片，导致后续布尔索引 y_train == 0 作用于二维数组时，无法直接用于索引二维 X_train（报错 “too many indices for array”）。

✅ 正确做法是使用 NumPy 切片语法，按行（所有行）和列（指定列范围）进行二维索引：

# 正确加载并分离数据（保持 NumPy 数组格式）
df = pd.read_excel('A3data.xlsx')
data = df[['Exam1', 'Exam2', 'Admission Decision']].to_numpy()  # shape: (100, 3)

# 提取前两列作为特征 X_train → shape (100, 2)
X_train = data[:, :2]  # 或 data[:, [0, 1]]

# 提取第三列（标签）并保持二维结构 → shape (100, 1)
y_train = data[:, 2:3]  # 关键：用切片 2:3 而非索引 [2]，保留第二维

⚠️ 注意：data[:, 2] 返回 shape (100,) 的一维数组，而 data[:, 2:3] 返回 (100, 1) —— 后者才能与 X_train 兼容进行布尔索引。

完成上述操作后，可视化即可正常运行：

LongCat AI

美团推出的AI对话问答工具

下载

# 安全的布尔索引（y_train 是 (100, 1)，y_train == 0 生成 (100, 1) 布尔数组）
x_class0 = X_train[y_train.ravel() == 0]  # 推荐：ravel() 转为 1D 布尔索引更直观
x_class1 = X_train[y_train.ravel() == 1]

# 绘图
plt.scatter(x_class0[:, 0], x_class0[:, 1], color='blue', label='Not Admitted')
plt.scatter(x_class1[:, 0], x_class1[:, 1], color='red', label='Admitted')
plt.xlabel('Exam 1 Score')
plt.ylabel('Exam 2 Score')
plt.legend()
plt.show()

? 进阶建议：

若需保留列名语义与类型安全，推荐全程使用 Pandas（无需转 NumPy）：
```
X_train = df[['Exam1', 'Exam2']]    # DataFrame, shape (100, 2)
y_train = df['Admission Decision']   # Series, shape (100,)
```
此时 X_train[y_train == 0] 可直接工作（Pandas 自动对齐索引）。
实际项目中，请务必在分离 X/y 之前执行 train_test_split，防止数据泄露。

总结：牢记 NumPy 切片中 : 表示“全部”，start:end 保持维度，避免用单索引破坏结构——这是规避维度错误最简单也最根本的原则。

如何用Python高效提取CSV数据并自动导入Word表格

如何高效地从CSV提取数据并自动导入Word生成表格

如何在Python中高效提取CSV数据并自动导入Word文档生成表格

如何用Python自动化将CSV数据导入并嵌入Word文档表格

如何高效将CSV数据导入Word并生成表格

相关标签:

excel ai red numpy pandas Array for 切片

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何在删除嵌套字典中不符合条件的项后重新编号键值下一篇：如何在Python中删除嵌套字典中的不符合条件项并重编号键

作者最新文章

PHP 中 fopen() 返回 true 的真相：警惕逻辑运算符的赋值陷阱

2026-01-19 22:04

DIY市场倒退18年 DDR3、SLC等旧时代存储芯片接棒涨价

2026-01-19 22:06

Python 中实现任意散点数据的双线性最小二乘拟合（含系数解析解）

2026-01-19 22:06

Tkinter 表格动态行管理：解决 Combobox 选择后数据错位问题

2026-01-19 22:29

荣耀500 Pro推出MOLLY 20周年限定联名版手机国补价3999元收藏实用双满足

2026-01-19 22:31

荣耀Magic8 RSR 保时捷设计发布超跑级先锋设计旗舰7999元起

2026-01-19 22:43

如何在 JPA 标准模式下正确生成并执行 DDL（创建数据库表）

2026-01-19 22:44

字节跳动 AI Agent 平台扣子 2.0 发布

2026-01-19 22:48

如何在用户选择 datalist 选项时触发 HTMX 请求

2026-01-19 22:52

Java 中无法实现可变数量泛型的元组类型

2026-01-19 22:57

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

go语言数组和切片

本专题整合了go语言数组和切片的区别与含义，阅读专题下面的文章了解更多详细内容。

2025.09.03

Java JVM 原理与性能调优实战

本专题系统讲解 Java 虚拟机（JVM）的核心工作原理与性能调优方法，包括 JVM 内存结构、对象创建与回收流程、垃圾回收器（Serial、CMS、G1、ZGC）对比分析、常见内存泄漏与性能瓶颈排查，以及 JVM 参数调优与监控工具（jstat、jmap、jvisualvm）的实战使用。通过真实案例，帮助学习者掌握 Java 应用在生产环境中的性能分析与优化能力。

2026.01.20

PS使用蒙版相关教程

本专题整合了ps使用蒙版相关教程，阅读专题下面的文章了解更多详细内容。

2026.01.19

java用途介绍

本专题整合了java用途功能相关介绍，阅读专题下面的文章了解更多详细内容。

2026.01.19

java输出数组相关教程

本专题整合了java输出数组相关教程，阅读专题下面的文章了解更多详细内容。

2026.01.19

java接口相关教程

本专题整合了java接口相关内容，阅读专题下面的文章了解更多详细内容。

2026.01.19

xml格式相关教程

本专题整合了xml格式相关教程汇总，阅读专题下面的文章了解更多详细内容。

2026.01.19

PHP WebSocket 实时通信开发

本专题系统讲解 PHP 在实时通信与长连接场景中的应用实践，涵盖 WebSocket 协议原理、服务端连接管理、消息推送机制、心跳检测、断线重连以及与前端的实时交互实现。通过聊天系统、实时通知等案例，帮助开发者掌握使用 PHP 构建实时通信与推送服务的完整开发流程，适用于即时消息与高互动性应用场景。

2026.01.19

热门下载

网站特效

网站源码

网站素材

前端模板