0

0

利用Python和Pandas生成混合型虚拟数据:数值与分类字段的正确实践

霞舞

霞舞

发布时间:2025-09-19 13:33:21

|

822人浏览过

|

来源于php中文网

原创

利用Python和Pandas生成混合型虚拟数据:数值与分类字段的正确实践

本文详细介绍了如何使用Python、Pandas和NumPy高效生成包含数值和分类数据的虚拟数据集,特别针对在生成多行分类数据时常见的错误进行解析。通过示例代码,教程演示了如何正确利用列表推导式结合random.choice()为DataFrame的分类列生成随机且独立的字符串值,避免了仅生成单一重复值的常见陷阱,并提供了代码优化和最佳实践建议。

1. 虚拟数据生成背景与常见挑战

在数据分析、机器学习模型开发或软件测试中,经常需要创建包含多种数据类型的虚拟数据集。一个典型场景是生成既有数值型(如面积、价格)又有分类型(如区域、类型)的数据。使用python中的pandas库结合numpy和random模块是实现这一目标的常用方法。然而,在处理分类数据时,初学者常会遇到一个误区,即错误地为整个列生成了单个重复值,而非期望的随机分布。

例如,当尝试为DataFrame的“Borough”列填充来自预定义列表的随机区域名称时,如果代码实现不当,可能会出现以下结果:

       Sq. feet    Price  Borough
0           112   345382        5
1           310   901500        5
2           215   661033        5
3           147  1038431        5
4           212   296497        5

上述输出中,“Borough”列被错误地填充了单一的数字5,而非预期的区域名称。这通常是由于对Python中随机数生成函数的工作方式理解不当所致。

2. 问题根源分析:单值生成与列表生成

造成上述问题的原因在于对random.randrange()或random.choice()的调用方式。在初始的错误实现中,代码可能类似于:

WORDS = ["Chelsea", "Kensington", ...]
word = random.choice(WORDS) # 随机选择一个词,例如 "Pimlico"
# 错误用法:
# "Borough" : random.randrange(len(word)) 
# 假设 word 是 "Pimlico",len(word) 是 7。
# random.randrange(7) 会生成一个 0 到 6 之间的整数,例如 5。
# 这个操作在 DataFrame 构建时只执行一次,因此所有 50000 行都会得到这个单一的整数 5。

这里的问题在于:

立即学习Python免费学习笔记(深入)”;

  1. random.choice(WORDS)只选择了一个单词,并将其赋值给变量word
  2. len(word)计算的是这个 单个 单词的长度。
  3. random.randrange(len(word))则从0到该长度减1的范围内选择一个 整数
  4. 最关键的是,这个表达式在DataFrame的列定义中只被评估 一次。这意味着,无论DataFrame有多少行,该列的所有值都将是这个单次评估的结果。

为了为DataFrame的每一行生成一个独立的随机分类值,我们需要一个包含SIZE个随机选择元素的列表,而不是一个单一的标量值。

3. 正确生成分类数据的策略

要正确地为DataFrame的分类列生成随机值,我们需要创建一个与DataFrame行数相同长度的列表,其中每个元素都是从预定义分类列表中随机选择的结果。实现这一目标的最佳方式是使用列表推导式(List Comprehension)。

核心思想:

MusicLM
MusicLM

谷歌平台的AI作曲工具,用文字生成音乐

下载

我们希望对每一行都执行 random.choice(BOROUGHS) 操作,并将所有结果收集到一个列表中。

# 假设 BOROUGHS 是你的分类列表
# 假设 SIZE 是你的行数
[random.choice(BOROUGHS) for _ in range(SIZE)]

这个列表推导式会循环SIZE次,每次循环都从BOROUGHS列表中随机选择一个元素,并将其添加到新生成的列表中。最终,这个列表将包含SIZE个随机选择的区域名称,每个名称都是独立的。

4. 完整的示例代码与解释

以下是修正后的代码,用于生成包含数值和分类数据的虚拟数据集:

import random
import pandas as pd
import numpy as np

# 定义数据集的行数,使用变量可以提高代码的可维护性
SIZE = 50_000 

# 定义分类数据的列表,建议使用更具描述性的变量名
BOROUGHS = ["Chelsea", "Kensington", "Westminster", "Pimlico", "Bank", 
            "Holborn", "Camden", "Islington", "Angel", "Battersea", 
            "Knightsbridge", "Bermondsey", "Newham"]

# 设置NumPy的随机种子以确保结果可复现
np.random.seed(1) 

# 使用Pandas创建DataFrame
data = pd.DataFrame({
    # 生成“Sq. feet”列:75到325之间的随机整数,共SIZE个
    "Sq. feet": np.random.randint(low=75, high=325, size=SIZE),

    # 生成“Price”列:200000到1250000之间的随机整数,共SIZE个
    "Price": np.random.randint(low=200000, high=1250000, size=SIZE),

    # 生成“Borough”列:使用列表推导式,从BOROUGHS中随机选择SIZE个元素
    "Borough": [random.choice(BOROUGHS) for _ in range(SIZE)]
})

# 将DataFrame保存为CSV文件,不包含索引
data.to_csv("realestate.csv", index=False)

# 打印DataFrame的前几行以验证结果
print(data.head())

代码解释:

  • SIZE = 50_000: 将重复使用的数字(如行数)定义为常量,便于修改和维护。
  • BOROUGHS = [...]: 明确定义了所有可能的分类值。
  • np.random.seed(1): 设置NumPy的随机种子,使得每次运行代码时生成的数值数据都是相同的,这对于调试和结果复现非常重要。
  • np.random.randint(low, high, size): 这是NumPy生成指定范围和数量整数的有效方法,适用于“Sq. feet”和“Price”等数值列。
  • [random.choice(BOROUGHS) for _ in range(SIZE)]: 这是解决分类数据生成问题的关键。
    • range(SIZE)生成一个从0到SIZE-1的序列。
    • _是一个占位符变量,表示我们不关心循环的当前索引值。
    • random.choice(BOROUGHS)在每次迭代中都会从BOROUGHS列表中随机选择一个元素。
    • 整个表达式构建了一个包含SIZE个随机区域名称的列表,这个列表随后被赋给“Borough”列。

5. 预期输出示例

运行上述代码后,data.head()的输出将如下所示,显示“Borough”列已正确填充为随机的区域名称:

       Sq. feet    Price      Borough
0           112   345382      Pimlico
1           310   901500    Battersea
2           215   661033      Holborn
3           147  1038431  Westminster
4           212   296497      Holborn

6. 注意事项与最佳实践

  • 变量命名: 使用清晰、描述性的变量名(如BOROUGHS而不是WORDS,SIZE而不是直接使用数字)可以显著提高代码的可读性和可维护性。
  • 可复现性: 对于数值型数据,使用np.random.seed()可以确保每次运行代码时生成的数据保持一致,这在开发和测试阶段非常有用。对于random模块的随机性,也可以使用random.seed()。
  • 列表推导式: 熟练掌握列表推导式是Python编程中的一项重要技能,它能以简洁高效的方式创建列表,尤其适合这种批量生成数据的场景。
  • 性能考量: 对于非常大的数据集(例如数百万行),虽然列表推导式通常效率很高,但也可以考虑NumPy的np.random.choice()方法,它可能在某些情况下提供更好的性能,尤其当分类数据可以被映射为整数索引时。例如:np.random.choice(BOROUGHS, size=SIZE)。

7. 总结

生成包含混合数据类型的虚拟数据集是数据科学工作流中的常见任务。通过理解random模块函数的行为以及利用列表推导式等Python特性,我们可以有效地为DataFrame的数值列和分类列生成准确、多样且符合期望的随机数据。遵循良好的编程实践,如使用常量定义重复值和设置随机种子,将进一步提升代码的质量和可维护性。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

62

2025.12.04

数据类型有哪几种
数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

309

2023.10.31

php数据类型
php数据类型

本专题整合了php数据类型相关内容,阅读专题下面的文章了解更多详细内容。

222

2025.10.31

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1502

2023.10.24

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

298

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

212

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1502

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

624

2023.11.24

java入门学习合集
java入门学习合集

本专题整合了java入门学习指南、初学者项目实战、入门到精通等等内容,阅读专题下面的文章了解更多详细学习方法。

1

2026.01.29

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.4万人学习

Django 教程
Django 教程

共28课时 | 3.7万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号