0

0

Python中如何进行特征工程?Featuretools

爱谁谁

爱谁谁

发布时间:2025-07-02 18:27:02

|

522人浏览过

|

来源于php中文网

原创

1.featuretools通过自动化特征生成提升python特征工程效率,其核心步骤包括:构建entityset定义数据关系;使用dfs算法自动生成特征。2.示例代码展示了如何从customers和transactions表创建entityset,添加数据与时间索引,并定义客户与交易的关系。3.执行dfs时指定聚合与转换算子,生成客户特征矩阵,max_depth控制特征复杂度。4.加入products表可扩展entityset,实现跨多表自动特征提取,如客户购买产品的平均价格等。5.面对大规模数据,可通过限制max_depth、选择性使用算子、自定义primitives及设置cutoff_time优化性能。6.生成的大量特征需后续进行特征选择与后处理以提高模型效果。

Python中如何进行特征工程?Featuretools

在Python中进行特征工程,尤其是在处理复杂关系数据时,Featuretools是一个非常强大的工具,它通过自动化特征生成过程,极大地提升了效率和模型性能。它能将散落在不同表格中的信息,巧妙地聚合、转化,最终形成模型可以直接使用的特征矩阵,这大大减轻了数据科学家手动构建特征的负担。

Python中如何进行特征工程?Featuretools

解决方案

使用Featuretools进行特征工程的核心步骤,首先是构建一个EntitySet来描述数据中的实体(表)及其之间的关系。接着,利用Deep Feature Synthesis (DFS)算法自动生成大量潜在特征。

Python中如何进行特征工程?Featuretools

假设我们有两张表:customers(客户信息)和transactions(交易记录),每个客户有多笔交易。

立即学习Python免费学习笔记(深入)”;

import featuretools as ft
import pandas as pd

# 模拟数据
customers_df = pd.DataFrame({
    'customer_id': [1, 2, 3],
    'age': [30, 45, 22],
    'gender': ['M', 'F', 'M']
})

transactions_df = pd.DataFrame({
    'transaction_id': [101, 102, 103, 104, 105],
    'customer_id': [1, 1, 2, 3, 2],
    'amount': [10.5, 20.0, 5.0, 15.0, 8.0],
    'transaction_time': pd.to_datetime(['2023-01-01', '2023-01-05', '2023-01-02', '2023-01-03', '2023-01-06'])
})

# 1. 创建EntitySet
es = ft.EntitySet(id="customer_transactions")

# 2. 添加实体(表)到EntitySet
# index参数指定主键
es = es.add_dataframe(dataframe_name="customers",
                      dataframe=customers_df,
                      index="customer_id")

es = es.add_dataframe(dataframe_name="transactions",
                      dataframe=transactions_df,
                      index="transaction_id",
                      time_index="transaction_time") # 针对时间序列数据,指定time_index

# 3. 定义实体之间的关系
# relationship(parent_dataframe_name, parent_dataframe_index, child_dataframe_name, child_dataframe_foreign_key)
# 这里表示transactions表通过customer_id与customers表关联
es = es.add_relationship(parent_dataframe_name="customers",
                         parent_column_name="customer_id",
                         child_dataframe_name="transactions",
                         child_column_name="customer_id")

# 4. 执行Deep Feature Synthesis (DFS)
# target_dataframe_name 指定我们希望为哪个实体生成特征
# agg_primitives: 聚合特征,如SUM, MEAN, COUNT等
# trans_primitives: 转换特征,如DAY, MONTH, SINE等
features, feature_defs = ft.dfs(entityset=es,
                                target_dataframe_name="customers",
                                agg_primitives=["sum", "mean", "count", "max", "min"],
                                trans_primitives=["day", "month", "weekday"],
                                max_depth=2) # max_depth控制特征的复杂程度

print(features.head())

这段代码展示了如何从原始数据到生成特征矩阵的全过程。max_depth参数控制了特征的“深度”,比如max_depth=2意味着可以从客户的交易中聚合出特征,然后这些聚合特征还可以再进行转换。

Python中如何进行特征工程?Featuretools

Featuretools的核心理念:从数据关系到自动化特征

我第一次接触Featuretools时,那种感觉就像是发现了一个宝藏。它最吸引我的地方,就是它对“数据关系”的深刻理解和自动化。传统特征工程,我们往往需要手动去思考不同表之间怎么连接、怎么聚合、怎么转换,这不仅耗时,而且非常依赖领域知识和经验。Featuretools则把这个过程抽象成一个叫做EntitySet的东西。

EntitySet就好比一个数据库的Schema,它不仅仅存储了各个数据表(在Featuretools里叫dataframeentity),更重要的是,它明确定义了这些表之间的主外键关系。有了这些关系,Featuretools的Deep Feature Synthesis (DFS)算法就能像一个不知疲倦的侦探一样,沿着这些关系链条,自动探索并生成各种有意义的特征。它会尝试各种聚合(比如一个客户的总交易额、平均交易额),也会尝试各种转换(比如交易日期是周几、月份),甚至会将聚合后的特征再进行转换,形成更复杂的特征。这种层层递进、由浅入深的特征生成方式,正是“Deep”的含义。它模仿了人类专家在分析数据时,从基本事实出发,逐步构建复杂概念的思维过程。这玩意儿,真有点意思。

Cursor
Cursor

一个新的IDE,使用AI来帮助您重构、理解、调试和编写代码。

下载

实践:如何用Featuretools快速构建基础特征

上面已经给出了一个基本的代码示例,但我想再强调一些实践中的细节。在使用Featuretools时,最容易让人一头雾水的地方,可能是如何正确地定义EntitySet以及其中的relationship。如果你有多个表,而且它们之间存在复杂的层级关系(比如客户-订单-订单详情),那么你需要确保所有的主键和外键都正确地被识别和关联。

举个例子,如果我们的transactions表还有个product_id,并且我们有个products表:

# 模拟产品数据
products_df = pd.DataFrame({
    'product_id': [1001, 1002, 1003],
    'category': ['Electronics', 'Books', 'Food'],
    'price_per_unit': [500, 20, 5]
})

# 再次创建EntitySet,加入products表
es_complex = ft.EntitySet(id="customer_transactions_products")

es_complex = es_complex.add_dataframe(dataframe_name="customers",
                                      dataframe=customers_df,
                                      index="customer_id")

es_complex = es_complex.add_dataframe(dataframe_name="transactions",
                                      dataframe=transactions_df,
                                      index="transaction_id",
                                      time_index="transaction_time")

es_complex = es_complex.add_dataframe(dataframe_name="products",
                                      dataframe=products_df,
                                      index="product_id")

# 添加客户与交易的关系
es_complex = es_complex.add_relationship(parent_dataframe_name="customers",
                                         parent_column_name="customer_id",
                                         child_dataframe_name="transactions",
                                         child_column_name="customer_id")

# 添加交易与产品的关系
es_complex = es_complex.add_relationship(parent_dataframe_name="products",
                                         parent_column_name="product_id",
                                         child_dataframe_name="transactions",
                                         child_column_name="product_id") # 假设transactions表有product_id列

# 现在可以为customers生成特征,这些特征会包含产品信息
# 比如:客户购买的平均产品价格,客户购买过的产品类别数量等
features_complex, feature_defs_complex = ft.dfs(entityset=es_complex,
                                                target_dataframe_name="customers",
                                                agg_primitives=["sum", "mean", "count"],
                                                trans_primitives=[],
                                                max_depth=3) # 深度可以更深,以探索更复杂的特征

print(features_complex.head())

通过这样的方式,Featuretools能够自动从customers -> transactions -> products的路径上,为每个客户聚合出与产品相关的特征。这在传统方法下,需要多次的mergegroupby操作,而且容易出错。

超越基础:Featuretools在复杂场景下的优化与考量

尽管Featuretools功能强大,但在处理大规模或极端复杂的数据时,它也面临一些挑战,需要我们进行优化和考量。

首先是计算性能。当你的EntitySet包含数十亿行数据,或者关系深度非常大时,dfs的计算时间可能会非常长。这时,我们可以考虑以下策略:

  • 减少max_depth:过深的特征不一定总是有用,反而会急剧增加计算量。通常max_depth=23就能捕捉到大部分有用的信息。
  • 选择性使用primitives:Featuretools内置了非常多的agg_primitivestrans_primitives。并非所有都适用于你的数据。只选择那些你认为可能相关的,可以显著减少特征数量和计算时间。
  • 自定义primitives:如果你有一些非常特定的业务逻辑需要生成特征,但Featuretools没有内置相应的primitive,你可以自己编写。这虽然增加了工作量,但能确保特征的业务相关性,同时避免生成大量无用特征。
  • cutoff_time的使用:在时间序列预测任务中,我们通常需要避免数据穿越(data leakage),即用未来的信息预测过去。cutoff_time参数允许你指定一个时间点,只使用该时间点之前的数据来生成特征。这对于模拟真实的预测场景至关重要,也能控制每次特征生成的数据量。

其次是特征爆炸与特征选择。Featuretools的“自动化”在某种程度上也意味着“无差别生成”,它可能会生成成千上万个特征,其中大部分可能是高度相关、冗余或根本无用的。这会导致模型训练时间增加、过拟合风险上升。

  • 事后特征选择:生成特征后,你需要进行传统的特征选择步骤,例如使用树模型的重要性、相关性分析、PCA降维等方法来筛选出最有价值的特征。
  • 预设特征列表:如果你对某些特征组合有明确的预期,可以直接在ft.dfs中通过features_only参数指定要生成的特征定义列表,而不是让它完全自由探索。这需要对数据和业务有较深的理解。

最后,Featuretools生成的特征虽然多,但并非所有都是“完美”的。有些特征可能需要进一步的后处理,比如缺失值填充、异常值处理、特征缩放等。Featuretools更多的是一个特征“生成器”,而不是一个“完美特征”输出器。它为你提供了一个强大的起点,但后续的数据清洗和预处理工作依然不可或缺。理解这些,能帮助你更高效、更负责任地使用Featuretools。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

500

2023.08.14

数据库三范式
数据库三范式

数据库三范式是一种设计规范,用于规范化关系型数据库中的数据结构,它通过消除冗余数据、提高数据库性能和数据一致性,提供了一种有效的数据库设计方法。本专题提供数据库三范式相关的文章、下载和课程。

389

2023.06.29

如何删除数据库
如何删除数据库

删除数据库是指在MySQL中完全移除一个数据库及其所包含的所有数据和结构,作用包括:1、释放存储空间;2、确保数据的安全性;3、提高数据库的整体性能,加速查询和操作的执行速度。尽管删除数据库具有一些好处,但在执行任何删除操作之前,务必谨慎操作,并备份重要的数据。删除数据库将永久性地删除所有相关数据和结构,无法回滚。

2111

2023.08.14

vb怎么连接数据库
vb怎么连接数据库

在VB中,连接数据库通常使用ADO(ActiveX 数据对象)或 DAO(Data Access Objects)这两个技术来实现:1、引入ADO库;2、创建ADO连接对象;3、配置连接字符串;4、打开连接;5、执行SQL语句;6、处理查询结果;7、关闭连接即可。

357

2023.08.31

MySQL恢复数据库
MySQL恢复数据库

MySQL恢复数据库的方法有使用物理备份恢复、使用逻辑备份恢复、使用二进制日志恢复和使用数据库复制进行恢复等。本专题为大家提供MySQL数据库相关的文章、下载、课程内容,供大家免费下载体验。

259

2023.09.05

vb中怎么连接access数据库
vb中怎么连接access数据库

vb中连接access数据库的步骤包括引用必要的命名空间、创建连接字符串、创建连接对象、打开连接、执行SQL语句和关闭连接。本专题为大家提供连接access数据库相关的文章、下载、课程内容,供大家免费下载体验。

329

2023.10.09

数据库对象名无效怎么解决
数据库对象名无效怎么解决

数据库对象名无效解决办法:1、检查使用的对象名是否正确,确保没有拼写错误;2、检查数据库中是否已存在具有相同名称的对象,如果是,请更改对象名为一个不同的名称,然后重新创建;3、确保在连接数据库时使用了正确的用户名、密码和数据库名称;4、尝试重启数据库服务,然后再次尝试创建或使用对象;5、尝试更新驱动程序,然后再次尝试创建或使用对象。

420

2023.10.16

vb连接access数据库的方法
vb连接access数据库的方法

vb连接access数据库方法:1、使用ADO连接,首先导入System.Data.OleDb模块,然后定义一个连接字符串,接着创建一个OleDbConnection对象并使用Open() 方法打开连接;2、使用DAO连接,首先导入 Microsoft.Jet.OLEDB模块,然后定义一个连接字符串,接着创建一个JetConnection对象并使用Open()方法打开连接即可。

480

2023.10.16

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

26

2026.03.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 5万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号