Python机器学习使用网格搜索优化参数的完整方法说明【教程】-Python教程-PHP中文网

Python机器学习使用网格搜索优化参数的完整方法说明【教程】

舞姬之光

发布： 2025-12-18 17:25:46

原创

465人浏览过

网格搜索是系统化穷举指定参数组合、结合交叉验证评估并自动选出最优超参数的方法；其核心在于合理定义参数空间、调用GridSearchCV执行搜索，并通过best_params_等属性获取结果。

python机器学习使用网格搜索优化参数的完整方法说明【教程】

网格搜索（Grid Search）是机器学习中调参最常用、最可靠的方法之一，它通过穷举所有指定参数组合，在交叉验证下评估模型性能，自动选出最优参数。关键不是“全试”，而是“有策略地穷举”——你得先明确哪些参数重要、取值范围是否合理、计算资源能否承受。

一、准备基础模型和参数空间

选好你要优化的模型（比如 RandomForestClassifier 或 SVC），再列出真正影响性能的超参数。别一股脑把所有参数都塞进去——参数越多，组合爆炸越快。例如随机森林，通常重点调 n_estimators、max_depth、min_samples_split 就够了；SVM 则优先关注 C 和 gamma。

参数空间用字典定义，支持列表或 scikit-learn 提供的分布类（如 LogUniform），但标准网格搜索只认列表：

param_grid = {
    'n_estimators': [100, 200, 300],
    'max_depth': [3, 5, 7, None],
    'min_samples_split': [2, 4, 6]
}

二、套用 GridSearchCV 进行搜索

核心是 GridSearchCV 类：它封装了训练、交叉验证、评分、结果汇总全过程。注意几个关键参数：

立即学习“Python免费学习笔记（深入）”；

Hugging Face

Hugging Face AI开源社区

270

查看详情

cv：建议用 StratifiedKFold(n_splits=5)（分类）或 KFold（回归），比默认的 5 折更稳定
scoring：明确指定评估指标，如 'f1'、'roc_auc'、'neg_mean_squared_error'；多指标可用列表，但 refit 需指定主指标
n_jobs：设为 -1 能自动用满 CPU 核心，大幅提速（尤其参数组合多时）
verbose：设为 1 或 2 可看实时进度，避免干等

示例代码：

from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier(random_state=42)
grid = GridSearchCV(
    model,
    param_grid,
    cv=5,
    scoring='f1',
    n_jobs=-1,
    verbose=1
)
grid.fit(X_train, y_train)

三、查看与使用最优结果

拟合完成后，grid.best_params_ 给出最优参数字典，grid.best_score_ 是对应交叉验证平均分，grid.best_estimator_ 是已用最优参数重新训练好的完整模型，可直接用于预测：

print("最优参数：", grid.best_params_)
print("CV 得分：", grid.best_score_)

y_pred = grid.best_estimator_.predict(X_test)

还想看全部组合表现？访问 grid.cv_results_——它是个字典，含 'param_n_estimators'、'mean_test_score'、'std_test_score' 等键，转成 DataFrame 更方便分析：

import pandas as pd
results = pd.DataFrame(grid.cv_results_)
results[['param_max_depth', 'param_n_estimators', 'mean_test_score', 'std_test_score']]
.sort_values('mean_test_score', ascending=False)