0

0

解决Snowflake中保存的编码器无法用于推理新数据的问题

碧海醫心

碧海醫心

发布时间:2025-11-01 12:13:12

|

912人浏览过

|

来源于php中文网

原创

解决snowflake中保存的编码器无法用于推理新数据的问题

本文旨在解决在Snowflake中保存OneHotEncoder和OrdinalEncoder后,用于推理新数据时出现`ufunc 'isnan' not supported`错误的问题。文章将深入探讨问题原因,并提供一份详细的解决方案,包括正确的编码器调用方式、数据类型转换以及优化的UDF函数实现,确保模型在Snowflake环境中能够稳定可靠地进行预测。

在Snowflake中部署机器学习模型时,将预处理步骤(如One-Hot Encoding和Ordinal Encoding)集成到用户自定义函数(UDF)中是常见的做法。然而,在将训练好的编码器保存到Snowflake并尝试用于新数据推理时,可能会遇到各种问题,其中一个常见的问题是ufunc 'isnan' not supported错误。本文将详细介绍如何解决这个问题,并提供一个完整的示例,展示如何在Snowflake中正确地加载和使用编码器进行推理。

问题分析

ufunc 'isnan' not supported错误通常表明在尝试对包含非数值数据(例如字符串)的数据执行数值操作。这通常发生在以下情况下:

  1. 数据类型不匹配: 输入到编码器的数据类型与编码器训练时使用的数据类型不一致。
  2. 缺失值处理不当: 编码器在训练时没有正确处理缺失值,导致在推理时遇到未知的缺失值。
  3. 编码器调用错误: 在UDF中错误地使用了Snowpark API而不是scikit-learn API来转换数据。

解决方案

以下步骤将帮助您解决在Snowflake中保存的编码器无法用于推理新数据的问题:

1. 确保数据类型一致性

在训练和推理阶段,确保输入到编码器的数据类型一致。例如,如果训练数据中的某一列是字符串类型,那么在推理时,该列也必须是字符串类型。可以使用Snowflake的CAST函数或Snowpark的astype方法来转换数据类型。

天工大模型
天工大模型

中国首个对标ChatGPT的双千亿级大语言模型

下载

2. 正确处理缺失值

在训练编码器时,使用handle_unknown和unknown_value参数来处理未知值和缺失值。例如,对于OneHotEncoder,可以将handle_unknown设置为'ignore'来忽略未知类别。对于OrdinalEncoder,可以使用unknown_value参数指定未知值的编码。

from snowflake.ml.modeling.preprocessing import OneHotEncoder,OrdinalEncoder
import numpy as np

# OneHotEncoder示例
ohe = OneHotEncoder(handle_unknown='ignore', input_cols='CATEGORY', output_cols='ROUTE_OHE')
ohe.fit(mock_df)

# OrdinalEncoder示例
categories = {
    "AIRPORT": np.array(['A', 'B', 'C'])
}
oe = OrdinalEncoder(
    handle_unknown='use_encoded_value', unknown_value=-1,
    encoded_missing_value=-1, input_cols='AIRPORT',
    output_cols='AIRPORT_ENCODE',
    categories=categories
)
oe.fit(mock_ohe)

3. 使用正确的编码器API

在UDF中,由于使用的是Pandas DataFrame,因此需要使用scikit-learn API来转换数据,而不是Snowpark API。将Snowpark的编码器转换为scikit-learn的编码器,再进行数据转换。

# 将Snowpark编码器转换为scikit-learn编码器
ohe_obj = ohe.to_sklearn()
oe_obj = oe.to_sklearn()

# 在UDF中使用scikit-learn API进行转换
df_ohe = ohe_obj.transform(df[['ROUTE_CATEGORY_NAME']])

4. 优化UDF函数

为了提高推理性能,可以使用@cachetools.cached装饰器来缓存加载的模型,避免每次调用UDF时都重新加载模型。此外,可以使用向量化UDF,一次性处理整个DataFrame,而不是逐行处理。

import cachetools
import pandas as pd
from snowflake.snowpark.types import PandasDataFrameType,PandasSeriesType,PandasDataFrame,PandasSeries
import snowflake.snowpark.functions as F

@cachetools.cached(cache={})
def read_file(filename):
    import sys
    import os
    import joblib
    # Get the "path" of where files added through iport are avalible
    import_dir = sys._xoptions.get("snowflake_import_directory")
    if import_dir:
        with open(os.path.join(import_dir, filename), 'rb') as file:
            m = joblib.load(file)
            return m

@F.udf(
        name='predict_package_mix_p',session=session,replace=True,
        is_permanent=True,stage_location='@AM_TEST_UDFS',
        input_type=PandasDataFrameType([IntegerType(),StringType(),StringType(),StringType(),StringType(),StringType(),IntegerType()], list(test_df.schema.names)),
        return_type=PandasSeriesType(FloatType())
)
def predict_package_mix_p(
    df:PandasDataFrame
) -> PandasSeries:
    import pandas as pd
    from joblib import load
    import sklearn
    import xgboost as xgb
    import json
    import snowflake.ml.modeling

    def transform_simple_target_encode_manual(
            df,transform_col,transform_df
        ):
        df = df.merge(transform_df, on=transform_col)
        return df

    def remove_space(df):
        cols = df.columns
        space_cols = [x for x in cols if ' ' in x]
        for c in space_cols:
            new_col = c.replace(" ","_")
            df = df.rename(columns={c:new_col})
        return df

    ohe = read_file('one_hot_encode.pkl')
    oe = read_file('ordinal_encode.pkl')
    te = pd.read_csv(import_dir + 'target_encoding.csv.gz')
    model = read_file('xgb_model.pkl.gz')
    print('loaded models')

    features = [
        "LS1_FLIGHT_ID","DEPARTURE_AIRPORT_CODE","ARRIVAL_AIRPORT_CODE",
        "ROUTE_CATEGORY_NAME","DEPARTURE_DATETIME_LOCAL",
        "ARRIVAL_DATETIME_LOCAL","CAPACITY"
    ]

    df.columns = features
    print('loaded dataframe')

    # transform data for one hot and ordinal encodings
    df_ohe = ohe.transform(df[['ROUTE_CATEGORY_NAME']])
    encoded_df = pd.DataFrame(df_ohe, columns=ohe.categories_)
    encoded_df.columns = encoded_df.columns.get_level_values(0)
    encoded_df = encoded_df.add_prefix('ROUTE_NAME_OHE_')
    df = pd.concat([df, encoded_df], axis=1)
    df['DEPART_CODE_ENCODE'] = oe.transform(df[['DEPARTURE_AIRPORT_CODE']])

    print('transformed via one hot and ordinal')
    # transform using pre-set target encoding
    df_te = transform_simple_target_encode_manual(df,'ARRIVAL_AIRPORT_CODE',te)
    df_final = remove_space(df_te)
    print('transformed via target encode')

    # change date cols to datetime
    df_final.loc[:,'DEPARTURE_DATETIME_LOCAL'] = pd.to_datetime(
        df_final.loc[:,'DEPARTURE_DATETIME_LOCAL'],format='%Y-%m-%d %H:%M:%S',yearfirst=True
    )
    df_final['ARRIVAL_DATETIME_LOCAL'] = pd.to_datetime(
        df_final['ARRIVAL_DATETIME_LOCAL'],format='%Y-%m-%d %H:%M:%S',yearfirst=True
    )
    print('transformed dates')

    df_final['DEPART_HOUR'] = df_final['DEPARTURE_DATETIME_LOCAL'].dt.hour
    # snowpark function goes from 1-7 whereas pandas goes from 0-6
    df_final['DEPART_WEEKDAY'] = df_final['DEPARTURE_DATETIME_LOCAL'].dt.day_of_week + 1
    df_final['DEPART_MONTHDAY'] = df_final['DEPARTURE_DATETIME_LOCAL'].dt.day
    df_final['DEPART_YEARDAY'] = df_final['DEPARTURE_DATETIME_LOCAL'].dt.day_of_year
    df_final['DEPART_MONTH'] = df_final['DEPARTURE_DATETIME_LOCAL'].dt.month
    df_final['DEPART_YEAR'] = df_final['DEPARTURE_DATETIME_LOCAL'].dt.year
    df_final['ARRIVE_HOUR'] = df_final['ARRIVAL_DATETIME_LOCAL'].dt.hour
    print('created features')

    pm = pd.Series(model.predict(df_final[
            ["DEPART_CODE_ENCODE","ROUTE_NAME_OHE_CITY","ROUTE_NAME_OHE_FAR_SUN",
            "ROUTE_NAME_OHE_SKI","ROUTE_NAME_OHE_SUN","CAPACITY",
            "ARRIVAL_AIRPORT_CODE_ENCODED","DEPART_HOUR",
            "DEPART_WEEKDAY","DEPART_MONTHDAY","DEPART_YEARDAY",
            "DEPART_MONTH","DEPART_YEAR","ARRIVE_HOUR"]
        ]))
    return pm

5. 注意事项

  • 列名大小写: Snowflake在存储表时,会将列名转换为大写。因此,在UDF中引用列名时,需要使用大写。
  • 模型和编码器版本: 确保在训练和推理阶段使用的模型和编码器版本一致。
  • 依赖包: 在Snowflake中注册UDF时,需要添加所有必要的依赖包,例如pandas、joblib、xgboost和scikit-learn。

总结

通过遵循上述步骤,您可以解决在Snowflake中保存的编码器无法用于推理新数据的问题,并构建一个稳定可靠的机器学习推理流程。关键在于确保数据类型一致性,正确处理缺失值,使用正确的编码器API,并优化UDF函数以提高性能。记住,仔细检查代码,并参考Snowflake的官方文档,可以帮助您避免许多常见的错误。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

79

2025.12.04

Python 数据清洗与预处理实战
Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术,包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换,结合 NumPy 高效处理大规模数据。通过实战案例,帮助学习者掌握 如何处理混乱、不完整数据,为后续数据分析与机器学习模型训练打下坚实基础。

32

2026.01.31

数据类型有哪几种
数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

337

2023.10.31

php数据类型
php数据类型

本专题整合了php数据类型相关内容,阅读专题下面的文章了解更多详细内容。

224

2025.10.31

c语言 数据类型
c语言 数据类型

本专题整合了c语言数据类型相关内容,阅读专题下面的文章了解更多详细内容。

138

2026.02.12

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

760

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

221

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1566

2023.10.24

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

76

2026.03.11

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
WEB前端教程【HTML5+CSS3+JS】
WEB前端教程【HTML5+CSS3+JS】

共101课时 | 10.1万人学习

JS进阶与BootStrap学习
JS进阶与BootStrap学习

共39课时 | 3.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号