类型节点用于描述字段中数据的特征。当字段的所有属性均已明确指定时,称之为完全实例化。需注意,字段的类型并不等同于其物理存储方式,而是反映数据所呈现的形式,例如字符串、整数、实数、日期、时间或时间戳等。
1、 范围
2、 用于表达数值型区间,如0~100或0.75~1.25,支持整数、实数以及日期时间类数据。
3、 离散
4、 主要适用于字符串型字段,在无法预估其不重复取值总数的情况下采用。该类型尚未实例化,即其具体存储机制与使用策略尚不明确。在完成数据读取后,系统将依据stream properties对话框中设定的最大集合容量,自动将其转换为flag、set或无类型中的一种。
5、 标志
6、 面向仅含两个互异取值的数据,例如“是/否”、“1/2”等。此类数据可表现为文本、整数、实数或日期时间形式,其中日期时间涵盖时间、日期及时间戳三种具体格式。
7、 集
8、 用于表示具有多个不同取值的数据项,每个取值均为集合中的独立成员,如“small”、“medium”、“large”。在当前版本Clementine中,集合可容纳数值、字符串或日期时间类型的元素。需特别指出:将字段设为集合类型,并不会强制改变其原始数据类型——各成员仍将保留其初始类型(如整数仍为整数,字符串仍为字符串)。
9、 有序集合
10、 用于刻画存在内在等级或顺序关系的多值分类变量,这类变量被称为有序集。典型示例包括薪资等级、客户满意度评分等。其内部元素按自然排序规则排列:整数序列(如1、3、5)依数值大小升序排列;字符串(如HIGH、LOW、NORMAL)则按字母表顺序升序组织。通过定义为有序集,分类变量可作为序数型数据参与建模分析,在可视化呈现、决策树算法(如C5.0、C&R Tree)以及两步聚类等模型中具备关键作用。此外,该类型支持导出至兼容序数属性的外部系统(如SPSS统计软件)。有序集的应用范围广泛,凡可使用普通集合字段之处,均可由有序集替代。无论底层数据是实数、整数、字符串,抑或是日期、时间等类型,均可被赋予有序集语义,从而更真实地体现数据本身的层级结构与顺序逻辑。
11、 无类型
12、 适用于不符合上述任一分类标准的数据,或成员数量异常庞大的集合型字段。尤其适合处理多成员集合(如账户列表)。一旦选定“无类型”,字段角色将自动设为“无”。默认情况下,集合最多允许包含250个唯一值,此上限可在流属性对话框中进行调整或禁用。

13、 值
14、 双击任意字段名,即可在Clementine中配置该字段的数据值及其标签。例如,可在类型节点中查看或编辑从SPSS导入的字段元信息,也可为字段本身及其可能取值添加新的语义标签。根据流属性对话框中的全局设置,类型节点中定义的标签将在整个分析流程中统一生效并展示。
15、 方向
16、 用于界定字段在建模过程中的功能定位,即作为输入变量(自变量)、输出变量(因变量),或其他特殊用途。除常规的Input与Output外,还提供Both(兼具输入与输出功能)和None(不参与建模)两种选项。Partition则表示该字段用于划分数据子集(如训练集、测试集、验证集),详细配置请参阅字段方向相关说明文档。
17、 缺失
18、 用于定义哪些值应被识别为空值(missing value)。
19、 检查
20、 在检查列中可设置校验条件,确保字段值落在预期的有效区间内。
21、 实例化设置
22、 通过“值”列可控制数据集数值的加载方式:选择“指定”将弹出新对话框以进行精细化配置;若选择“仅传递”,则仅转发字段定义而不提取实际数值。
23、 工具菜单按钮
24、 忽略唯一字段:自动跳过所有仅含单一取值的字段。
25、 忽略大型集合:自动排除成员数量超出阈值的集合型字段。
26、 创建筛选节点:生成一个过滤节点,用于移除指定字段中的特定数据。
27、 太阳镜模式切换
28、 可批量将全部字段的默认行为设为“读取”或“传递”。源节点的类型选项卡默认执行“传递”,而类型节点自身则默认启用“读取”。
29、 清空数值按钮
30、 可撤销对本节点字段值所做的修改(不包括继承自上游的值),并重新从上游获取原始数据。该操作常用于恢复上游某字段的初始配置状态。
31、 可一键将节点中所有字段的值重置为初始状态,使全部字段回归“读取”模式。此功能有助于清除已有数据缓存,确保后续流程能准确同步最新字段值与类型信息。
32、 启用查看未使用字段功能进行设置
33、 支持查看当前数据集中已不存在、或未连接至本类型节点的字段类型配置,便于在数据结构变更后复用已有类型节点设置。











