
本文详解如何基于预定义的序数等级(如 occupation_rank 字典)对分类数据进行有序排列,并绘制准确反映等级顺序的条形图(非直方图),涵盖排序逻辑、pandas 适配及 matplotlib 可视化最佳实践。
本文详解如何基于预定义的序数等级(如 occupation_rank 字典)对分类数据进行有序排列,并绘制准确反映等级顺序的条形图(非直方图),涵盖排序逻辑、pandas 适配及 matplotlib 可视化最佳实践。
在数据分析中,当面对具有语义顺序但非数值连续的分类变量(例如职业等级:'Farming-fishing' → 1,'Prof-specialty' → 14)时,直接调用 .hist() 会错误地将类别视为无序离散值或强制数值分箱,导致横轴失去可解释性——这本质上不是直方图(histogram)问题,而是有序条形图(ordered bar chart) 的构建任务。
关键在于:先按预设序数映射对类别重排序,再绘制频次条形图。以下是完整、可复现的实现流程:
✅ 步骤一:按序数等级排序职业类别
使用 sorted(..., key=itemgetter(1)) 按字典值(即 rank)升序排列键值对,并重建为有序字典(Python 3.7+ 原生保持插入顺序):
from operator import itemgetter
import pandas as pd
import matplotlib.pyplot as plt
occupation_rank = {
' Adm-clerical': 5,
' Exec-managerial': 13,
' Handlers-cleaners': 2,
' Prof-specialty': 14,
' Other-service': 4,
' Sales': 9,
' Craft-repair': 8,
' Transport-moving': 7,
' Farming-fishing': 1,
' Machine-op-inspct': 6,
' Tech-support': 10,
' Protective-serv': 11,
' Armed-Forces': 12,
' Priv-house-serv': 3
}
# 按 rank 升序排序,生成有序职业列表
ordered_occupations = [k for k, v in sorted(occupation_rank.items(), key=itemgetter(1))]
print("有序职业列表(由低到高):", ordered_occupations)
# 输出: [' Farming-fishing', ' Handlers-cleaners', ..., ' Prof-specialty']✅ 步骤二:统计频次并按指定顺序对齐
利用 pd.Categorical 强制 occupation 列遵循该顺序,再用 value_counts() 保证输出顺序一致:
# 假设 adult_data 是你的 DataFrame,且列名为 'occupation'
# 将 occupation 列转为按 rank 排序的有序分类类型
adult_data['occupation_cat'] = pd.Categorical(
adult_data['occupation'],
categories=ordered_occupations,
ordered=True
)
# 统计频次(自动按 categories 顺序返回)
freq_series = adult_data['occupation_cat'].value_counts().sort_index() # sort_index() 确保严格按 category 顺序✅ 步骤三:绘制语义清晰的有序条形图
避免使用 .hist()(它适用于连续数值分布),改用 .plot.bar() 并关闭网格以提升可读性:
plt.figure(figsize=(12, 6))
ax = freq_series.plot.bar(color='steelblue', width=0.8)
plt.title('职业频次分布(按预定义等级升序排列)', fontsize=14)
plt.xlabel('职业(等级由低到高)', fontsize=12)
plt.ylabel('频次', fontsize=12)
plt.xticks(rotation=45, ha='right')
plt.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.show()⚠️ 注意事项与常见误区
- 勿混淆 histogram 与 bar chart:直方图(hist())用于连续数值的区间分箱;而职业是离散、有序类别,必须用条形图(bar())。
- sort_index() ≠ sort_values():此处需按索引(即职业名)排序,因索引已按 ordered_occupations 对齐;若误用 sort_values(),会打乱等级顺序。
- 缺失类别处理:若数据中存在 occupation_rank 未覆盖的职业,Categorical 会将其设为 NaN;建议提前校验:adult_data['occupation'].isin(occupation_rank.keys()).all()。
- 可视化增强:可叠加等级数字标签(ax.bar_label())或用颜色渐变映射 rank 值,进一步强化顺序感知。
通过以上三步,你将获得一张横轴严格对应业务定义的序数等级、纵轴为真实频次的专业图表——这才是面向有序分类变量的正确可视化范式。










