格灵深瞳正式推出超大规模中文视觉-语言预训练数据集“丹青”(danqing),涵盖1亿条高质量图文匹配样本,数据采集时间覆盖2024至2025年全网公开资源。该数据集引入更为精细的数据清洗与质量评估机制,实验结果显示:依托siglip2模型开展的基准测试表明,“丹青”在零样本图像分类、跨模态图文检索以及大型多模态模型综合能力评估等多项关键任务中均展现出卓越性能。

据项目团队介绍,其构建了一套融合BERTopic算法的主题建模 pipeline。具体而言,研究人员从全量数据中随机采样1000万组图像-文本对,并采用Chinese-CLIP-L/14模型提取文本侧语义嵌入向量;针对高维空间聚类易受噪声干扰的问题,团队先利用UMAP进行非线性降维,再通过HDBSCAN算法识别语义密集簇,设定最小簇规模为1000以增强聚类鲁棒性并抑制离群噪声;最终,基于各主题内部词频分布,采用类别加权TF-IDF策略提取最具代表性的关键词集合。

“丹青”数据集官方网站:https://www.php.cn/link/d63a68a590c7ccfcd1c00f5e229b5a6e










