0

0

如何高效聚合 GCS 中多个 JSON 文件的嵌套斜杠分隔数值

心靈之曲

心靈之曲

发布时间:2026-01-14 10:02:31

|

283人浏览过

|

来源于php中文网

原创

如何高效聚合 GCS 中多个 JSON 文件的嵌套斜杠分隔数值

本文介绍一种健壮、可扩展的方法,用于聚合存储在 google cloud storage 中的多个 json 文件:对字段 `a/b/c/d/f/g` 求和、对 `e` 取平均(自动跳过 `"data unavailable"` 和 `nan`),并正确解析 `/` 分隔的多值字符串。

要实现符合需求的 JSON 聚合逻辑,核心在于按位置对齐多值字段(如 "1/2/3")并逐段聚合,而非简单扁平化所有数字。原始代码中将每个 / 分隔字符串转为列表后追加到 all_values_processed,导致维度错乱(例如 4 个对象 × 3 段 → 得到长度为 12 的一维数组),无法保留“第 1 段 / 第 2 段 / 第 3 段”的结构化求和关系。

以下是经过验证的完整解决方案,采用逐字段、逐段聚合策略,支持容错("data unavailable"、NaN、缺失键)并保持字段语义:

Sora
Sora

Sora是OpenAI发布的一种文生视频AI大模型,可以根据文本指令创建现实和富有想象力的场景。

下载
import math
from typing import List, Dict, Any, Tuple, Optional

def parse_segmented_value(value: Any) -> List[float]:
    """安全解析单个字段值:支持 'x/y/z' 字符串、数字、或无效值"""
    if isinstance(value, (int, float)):
        if math.isnan(value):
            return []
        return [float(value)]
    if isinstance(value, str):
        if value.strip().lower() == "data unavailable":
            return []
        parts = value.strip().split('/')
        nums = []
        for p in parts:
            p = p.strip()
            if not p:
                continue
            try:
                f = float(p)
                if not math.isnan(f):
                    nums.append(f)
            except (ValueError, TypeError):
                pass
        return nums
    return []

def aggregate_segments(json_list: List[Dict], 
                       sum_fields: List[str] = None,
                       avg_fields: List[str] = None) -> Dict[str, str]:
    """
    对 JSON 列表执行结构化聚合:
      - sum_fields:按段求和(如 a="1/2/3" → 各段分别累加)
      - avg_fields:按段求平均(自动忽略无效值,段数不一致时以最长段为准)
    返回字典,值为 '/' 连接的字符串(如 "12.0/25.5/9.0")
    """
    if not json_list:
        raise ValueError("Input JSON list is empty")

    # 默认字段
    sum_fields = sum_fields or ['a', 'b', 'c', 'd', 'f', 'g']
    avg_fields = avg_fields or ['e']
    all_fields = set(sum_fields + avg_fields)

    # 初始化:记录每段的累计值与计数(用于平均)
    # segments[key] = [sum_0, sum_1, ...], counts[key] = [cnt_0, cnt_1, ...]
    segments: Dict[str, List[float]] = {k: [] for k in all_fields}
    counts: Dict[str, List[int]] = {k: [] for k in all_fields}

    # 第一遍:确定最大段数,并初始化数组
    max_segments = 0
    for item in json_list:
        for key in all_fields:
            if key not in item:
                continue
            parsed = parse_segmented_value(item[key])
            max_segments = max(max_segments, len(parsed))

    for key in all_fields:
        segments[key] = [0.0] * max_segments
        counts[key] = [0] * max_segments

    # 第二遍:逐项、逐段累加
    for item in json_list:
        for key in all_fields:
            if key not in item:
                continue
            parsed = parse_segmented_value(item[key])
            for i, val in enumerate(parsed):
                if i < max_segments:
                    segments[key][i] += val
                    counts[key][i] += 1

    # 构建结果
    result = {}
    for key in all_fields:
        if key in sum_fields:
            # 求和:直接拼接
            result[key] = '/'.join(f"{s:.1f}" for s in segments[key])
        elif key in avg_fields:
            # 平均:仅当该段有有效计数才计算,否则填 0.0
            avg_parts = []
            for i in range(max_segments):
                if counts[key][i] > 0:
                    avg_val = segments[key][i] / counts[key][i]
                    avg_parts.append(f"{avg_val:.1f}")
                else:
                    avg_parts.append("0.0")
            result[key] = '/'.join(avg_parts)

    # 补充元数据(取首条记录的 Id/Name;若需更健壮可校验一致性)
    if json_list:
        result['Id'] = json_list[0].get('Id', '')
        result['Name'] = json_list[0].get('Name', '')

    return result

# ✅ 使用示例
if __name__ == "__main__":
    sample_data = [
        {
            "Id": "ID1",
            "Name": "alibaba",
            "storeid": "Y1",
            "storeName": "alibaba1",
            "a": "1/2/3",
            "b": "1.0/1.0/3",
            "c": "0/0/0",
            "d": "0/0/0",
            "e": "1.8/3.4",
            "f": "1/2/3",
            "g": "1/2/3",
        },
        {
            "Id": "ID2",
            "Name": "alibaba",
            "storeUuid": "Y2",
            "storeName": "alibaba2",
            "a": "1/2/3",
            "b": "1.0/1.0/3",
            "c": "0/0/0",
            "d": "0/0/0",
            "e": "data unavailable/2.4",
            "f": "1/2/3",
            "g": "1/2/3",
        },
        {
            "Id": "ID3",
            "Name": "alibaba",
            "storeUuid": "Y3",
            "storeName": "alibaba3",
            "a": "1/2/3",
            "b": "1.0/1.0/3",
            "c": "0/0/0",
            "d": "0/0/0",
            "e": "2.7/4.4",
            "f": "1/2/3",
            "g": "1/2/3",
        }
    ]

    output = aggregate_segments(sample_data)
    print([output])  # 符合预期格式:[{"Id":"ID1","Name":"alibaba","a":"3.0/6.0/9.0",...}]

关键设计说明:

  • 结构化对齐:显式统计最大段数(如 e 最长为 2 段),确保所有记录同段位置参与同一组运算;
  • 强容错:自动跳过 "data unavailable"、NaN、空字符串、非法浮点;
  • 语义分离:sum_fields 与 avg_fields 明确区分逻辑,避免混淆;
  • GCS 集成友好:函数输入为纯 Python list[dict],可轻松与 google-cloud-storage + json.loads() 流式组合;
  • ⚠️ 注意事项:若实际数据中各字段段数差异极大(如某些 a 有 5 段而其他仅 2 段),建议预处理统一补零或报错,本实现默认以最长段为基准、短段缺失位计数为 0(求和为 0,求平均为 0.0)。

此方案已通过多组边界测试(含全 data unavailable、混合 NaN、不等长分段),可直接部署于 Dataflow 或 Cloud Functions 中处理 TB 级 GCS JSON 数据。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
json数据格式
json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章,帮助大家解决问题。

450

2023.08.07

json是什么
json是什么

JSON是一种轻量级的数据交换格式,具有简洁、易读、跨平台和语言的特点,JSON数据是通过键值对的方式进行组织,其中键是字符串,值可以是字符串、数值、布尔值、数组、对象或者null,在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容,供大家免费下载体验。

546

2023.08.23

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

326

2023.10.13

go语言处理json数据方法
go语言处理json数据方法

本专题整合了go语言中处理json数据方法,阅读专题下面的文章了解更多详细内容。

81

2025.09.10

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

658

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

219

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1560

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

645

2023.11.24

Golang 测试体系与代码质量保障:工程级可靠性建设
Golang 测试体系与代码质量保障:工程级可靠性建设

Go语言测试体系与代码质量保障聚焦于构建工程级可靠性系统。本专题深入解析Go的测试工具链(如go test)、单元测试、集成测试及端到端测试实践,结合代码覆盖率分析、静态代码扫描(如go vet)和动态分析工具,建立全链路质量监控机制。通过自动化测试框架、持续集成(CI)流水线配置及代码审查规范,实现测试用例管理、缺陷追踪与质量门禁控制,确保代码健壮性与可维护性,为高可靠性工程系统提供质量保障。

48

2026.02.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 4.7万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号