0

0

将Google API响应对象转换为Pandas DataFrame的实用指南

碧海醫心

碧海醫心

发布时间:2025-10-10 08:00:33

|

611人浏览过

|

来源于php中文网

原创

将Google API响应对象转换为Pandas DataFrame的实用指南

本文旨在提供一种将Google Analytics Admin API的ListCustomDimensionsPager响应对象转换为Pandas DataFrame的有效方法。当API响应不是标准JSON或字典格式,且无法直接序列化时,本教程通过迭代响应、进行字符串格式化和JSON解析,最终构建出结构化的DataFrame,帮助用户高效处理API返回的数据。

1. 理解问题:API响应对象的挑战

在使用google analytics admin api(或其他基于grpc或protobuf的api)时,通常会遇到其响应对象并非标准的python字典或列表,也无法直接进行json序列化。例如,admin_v1beta.analyticsadminserviceclient().list_custom_dimensions() 方法返回的是一个 listcustomdimensionspager 类型的对象。

from google.analytics.admin import admin_v1beta
import pandas as pd
import json

def get_custom_dimensions_raw(property_filter):
    """
    获取Google Analytics自定义维度原始API响应。
    """
    client = admin_v1beta.AnalyticsAdminServiceClient()
    request = admin_v1beta.ListCustomDimensionsRequest(
        parent=property_filter
    )
    return client.list_custom_dimensions(request=request)

# 示例调用
# ga4_custom_dimensions = get_custom_dimensions_raw("properties/YOUR_PROPERTY_ID")
# print(type(ga4_custom_dimensions))
# <class 'google.analytics.admin_v1beta.services.analytics_admin_service.pagers.ListCustomDimensionsPager'>

直接尝试将此类对象转换为JSON(如 json.dumps(ga4_custom_dimensions.__dict__) 或 json.dumps(vars(ga4_custom_dimensions)))会导致 TypeError: Object of type _GapicCallable is not JSON serializable。同样,pd.json_normalize() 或直接的字典式索引(如 ga4_custom_dimensions['custom_dimensions'])也无法奏效,因为 ListCustomDimensionsPager 对象不支持这些操作。

问题的核心在于,ListCustomDimensionsPager 是一个迭代器,其内部的每个元素是 CustomDimension 类型的protobuf消息对象,虽然其 __dict__ 属性包含了数据,但格式并非标准的JSON字符串,且包含内部私有属性和非标准键值对表示,导致无法直接解析。

2. 解决方案:迭代、字符串格式化与JSON解析

解决此问题的方法是迭代 ListCustomDimensionsPager 对象,对每个 CustomDimension 消息对象进行处理。由于直接序列化失败,我们可以利用其 __dict__ 属性的字符串表示,通过一系列字符串替换操作将其转换为有效的JSON格式,然后使用 json.loads() 解析,最终构建Pandas DataFrame。

PathFinder
PathFinder

AI驱动的销售漏斗分析工具

下载

以下是详细的步骤和代码实现:

2.1 核心处理函数

from google.analytics.admin import admin_v1beta
import pandas as pd
import json

def get_custom_dimensions_dataframe(property_filter):
    """
    从Google Analytics Admin API获取自定义维度,并将其转换为Pandas DataFrame。

    参数:
        property_filter (str): GA4媒体资源ID,格式为 "properties/YOUR_PROPERTY_ID"。

    返回:
        pd.DataFrame: 包含自定义维度数据的DataFrame。
    """
    client = admin_v1beta.AnalyticsAdminServiceClient()
    request = admin_v1beta.ListCustomDimensionsRequest(
        parent=property_filter
    )

    # 获取原始API响应,这是一个可迭代的Pager对象
    full_response_pager = client.list_custom_dimensions(request=request)

    df_list = []

    # 遍历Pager中的每个CustomDimension对象
    for response_item in full_response_pager:
        # 1. 获取对象的内部字典表示
        step1 = response_item.__dict__

        # 2. 将字典转换为字符串,这是进行字符串替换的基础
        step2 = str(step1)

        # 3. 执行一系列字符串替换,将非标准的键值对格式转换为有效的JSON格式
        # 原始字符串中键没有引号,值如果是字符串也没有引号,布尔值/枚举值也需要特殊处理。
        # 移除内部的'_pb'属性,因为它不是我们关心的数据,且可能干扰JSON解析。
        step3 = step2.replace(': name:', ': "name" :')
        step4 = step3.replace('parameter_name:', ', "parameter_name" :')
        step5 = step4.replace('display_name:', ', "display_name" :')
        step6 = step5.replace('description:', ', "description" :')
        step7 = step6.replace('scope:', ', "scope" :')
        step8 = step7.replace('disallow_ads_personalization: true', ', "disallow_ads_personalization" : "true"')
        step9 = step8.replace("'_pb': ", "") # 移除内部私有属性
        step10 = step9.replace(' : EVENT', ' : "EVENT"') # 为枚举值添加引号
        step11 = step10.replace(' : USER', ' : "USER"')   # 为枚举值添加引号

        # 4. 处理Unicode转义字符:
        # 有时字符串中可能包含形如 '\xXX' 的转义字符,需要先编码为UTF-8,再解码为Unicode字符串。
        step12 = step11.encode('utf-8').decode('unicode_escape')

        # 5. 将处理后的字符串加载为JSON对象
        # 注意:此时的字符串应该是一个有效的JSON格式的字典字符串
        try:
            step13 = json.loads(step12)
            df_list.append(step13)
        except json.JSONDecodeError as e:
            print(f"JSON解析错误: {e}")
            print(f"问题字符串: {step12}")
            # 可以选择跳过此项或记录错误
            continue

    # 6. 从JSON对象列表创建Pandas DataFrame
    return pd.DataFrame(df_list)

2.2 使用示例

# 替换为您的GA4媒体资源ID
GA4_PROPERTY_ID = "YOUR_PROPERTY_ID" 

# 调用函数获取DataFrame
custom_dimension_df = get_custom_dimensions_dataframe(f"properties/{GA4_PROPERTY_ID}")

# 打印DataFrame的前几行和信息
print(custom_dimension_df.head())
print("\nDataFrame信息:")
custom_dimension_df.info()

# 示例:保存到CSV文件
# custom_dimension_df.to_csv("ga4_custom_dimensions.csv", index=False, encoding="utf-8")

3. 注意事项与总结

  • 字符串替换的局限性: 这种通过字符串替换来构造JSON的方法虽然有效,但并不“优雅”,且对原始字符串的格式高度敏感。如果API响应的内部字符串表示发生变化,可能需要调整 str.replace() 步骤。
  • 字段完整性: 上述代码仅处理了 name, parameter_name, display_name, description, scope, disallow_ads_personalization 等字段。如果 CustomDimension 对象包含其他字段,且您需要将其纳入DataFrame,则需要添加相应的 str.replace() 规则。
  • 错误处理: 增加了 try-except 块来捕获 json.JSONDecodeError,这在处理API响应时是良好的实践,以防某个响应项的字符串格式未能被完全纠正。
  • 替代方案(若API支持): 理想情况下,API响应对象会提供 .to_dict() 或 .to_json() 等方法,直接将对象转换为Python字典或JSON字符串。在没有这些便捷方法时,上述字符串替换方案提供了一种可行的“黑箱”处理方式。
  • 性能考量: 对于大量数据,字符串替换操作可能相对耗时。然而,对于大多数Google Analytics Admin API的使用场景,自定义维度数量通常有限,因此性能影响可以接受。

通过上述方法,您可以成功地将Google Analytics Admin API返回的复杂响应对象转换为易于分析和处理的Pandas DataFrame,从而更好地利用您的GA4数据。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
json数据格式
json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章,帮助大家解决问题。

457

2023.08.07

json是什么
json是什么

JSON是一种轻量级的数据交换格式,具有简洁、易读、跨平台和语言的特点,JSON数据是通过键值对的方式进行组织,其中键是字符串,值可以是字符串、数值、布尔值、数组、对象或者null,在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容,供大家免费下载体验。

547

2023.08.23

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

337

2023.10.13

go语言处理json数据方法
go语言处理json数据方法

本专题整合了go语言中处理json数据方法,阅读专题下面的文章了解更多详细内容。

82

2025.09.10

Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

80

2025.12.04

Python 数据清洗与预处理实战
Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术,包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换,结合 NumPy 高效处理大规模数据。通过实战案例,帮助学习者掌握 如何处理混乱、不完整数据,为后续数据分析与机器学习模型训练打下坚实基础。

32

2026.01.31

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

760

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

221

2023.09.04

Python异步编程与Asyncio高并发应用实践
Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开,深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例,帮助开发者掌握 Python 在高并发场景中的高效开发方法,并提升系统资源利用率与整体运行性能。

37

2026.03.12

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 5万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号