获取会议论文数据：OpenReview API v2 与 Web 抓取实践指南

花韻仙語

发布时间：2025-11-07 12:42:24

976人浏览过

来源于php中文网

原创

获取会议论文数据：OpenReview API v2 与 Web 抓取实践指南

本文将指导读者如何有效获取2023年及以后学术会议的论文数据。针对openreview平台上的会议，我们将介绍如何使用其更新的api v2接口，以解决旧版api无法访问新数据的挑战。对于如cvpr等采用独立开放访问站点的会议，则提供基于python的web抓取解决方案，帮助您高效提取论文标题及相关信息，确保能够全面、准确地获取所需学术资料。

在学术研究和数据分析中，获取最新的会议论文信息至关重要。然而，随着平台和数据管理策略的演进，传统的API接口可能不再适用于获取最新年份的数据。本文将针对OpenReview平台上的会议以及其他采用独立开放访问站点的会议，提供两种获取2023年及以后论文数据的方法：利用OpenReview API v2和Web抓取技术。

1. 利用 OpenReview API v2 访问 2023 年及以后会议数据

OpenReview 是许多顶级学术会议（如 NeurIPS、ICML 等）用于论文提交和评审的平台。为了适应新的数据结构和管理需求，OpenReview 推出了更新的 API 版本。如果您尝试使用旧版 openreview.Client 或默认的 https://api.openreview.net 地址访问 2023 年及以后的会议数据（例如 NeurIPS 2023、ICML 2023），可能会遇到数据为空或无法找到组的错误。

解决方案：切换至 openreview.api.OpenReviewClient 和 https://api2.openreview.net

对于 2023 年及以后的会议数据，您需要使用 openreview 库中的 openreview.api.OpenReviewClient 类，并指定 baseurl 为 https://api2.openreview.net。此外，通常不需要单独获取会议组（venue_group），因为提交数据可以直接通过 get_all_notes 方法配合 content 参数进行过滤。

以下是获取 NeurIPS 2023 会议论文标题的示例代码：

import openreview

# 1. 使用新的 OpenReviewClient 类和 API v2 地址
client = openreview.api.OpenReviewClient(baseurl='https://api2.openreview.net')

# 2. 通过 content 参数直接获取所有提交（submission）
# 注意：'venueid' 的格式通常是 'ConferenceName.cc/Year/Conference'
submissions = client.get_all_notes(content={'venueid': 'NeurIPS.cc/2023/Conference'})

# 3. 提取论文标题
papers_titles = [s.content['title']['value'] for s in submissions]

# 打印前10个标题进行验证
print("NeurIPS 2023 论文标题（前10个）：")
for title in papers_titles[:10]:
    print(f"- {title}")

代码解析：

openreview.api.OpenReviewClient(baseurl='https://api2.openreview.net')：实例化新的客户端，指向 OpenReview 的 API v2 端点。
client.get_all_notes(content={'venueid':'NeurIPS.cc/2023/Conference'})：这是获取论文提交的核心方法。content 参数允许您根据笔记（Note）的内容字段进行过滤。venueid 是一个常见的过滤键，其值通常遵循特定的格式，代表了会议的唯一标识符。
[s.content['title']['value'] for s in submissions]：通过列表推导式遍历所有提交对象，提取每个提交的 content 字典中 title 键下的 value。

适用范围：

此方法适用于所有在 OpenReview 平台（尤其是其 v2 架构）上托管其提交和评审流程的会议，如 NeurIPS、ICML 等的最新年份数据。在尝试获取数据前，建议确认目标会议是否确实使用了 OpenReview 平台。

2. 针对特定会议的 Web 抓取策略：以 CVPR 2023 为例

并非所有会议都将其最终的论文发布在 OpenReview 平台上，或者它们可能仅将 OpenReview 用于评审，而将最终的开放访问论文发布在自己的独立网站上。例如，CVPR 2023 尽管可能使用了 OpenReview 进行评审，但其开放访问论文可在 openaccess.thecvf.com 上获取。在这种情况下，Web 抓取（Web Scraping）是获取信息的有效手段。

Type

生成草稿，转换文本，获得写作帮助-等等。

下载

前提条件：

在使用 Web 抓取前，请确保您已安装 requests 和 lxml 库：

pip install requests lxml

Web 抓取 CVPR 2023 论文标题示例：

import requests
from lxml.html import fromstring

# 1. 目标 URL
url = 'https://openaccess.thecvf.com/CVPR2023?day=all'

# 2. 发送 HTTP GET 请求获取页面内容
response = requests.get(url)
response.raise_for_status()  # 检查请求是否成功

# 3. 使用 lxml 解析 HTML 内容
tree = fromstring(response.text)

# 4. 使用 XPath 表达式选择论文标题元素
# XPath 表达式需要根据目标网站的 HTML 结构进行调整
# 您可以使用浏览器的开发者工具（F12）来检查元素并复制 XPath
elements = tree.xpath('//*[@id="content"]/dl/dt/a/text()')

# 5. 打印前10个标题进行验证
print("\nCVPR 2023 论文标题（前10个）：")
for title in elements[:10]:
    print(f"- {title.strip()}")

代码解析：

requests.get(url)：发送 HTTP GET 请求，获取指定 URL 的网页内容。
response.raise_for_status()：一个良好的实践，用于检查请求是否成功（状态码 200）。如果请求失败，它会抛出异常。
fromstring(response.text)：lxml.html 模块将 HTML 字符串解析成一个可遍历的元素树。
tree.xpath('//*[@id="content"]/dl/dt/a/text()')：这是 Web 抓取的核心。XPath 是一种在 XML 文档中查找信息的语言。此表达式的含义是：
- //*[@id="content"]：选择任何 ID 为 "content" 的元素。
- /dl/dt/a：在其内部，依次选择 dl（定义列表）、dt（定义术语）和 a（链接）元素。
- /text()：提取所选链接元素的文本内容，这通常就是论文标题。
title.strip()：去除提取文本前后的空白字符。

注意事项：

XPath 的准确性： XPath 表达式高度依赖于目标网站的 HTML 结构。网站结构一旦发生变化，您的 XPath 表达式可能就会失效。因此，在每次抓取前，最好使用浏览器开发者工具（通常按 F12 键）检查目标元素的 XPath。
robots.txt： 在进行 Web 抓取前，请务必检查网站的 robots.txt 文件（例如 https://openaccess.thecvf.com/robots.txt），了解网站对抓取行为的规定。
频率限制与反抓取机制： 某些网站可能会实施频率限制或更复杂的反抓取机制。过度频繁的请求可能导致您的 IP 被封禁。建议设置适当的延迟或使用代理池。
法律与道德： 确保您的抓取行为符合网站的使用条款和当地法律法规。通常，公开可访问的数据在合理使用范围内是可以抓取的，但要避免对服务器造成不必要的负担。

总结与注意事项

获取 2023 年及以后学术会议论文数据的方法取决于会议的具体发布平台：

对于 OpenReview 平台上的会议： 优先使用 openreview.api.OpenReviewClient 配合 baseurl='https://api2.openreview.net'。这种方法更稳定、高效，且符合 API 最佳实践。
对于其他独立开放访问站点的会议： 采用 Web 抓取技术，结合 requests 和 lxml（或 BeautifulSoup 等其他库），根据网站的具体 HTML 结构定制 XPath 表达式来提取数据。

无论采用哪种方法，都建议在实际应用前进行小范围测试，以验证代码的有效性。同时，始终关注数据来源的更新和变化，以便及时调整您的数据获取策略。

Python 从脚本到工程化项目的演进路径

Python async/await 的执行流程详解

Python 守护进程的实现方式

Python 闭包的形成条件与常见陷阱

super() 在没有参数时的 MRO 查找顺序与 Python 2/3 差异