0

0

Python从URL下载文件:正确处理ZIP压缩文件以避免损坏

碧海醫心

碧海醫心

发布时间:2025-09-27 12:09:13

|

780人浏览过

|

来源于php中文网

原创

Python从URL下载文件:正确处理ZIP压缩文件以避免损坏

本文探讨了使用Python从URL下载文件时,尤其是面对压缩文件(如ZIP)时,如何避免文件损坏并正确提取内容的最佳实践。通过requests库进行流式下载,并结合zipfile库在内存中解压,确保了数据的完整性和准确性,解决了直接下载压缩包内容导致文件损坏的问题。

1. 理解文件下载中的常见陷阱

在使用python的requests库从url下载文件时,一个常见的误区是直接假定url指向的是最终所需的文件格式(例如csv),并尝试以该格式保存。然而,服务器端提供的资源可能并非直接的csv文件,而是一个包含csv文件的压缩包(如zip文件)。如果直接将zip文件的二进制内容保存为.csv文件,那么该文件自然会因为格式不匹配而损坏,无法被相应的解析器(如pandas.read_csv)正确读取。

例如,当一个URL实际指向一个ZIP文件时,即使我们预期得到CSV文件,直接使用以下方式下载并尝试解析也会失败:

import requests
import pandas as pd

def download_and_read_csv_incorrect(url, save_path):
    try:
        response = requests.get(url, stream=True)
        response.raise_for_status()

        with open(save_path, "wb") as file:
            for chunk in response.iter_content(chunk_size=8192):
                if chunk:
                    file.write(chunk)
        print(f"Downloaded {url}, saved to {save_path}")
        # 尝试读取,但如果save_path是ZIP文件内容,这里会报错
        csv_data = pd.read_csv(save_path)
        print("CSV loaded successfully.")
    except Exception as e:
        print(f"Error occurred: {e}")

# 假设URL实际指向一个ZIP文件
# download_and_read_csv_incorrect("https://example.com/data.zip", "corrupted.csv")

上述代码的问题在于,它没有识别出URL背后是一个ZIP压缩文件,而是直接将其内容作为CSV保存,导致文件损坏。

2. 正确处理URL指向的ZIP压缩文件

要正确下载并提取包含在ZIP文件中的数据,我们需要采取以下步骤:

  1. 使用requests库以流(stream)模式下载整个ZIP文件的二进制内容。
  2. 将下载的二进制内容暂存起来(例如,在内存中的临时文件)。
  3. 使用Python内置的zipfile库打开并解压这个临时的ZIP文件。

以下是实现这一过程的专业代码示例:

闪念贝壳
闪念贝壳

闪念贝壳是一款AI 驱动的智能语音笔记,随时随地用语音记录你的每一个想法。

下载

立即学习Python免费学习笔记(深入)”;

import requests
import zipfile
import tempfile
import os

# 示例URL,指向一个ZIP文件
URL = "https://prod-dcd-datasets-cache-zipfiles.s3.eu-west-1.amazonaws.com/mpjzbtfgfr-1.zip"
# 定义下载时的分块大小,有助于处理大文件
CHUNK_SIZE = 32 * 1024 # 32 KB

def download_and_extract_zip(url, target_dir="."):
    """
    从指定URL下载ZIP文件,并在指定目录解压其内容。

    Args:
        url (str): ZIP文件的下载URL。
        target_dir (str): 解压文件存放的目标目录。
    """
    try:
        # 确保目标目录存在
        os.makedirs(target_dir, exist_ok=True)

        print(f"开始从 {url} 下载ZIP文件...")
        # 以流模式发送HTTP GET请求
        with requests.get(url, stream=True) as response:
            # 检查请求是否成功,如果状态码是4xx或5xx则抛出异常
            response.raise_for_status()

            # 使用临时文件存储下载的ZIP内容
            # tempfile.TemporaryFile() 创建一个在关闭时自动删除的临时文件,
            # 且在Windows上默认以二进制模式打开。
            with tempfile.TemporaryFile() as temp_zip_file:
                # 迭代响应内容块,并写入临时文件
                for chunk in response.iter_content(chunk_size=CHUNK_SIZE):
                    if chunk:  # 过滤掉保持连接的空块
                        temp_zip_file.write(chunk)

                # 刷新缓冲区,确保所有数据都已写入临时文件
                temp_zip_file.flush()
                # 将文件指针移到文件开头,以便zipfile可以从头读取
                temp_zip_file.seek(0)

                # 使用zipfile库打开临时文件进行解压
                with zipfile.ZipFile(temp_zip_file) as zip_ref:
                    print(f"ZIP文件内容: {zip_ref.namelist()}")
                    # 解压所有文件到目标目录
                    zip_ref.extractall(path=target_dir)
                    print(f"文件已成功解压到 {os.path.abspath(target_dir)}")

    except requests.exceptions.RequestException as e:
        print(f"网络请求错误: {e}")
    except zipfile.BadZipFile:
        print(f"错误: 下载的文件不是一个有效的ZIP文件。请检查URL或文件内容。")
    except Exception as e:
        print(f"发生未知错误: {e}")

# 调用函数进行下载和解压
if __name__ == "__main__":
    download_and_extract_zip(URL)
    # 示例:如果ZIP中包含CRC_clusters_neighborhoods_markers.csv,
    # 它将出现在当前工作目录。
    # 可以进一步处理这个文件,例如使用pandas读取
    # import pandas as pd
    # try:
    #     df = pd.read_csv("CRC_clusters_neighborhoods_markers.csv")
    #     print("CSV文件已成功加载到DataFrame。")
    #     print(df.head())
    # except FileNotFoundError:
    #     print("CSV文件未找到,请检查解压是否成功及文件名。")
    # except Exception as e:
    #     print(f"读取CSV文件时发生错误: {e}")

3. 代码解析与注意事项

  • requests.get(url, stream=True): stream=True参数至关重要。它告诉requests不要立即下载整个响应内容到内存,而是允许我们以流的方式分块读取,这对于下载大文件非常有效,可以避免内存溢出。
  • response.raise_for_status(): 这是一个良好的实践,用于检查HTTP请求是否成功。如果响应状态码是4xx(客户端错误)或5xx(服务器错误),它将抛出一个requests.exceptions.HTTPError,方便错误处理。
  • tempfile.TemporaryFile(): 这个函数创建了一个匿名的临时文件,通常在内存中(取决于操作系统和文件大小),并在文件对象关闭时自动删除。这避免了在磁盘上创建和管理一个中间的ZIP文件,简化了流程并减少了磁盘I/O。
  • response.iter_content(chunk_size=CHUNK_SIZE): iter_content方法用于迭代响应内容。chunk_size参数指定了每次迭代时读取的字节数。将下载内容分块写入临时文件,进一步优化了内存使用。
  • temp_zip_file.flush() 和 temp_zip_file.seek(0): flush()确保所有写入的数据都已提交到文件系统(或内存文件)。seek(0)将文件指针重置到文件开头,因为zipfile.ZipFile需要从文件开头读取ZIP文件的元数据。
  • zipfile.ZipFile(temp_zip_file): zipfile模块是Python标准库的一部分,用于处理ZIP档案。这里它打开了我们下载到临时文件中的ZIP内容。
  • zip_ref.namelist(): 返回ZIP文件中包含的所有文件和目录的名称列表,有助于了解解压后会得到什么。
  • zip_ref.extractall(path=target_dir): 这是解压的核心方法,它将ZIP文件中的所有内容解压到指定的target_dir目录。如果target_dir不存在,os.makedirs(target_dir, exist_ok=True)会创建它。
  • 错误处理: 代码中包含了对requests.exceptions.RequestException和zipfile.BadZipFile的捕获,分别处理网络错误和文件格式错误,提高了程序的健壮性。

4. 总结

在从URL下载文件时,务必首先确认URL指向的实际资源类型。当资源是一个压缩文件(如ZIP)时,直接保存为目标文件格式会导致文件损坏。正确的做法是:

  1. 使用requests的stream=True进行流式下载。
  2. 将下载的二进制内容存储到临时文件或内存中。
  3. 利用zipfile(或tarfile等对应库)对压缩文件进行解压,获取最终的目标文件。

遵循这些步骤,可以确保文件下载的完整性和准确性,避免因文件格式不匹配而导致的损坏问题。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

81

2025.12.04

Python 数据清洗与预处理实战
Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术,包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换,结合 NumPy 高效处理大规模数据。通过实战案例,帮助学习者掌握 如何处理混乱、不完整数据,为后续数据分析与机器学习模型训练打下坚实基础。

34

2026.01.31

http500解决方法
http500解决方法

http500解决方法有检查服务器日志、检查代码错误、检查服务器配置、检查文件和目录权限、检查资源不足、更新软件版本、重启服务器或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

498

2023.11.09

http请求415错误怎么解决
http请求415错误怎么解决

解决方法:1、检查请求头中的Content-Type;2、检查请求体中的数据格式;3、使用适当的编码格式;4、使用适当的请求方法;5、检查服务器端的支持情况。更多http请求415错误怎么解决的相关内容,可以阅读下面的文章。

453

2023.11.14

HTTP 503错误解决方法
HTTP 503错误解决方法

HTTP 503错误表示服务器暂时无法处理请求。想了解更多http错误代码的相关内容,可以阅读本专题下面的文章。

3628

2024.03.12

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2926

2024.08.16

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

42

2026.03.13

Python异步编程与Asyncio高并发应用实践
Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开,深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例,帮助开发者掌握 Python 在高并发场景中的高效开发方法,并提升系统资源利用率与整体运行性能。

79

2026.03.12

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

234

2026.03.11

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 5万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号