0

0

一文搞定Python读取文件的全部知识

WBOY

WBOY

发布时间:2023-04-11 23:22:07

|

1553人浏览过

|

来源于51CTO.COM

转载

一文搞定Python读取文件的全部知识

文件是无处不在的,无论我们使用哪种编程语言,处理文件对于每个程序员都是必不可少的

文件处理是一种用于创建文件、写入数据和从中读取数据的过程,Python 拥有丰富的用于处理不同文件类型的包,从而使得我们可以更加轻松方便的完成文件处理的工作

本文大纲:

  • 使用上下文管理器打开文件
  • Python 中的文件读取模式
  • 读取 text 文件
  • 读取 CSV 文件
  • 读取 JSON 文件

打开文件

在访问文件的内容之前,我们需要打开文件。Python 提供了一个内置函数可以帮助我们以不同的模式打开文件。open() 函数接受两个基本参数:文件名和模式

默认模式是“r”,它以只读方式打开文件。这些模式定义了我们如何访问文件以及我们如何操作其内容。open() 函数提供了几种不同的模式,我们将在后面逐一讨论

下面我们通过 ’Python 之禅‘ 文件来进行后面的讨论学习

f = open('zen_of_python.txt', 'r')
print(f.read())
f.close()

Output:

The Zen of Python, by Tim Peters
Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
...

在上面的代码中,open() 函数以只读模式打开文本文件,这允许我们从文件中获取信息而不能更改它。在第一行,open() 函数的输出被赋值给一个代表文本文件的对象 f,在第二行中,我们使用 read() 方法读取整个文件并打印其内容,close() 方法在最后一行关闭文件。需要注意,我们必须始终在处理完打开的文件后关闭它们以释放我们的计算机资源并避免引发异常

在 Python 中,我们可以使用 with 上下文管理器来确保程序在文件关闭后释放使用的资源,即使发生异常也是如此

with open('zen_of_python.txt') as f:
 print(f.read())

Output:

The Zen of Python, by Tim Peters
Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
...

上面的代码使用 with 语句创建了一个上下文,并绑定到变量 f ,所有文件对象方法都可以通过该变量访问文件对象。read() 方法在第二行读取整个文件,然后使用 print() 函数输出文件内容

当程序到达 with 语句块上下文的末尾时,它会关闭文件以释放资源并确保其他程序可以正常调用它们。通常当我们处理不再需要使用的,需要立即关闭的对象(例如文件、数据库和网络连接)时,强烈推荐使用 with 语句

这里需要注意的是,即使在退出 with 上下文管理器块之后,我们也可以访问 f 变量,但是该文件是已关闭状态。让我们尝试一些文件对象属性,看看变量是否仍然存在并且可以访问:

print("Filename is '{}'.".format(f.name))
if f.closed:
 print("File is closed.")
else:
 print("File isn't closed.")

Output:

Filename is 'zen_of_python.txt'.
File is closed.

但是此时是不可能从文件中读取内容或写入文件的,关闭文件时,任何访问其内容的尝试都会导致以下错误:

f.read()

Output:

---------------------------------------------------------------------------
ValueErrorTraceback (most recent call last)
~AppDataLocalTemp/ipykernel_9828/3059900045.py in <module>
----> 1 f.read()
ValueError: I/O operation on closed file.

Python 中的文件读取模式

正如我们在前面提到的,我们需要在打开文件时指定模式。下表是 Python 中的不同的文件模式:

模式说明

  • 'r' 打开一个只读文件
  • 'w' 打开一个文件进行写入。如果文件存在,会覆盖它,否则会创建一个新文件
  • 'a' 打开一个仅用于追加的文件。如果该文件不存在,会创建该文件
  • 'x' 创建一个新文件。如果文件存在,则失败
  • '+' 打开一个文件进行更新

我们还可以指定以文本模式“t”、默认模式或二进制模式“b”打开文件。让我们看看如何使用简单的语句复制图像文件 dataquest_logo.png:

with open('dataquest_logo.png', 'rb') as rf:
 with open('data_quest_logo_copy.png', 'wb') as wf:
 for b in rf:
 wf.write(b)

上面的代码复制 Dataquest 徽标图像并将其存储在同一路径中。'rb' 模式以二进制模式打开文件并进行读取,而 'wb' 模式以文本模式打开文件以并行写入

读取文本文件

在 Python 中有多种读取文本文件的方法,下面我们介绍一些读取文本文件内容的有用方法

到目前为止,我们已经了解到可以使用 read() 方法读取文件的全部内容。如果我们只想从文本文件中读取几个字节怎么办,可以在 read() 方法中指定字节数。让我们尝试一下:

with open('zen_of_python.txt') as f:
 print(f.read(17))

Output:

The Zen of Python

上面的简单代码读取 zen_of_python.txt 文件的前 17 个字节并将它们打印出来

有时一次读取一行文本文件的内容更有意义,在这种情况下,我们可以使用 readline() 方法

with open('zen_of_python.txt') as f:
 print(f.readline())

Output:

The Zen of Python, by Tim Peters

上面的代码返回文件的第一行,如果我们再次调用该方法,它将返回文件中的第二行等,如下:

SeoShop
SeoShop

SeoShop网店系统全站纯静态html生成更符合搜索引擎优化,并修改了以前许多js代码,取消了连接地址的js代码更换为纯div+css格式,并且所有文件可自定义url和文件名,自定义内部连接,自定义外部连接,等多个符合SEO搜索引擎优化的设置,让您的网店更容易让搜索引擎收录. 简单易用 极速网店真正做到以人为本、以用户体验为中心,能使您快速搭建网上购物网站。后台管理操作简单,一目了然,没有夹杂多

下载
with open('zen_of_python.txt') as f:
 print(f.readline())
 print(f.readline())
 print(f.readline())
 print(f.readline())

Output:

The Zen of Python, by Tim Peters
Beautiful is better than ugly.
Explicit is better than implicit.

这种有用的方法可以帮助我们以增量方式读取整个文件。

以下代码通过逐行迭代来输出整个文件,直到跟踪我们正在读取或写入文件的位置的文件指针到达文件末尾。当 readline() 方法到达文件末尾时,它返回一个空字符串

with open('zen_of_python.txt') as f:
 line = f.readline()
 while line:
 print(line, end='')
 line = f.readline()

Output:

The Zen of Python, by Tim Peters
Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than *right* now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good idea.
Namespaces are one honking great idea -- let's do more of those!

上面的代码在 while 循环之外读取文件的第一行并将其分配给 line 变量。在 while 循环中,它打印存储在 line 变量中的字符串,然后读取文件的下一行。while 循环迭代该过程,直到 readline() 方法返回一个空字符串。空字符串在 while 循环中的计算结果为 False,因此迭代过程终止

读取文本文件的另一个有用方法是 readlines() 方法,将此方法应用于文件对象会返回包含文件每一行的字符串列表

with open('zen_of_python.txt') as f:
 lines = f.readlines()

让我们检查 lines 变量的数据类型,然后打印它:

print(type(lines))
print(lines)

Output:

<class 'list'>
['The Zen of Python, by Tim Petersn', 'n', 'Beaut...]

它是一个字符串列表,其中列表中的每个项目都是文本文件的一行,``n` 转义字符表示文件中的新行。此外,我们可以通过索引或切片操作访问列表中的每个项目:

print(lines)
print(lines[3:5])
print(lines[-1])

Output:

['The Zen of Python, by Tim Petersn', 'n', 'Beautiful is better than ugly.n', ... -- let's do more of those!"]
['Explicit is better than implicit.n', 'Simple is better than complex.n']
Namespaces are one honking great idea -- let's do more of those!

读取 CSV 文件

到目前为止,我们已经学会了如何使用常规文本文件。但是有时数据采用 CSV 格式,数据专业人员通常会检索所需信息并操作 CSV 文件的内容

接下来我们将使用 CSV 模块,CSV 模块提供了有用的方法来读取存储在 CSV 文件中的逗号分隔值。我们现在就尝试一下

import csv
with open('chocolate.csv') as f:
 reader = csv.reader(f, delimiter=',')
 for row in reader:
 print(row)

Output:

['Company', 'Bean Origin or Bar Name', 'REF', 'Review Date', 'Cocoa Percent', 'Company Location', 'Rating', 'Bean Type', 'Country of Origin']
['A. Morin', 'Agua Grande', '1876', '2016', '63%', 'France', '3.75', 'Âxa0', 'Sao Tome']
['A. Morin', 'Kpime', '1676', '2015', '70%', 'France', '2.75', 'Âxa0', 'Togo']
['A. Morin', 'Atsane', '1676', '2015', '70%', 'France', '3', 'Âxa0', 'Togo']
['A. Morin', 'Akata', '1680', '2015', '70%', 'France', '3.5', 'Âxa0', 'Togo']
...

CSV 文件的每一行形成一个列表,其中每个项目都可以轻松的被访问,如下所示:

import csv
with open('chocolate.csv') as f:
 reader = csv.reader(f, delimiter=',')
 for row in reader:
 print("The {} company is located in {}.".format(row[0], row[5]))

Output:

The Company company is located in Company Location.
The A. Morin company is located in France.
The A. Morin company is located in France.
The A. Morin company is located in France.
The A. Morin company is located in France.
The Acalli company is located in U.S.A..
The Acalli company is located in U.S.A..
The Adi company is located in Fiji.
...

很多时候,使用列的名称而不是使用它们的索引,这通常对专业人员来说更方便。在这种情况下,我们不使用 reader() 方法,而是使用返回字典对象集合的 DictReader() 方法

import csv
with open('chocolate.csv') as f:
 dict_reader = csv.DictReader(f, delimiter=',')
 for row in dict_reader:
 print("The {} company is located in {}.".format(row['Company'], row['Company Location']))

Output:

The A. Morin company is located in France.
The A. Morin company is located in France.
The A. Morin company is located in France.
The A. Morin company is located in France.
The Acalli company is located in U.S.A..
The Acalli company is located in U.S.A..
The Adi company is located in Fiji.
...

读取 JSON 文件

我们主要用于存储和交换数据的另一种流行文件格式是 JSON,JSON 代表 JavaScript Object Notation,允许我们使用逗号分隔的键值对存储数据

接下来我们将加载一个 JSON 文件并将其作为 JSON 对象使用,而不是作为文本文件,为此我们需要导入 JSON 模块。然后在 with 上下文管理器中,我们使用了属于 json 对象的 load() 方法,它加载文件的内容并将其作为字典存储在上下文变量中。

import json
with open('movie.json') as f:
 content = json.load(f)
 print(content)

Output:

{'Title': 'Bicentennial Man', 'Release Date': 'Dec 17 1999', 'MPAA Rating': 'PG', 'Running Time min': 132, 'Distributor': 'Walt Disney Pictures', 'Source': 'Based on Book/Short Story', 'Major Genre': 'Drama', 'Creative Type': 'Science Fiction', 'Director': 'Chris Columbus', 'Rotten Tomatoes Rating': 38, 'IMDB Rating': 6.4, 'IMDB Votes': 28827}

让我们检查内容变量的数据类型:

print(type(content))

Output:

<class 'dict'>

它的数据类型是字典,因此我们可以方便的从中提取数据

print('{} directed by {}'.format(content['Title'], content['Director']))

Output:

Bicentennial Man directed by Chris Columbus

总结

今天我们讨论了 Python 中的文件处理,重点是读取文件的内容。我们了解了 open() 内置函数、with 上下文管理器,以及如何读取文本、CSV 和 JSON 等常见文件类型。

好了,这就是今天分享的全部内容,喜欢就点个赞吧~

相关文章

python速学教程(入门到精通)
python速学教程(入门到精通)

python怎么学习?python怎么入门?python在哪学?python怎么学才快?不用担心,这里为大家提供了python速学教程(入门到精通),有需要的小伙伴保存下载就能学习啦!

下载

相关标签:

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

76

2026.03.11

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

38

2026.03.10

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

83

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

97

2026.03.06

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

223

2026.03.05

PHP高性能API设计与Laravel服务架构实践
PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开,重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景,深入分析性能瓶颈定位与优化思路,帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

458

2026.03.04

AI安装教程大全
AI安装教程大全

2026最全AI工具安装教程专题:包含各版本AI绘图、AI视频、智能办公软件的本地化部署手册。全篇零基础友好,附带最新模型下载地址、一键安装脚本及常见报错修复方案。每日更新,收藏这一篇就够了,让AI安装不再报错!

169

2026.03.04

Swift iOS架构设计与MVVM模式实战
Swift iOS架构设计与MVVM模式实战

本专题聚焦 Swift 在 iOS 应用架构设计中的实践,系统讲解 MVVM 模式的核心思想、数据绑定机制、模块拆分策略以及组件化开发方法。内容涵盖网络层封装、状态管理、依赖注入与性能优化技巧。通过完整项目案例,帮助开发者构建结构清晰、可维护性强的 iOS 应用架构体系。

246

2026.03.03

C++高性能网络编程与Reactor模型实践
C++高性能网络编程与Reactor模型实践

本专题围绕 C++ 在高性能网络服务开发中的应用展开,深入讲解 Socket 编程、多路复用机制、Reactor 模型设计原理以及线程池协作策略。内容涵盖 epoll 实现机制、内存管理优化、连接管理策略与高并发场景下的性能调优方法。通过构建高并发网络服务器实战案例,帮助开发者掌握 C++ 在底层系统与网络通信领域的核心技术。

34

2026.03.03

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Git 教程
Git 教程

共21课时 | 4.2万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.9万人学习

Kotlin 教程
Kotlin 教程

共23课时 | 4.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号