0

0

Python地信专题 | 基于geopandas的空间数据分析-文件IO篇

蓮花仙者

蓮花仙者

发布时间:2025-07-15 08:52:14

|

341人浏览过

|

来源于php中文网

原创

1 简介

在上一篇文章中我们对geopandas中的坐标参考系有了较为深入的学习,而在日常空间数据分析工作中矢量文件的读入和写出,是至关重要的环节。

作为基于geopandas的空间数据分析系列文章的第三篇,通过本文你将会学习到geopandas中的文件IO。

2 文件IO 2.1 矢量文件的读入

geopandasfiona作为操纵矢量数据读写功能的后端。

使用geopandas.read_file()读取对应类型文件,而在后端实际上是使用fiona.open来读入数据,即两者参数是保持一致的,读入的数据自动转换为GeoDataFrame

下面是geopandas.read_file()主要参数:

立即学习Python免费学习笔记(深入)”;

下面结合上述参数,来介绍一下使用geopandas.read_file()在不同情况下读取常见格式矢量数据的方法。

使用到的示例数据为中国地图,CRSEPSG:4326

本文使用到的所有数据都可以在文章开头提及的Github仓库对应本文路径下找到:

Python地信专题 | 基于geopandas的空间数据分析-文件IO篇

图1

2.1.1 shapefile

作为非常常见的一种矢量文件格式,geopandasshapefile提供了很好的读取和写出支持。

下面分为不同情况来介绍:

完整的shapefile

如图2,这是一个完整的shapefile

Python地信专题 | 基于geopandas的空间数据分析-文件IO篇

图2

使用geopandas来读取这种形式的shapefile很简单:

代码语言:javascript代码运行次数:0运行复制
<code class="javascript">import geopandas as gpddata = gpd.read_file('geometry/china_provinces/china_provinces.shp')print(data.crs) # 查看数据对应的crsdata.head() # 查看前5行</code>
Python地信专题 | 基于geopandas的空间数据分析-文件IO篇

图3

缺少投影的shapefile

shapefile中缺失.prj文件时,使用geopandas读入后形成的GeoDataFrame会缺失crs属性:

Python地信专题 | 基于geopandas的空间数据分析-文件IO篇

图4

如果已经知道数据对应的CRS,可以在读入数据后补充上crs信息以进行其他操作:

代码语言:javascript代码运行次数:0运行复制
<code class="javascript">import pyprojdata.crs = pyproj.CRS.from_user_input('EPSG:4326')data.crs</code>
Python地信专题 | 基于geopandas的空间数据分析-文件IO篇

图5

直接读取文件夹

当文件夹下只有单个shapefile时,可以直接读取该文件夹:

Python地信专题 | 基于geopandas的空间数据分析-文件IO篇

图6

读取zip压缩包中的文件

geopandas通过传入特定语法格式的文件路径信息,以支持直接读取.zip格式压缩包中的shapefile文件,主要分为两种情况。

当文件在压缩包内的根目录时,使用下面的语法规则来读取数据:

代码语言:javascript代码运行次数:0运行复制
<code class="javascript">zip://路径/xxx.zip</code>

譬如我们要读取图7所示的压缩包内文件:

Python地信专题 | 基于geopandas的空间数据分析-文件IO篇

图7

按照对应的语法规则,读取该类型数据方式如下:

Python地信专题 | 基于geopandas的空间数据分析-文件IO篇

图8

而当文件在压缩包内的文件夹中时,如图9:

Python地信专题 | 基于geopandas的空间数据分析-文件IO篇

图9

使用下面的语法规则来读取数据:

代码语言:javascript代码运行次数:0运行复制
<code class="javascript">zip://路径/xxx.zip!压缩包内指定文件路径</code>

将上述语法运用到上述文件:

Python地信专题 | 基于geopandas的空间数据分析-文件IO篇

图10

2.1.2 gdb与gpkg

对于Arcgis中的地理数据库gdb,以及QGIS中的GeoPackage,要读取其包含的矢量数据,就要涉及到图层的概念。

对应geopandas.read_file()layer参数,只需要将gdbgpkg文件路径作为filename参数,再将对应的图层名称作为layer参数传入:

gdb代码语言:javascript代码运行次数:0运行复制
<code class="javascript">data = gpd.read_file('geometry/china_provinces.gdb',                     layer='china_provinces')print(data.crs) # 查看数据对应的crsdata.head() # 查看前5行</code>
Python地信专题 | 基于geopandas的空间数据分析-文件IO篇

图11

gpkg

类似读入gdb文件:

Programming Helper
Programming Helper

AI代码自动生成器,在AI的帮助下更快地编程

下载
代码语言:javascript代码运行次数:0运行复制
<code class="javascript">data = gpd.read_file('geometry/china_provinces.gpkg',                     layer='china_provinces',                     encoding='utf-8')print(data.crs) # 查看数据对应的crsdata.head() # 查看前5行</code>
Python地信专题 | 基于geopandas的空间数据分析-文件IO篇

图12

2.1.3 GeoJSON

作为web地图中最常使用的矢量数据格式,GeoJSON几乎被所有在线地图框架作为数据源格式,在geopandas中读取GeoJSON非常简单,只需要传入文件路径名称即可。

下面我们来读入图13所示的文件:

Python地信专题 | 基于geopandas的空间数据分析-文件IO篇

图13

Python地信专题 | 基于geopandas的空间数据分析-文件IO篇

图14

2.1.4 过滤

geopandas在0.1.0版本中新增了bbox过滤,在0.7.0版本中新增了蒙版过滤和行过滤功能,可以辅助我们根据自己的需要读入原始数据中的子集。

下面一一进行介绍:

bbox过滤

bbox过滤允许我们在read_file()中传入一个边界框作为参数bbox,格式为(左下角x, 左下角y, 右上角x, 右上角y),这样在读入的过程中只会保留几何对象与bbox有相交的数据记录。

下面我们仍然以上文中使用过的中国地图数据为例,我们在读入的过程中,传入边界框:

代码语言:javascript代码运行次数:0运行复制
<code class="javascript">from shapely import geometrydata = gpd.read_file('geometry/china_provinces.json',                    bbox=(100, 20, 110, 30))%matplotlib widgetax = data.plot()# 绘制bbox框示意ax = gpd.GeoSeries([geometry.box(minx=100,                                 miny=20,                                 maxx=110,                                 maxy=30).boundary]).plot(ax=ax, color='red')</code>
Python地信专题 | 基于geopandas的空间数据分析-文件IO篇

图15

可以看到只有跟红色框有相交的几何对象被读入。

蒙版过滤

蒙版过滤和bbox过滤功能相似,都是筛选与指定区域相交的数据记录。

不同的是蒙版过滤通过mask参数可以传入任意形状的多边形,不再像bbox过滤那样只接受矩形:

代码语言:javascript代码运行次数:0运行复制
<code class="javascript">data = gpd.read_file('geometry/china_provinces.json',                    mask=geometry.Polygon([(100, 20), (110, 30), (120, 20)]))ax = data.plot()# 绘制bbox框示意ax = gpd.GeoSeries([geometry.Polygon([(100, 20),                                      (110, 30),                                      (120, 20)]).boundary]).plot(ax=ax, color='red')</code>
Python地信专题 | 基于geopandas的空间数据分析-文件IO篇

图16

可以看到只有跟红色多边形相交的几何对象被读入。

行过滤

行过滤的功能就比较简单,通过参数rows控制读入原数据的前若干行,可以用于在读取大型数据时先快速查看前几行以了解整个数据的格式:

Python地信专题 | 基于geopandas的空间数据分析-文件IO篇

图17

2.2 矢量文件的写出

geopandas中使用to_file()来将GeoDataFrameGeoSeries写出为矢量文件,主要支持shapefileGeoJSON以及GeoPackage

不像geopandas.read_file()可以根据传入的文件名称信息自动推断类型,我们在写出矢量数据时就需要使用driver参数来声明文件类型:

ESRI Shapefile

我们将上文最后一次读入的GeoDataFrame写出为ESRI Shapefile,设置driver参数为ESRI Shapefile

如果你对文件编码有要求,这里可以使用encoding参数来指定,譬如这里我们指定为utf-8

代码语言:javascript代码运行次数:0运行复制
<code class="javascript">'''在工程根目录下创建output文件夹'''import ostry:    os.mkdir('output')except FileExistsError:    pass    data.to_file('output/output.shp',             driver='ESRI Shapefile',             encoding='utf-8')</code>

可以看到在output文件夹下,成功导出了完整的shapefile

Python地信专题 | 基于geopandas的空间数据分析-文件IO篇

图18

而如果导出的文件名不加后缀扩展名,则会生成包含在新目录下的shapefile

代码语言:javascript代码运行次数:0运行复制
<code class="javascript">data.to_file('output/output_shapefile',             driver='ESRI Shapefile',             encoding='utf-8')</code>
Python地信专题 | 基于geopandas的空间数据分析-文件IO篇

图19

也可以向指定的文件夹下追加图层:

代码语言:javascript代码运行次数:0运行复制
<code class="javascript">data.to_file('output/output_shapefile_multi_layer',             driver='ESRI Shapefile',             layer='layer1',             encoding='utf-8')data.to_file('output/output_shapefile_multi_layer',             driver='ESRI Shapefile',             layer='layer2',             encoding='utf-8')data.to_file('output/output_shapefile_multi_layer',             driver='ESRI Shapefile',             layer='layer3',             encoding='utf-8')</code>
Python地信专题 | 基于geopandas的空间数据分析-文件IO篇

图20

GeoPackage

对于gdb文件,由于ESRI的限制,暂时无法在开源的geopandas中导出。

但我们可以用QGIS中的GeoPackage作为替代方案(开源世界万岁O(∩_∩)O~~),只需要将driver参数设置为GPKG即可。

这里需要注意一个bug:在使用geopandas导出GeoPackage文件时,可能会出现图21所示错误:

Python地信专题 | 基于geopandas的空间数据分析-文件IO篇

图21

但我观察到即使出现了上述错误,GeoPackage文件也是成功保存到路径下的且整个程序并未被打断,因此可以无视上述错误:

Python地信专题 | 基于geopandas的空间数据分析-文件IO篇

图22

GeoJSON

写出为GeoJSON非常容易,只需要设置driver='GeoJSON'即可:

Python地信专题 | 基于geopandas的空间数据分析-文件IO篇

图23

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

4212

2026.01.21

数据库三范式
数据库三范式

数据库三范式是一种设计规范,用于规范化关系型数据库中的数据结构,它通过消除冗余数据、提高数据库性能和数据一致性,提供了一种有效的数据库设计方法。本专题提供数据库三范式相关的文章、下载和课程。

385

2023.06.29

如何删除数据库
如何删除数据库

删除数据库是指在MySQL中完全移除一个数据库及其所包含的所有数据和结构,作用包括:1、释放存储空间;2、确保数据的安全性;3、提高数据库的整体性能,加速查询和操作的执行速度。尽管删除数据库具有一些好处,但在执行任何删除操作之前,务必谨慎操作,并备份重要的数据。删除数据库将永久性地删除所有相关数据和结构,无法回滚。

2111

2023.08.14

vb怎么连接数据库
vb怎么连接数据库

在VB中,连接数据库通常使用ADO(ActiveX 数据对象)或 DAO(Data Access Objects)这两个技术来实现:1、引入ADO库;2、创建ADO连接对象;3、配置连接字符串;4、打开连接;5、执行SQL语句;6、处理查询结果;7、关闭连接即可。

357

2023.08.31

MySQL恢复数据库
MySQL恢复数据库

MySQL恢复数据库的方法有使用物理备份恢复、使用逻辑备份恢复、使用二进制日志恢复和使用数据库复制进行恢复等。本专题为大家提供MySQL数据库相关的文章、下载、课程内容,供大家免费下载体验。

259

2023.09.05

vb中怎么连接access数据库
vb中怎么连接access数据库

vb中连接access数据库的步骤包括引用必要的命名空间、创建连接字符串、创建连接对象、打开连接、执行SQL语句和关闭连接。本专题为大家提供连接access数据库相关的文章、下载、课程内容,供大家免费下载体验。

329

2023.10.09

数据库对象名无效怎么解决
数据库对象名无效怎么解决

数据库对象名无效解决办法:1、检查使用的对象名是否正确,确保没有拼写错误;2、检查数据库中是否已存在具有相同名称的对象,如果是,请更改对象名为一个不同的名称,然后重新创建;3、确保在连接数据库时使用了正确的用户名、密码和数据库名称;4、尝试重启数据库服务,然后再次尝试创建或使用对象;5、尝试更新驱动程序,然后再次尝试创建或使用对象。

420

2023.10.16

vb连接access数据库的方法
vb连接access数据库的方法

vb连接access数据库方法:1、使用ADO连接,首先导入System.Data.OleDb模块,然后定义一个连接字符串,接着创建一个OleDbConnection对象并使用Open() 方法打开连接;2、使用DAO连接,首先导入 Microsoft.Jet.OLEDB模块,然后定义一个连接字符串,接着创建一个JetConnection对象并使用Open()方法打开连接即可。

478

2023.10.16

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

76

2026.03.11

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
MongoDB 教程
MongoDB 教程

共17课时 | 3.3万人学习

Swoft2.x速学之http api篇课程
Swoft2.x速学之http api篇课程

共16课时 | 1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号