0

0

如何将 AWS Glue 爬网程序与 Amazon Athena 结合使用

舞夢輝影

舞夢輝影

发布时间:2024-10-22 14:01:14

|

1670人浏览过

|

来源于www.pluralsight.com

转载

作为数据专业人员,您需要处理来自各种来源的大量数据。这可能会给数据管理和分析带来挑战。幸运的是,两项 AWS 服务可以提供帮助:AWS Glue 和 Amazon Athena。

当您集成这些服务时,您就释放了 AWS 生态系统中的数据发现、编目和查询。让我们 了解他们如何简化您的数据分析工作流程。

图片.png

什么是 AWS Glue?

AWS Glue 是一种无服务器托管服务,可让您发现、准备、 移动和集成来自多个来源的数据。作为数据集成 服务,AWS Glue 让您能够集中管理数据 位置,而无需管理基础设施。

什么是 AWS Glue 爬网程序?

Glue爬虫是扫描数据的自动化数据发现工具 自动对其中的数据进行分类、分组和编目。 然后,它会在您的 AWS Glue 数据中创建新表或更新现有表 目录。

什么是 Glue 数据目录?

AWS Glue 数据目录是数据位置的索引, 架构和运行时指标。您需要此信息来创建和 监控您的提取、转换和加载 (ETL) 作业。 

为什么使用 Amazon Athena 和 AWS Glue?

现在我们已经介绍了Amazon Athena、AWS Glue 和 AWS 的基础知识 胶水爬虫,让我们更深入地讨论一下它们。

4 个主要 Amazon Athena 使用案例

Amazon Athena 提供了一种简化、灵活的分析方法 PB 级数据就在它们所在的地方。例如,Athena 可以分析 从 Amazon Simple Storage Service (S3) 获取数据或构建应用程序 数据湖和 30 个数据源,包括本地数据源或 使用 SQL 或 Python 的其他云系统。 

Amazon Athena 有四种主要用例:

  1. 在 S3、本地数据中心或其他云上运行查询

  2. 为机器学习模型准备数据

  3. 在 SQL 查询或 Python 中使用机器学习模型 简化复杂的任务,例如异常检测、客户群体 分析和销售预测

  4. 执行多云分析(例如在 Azure 中查询数据) Synapse Analytics,然后通过 Amazon 将结果可视化 QuickSight)

3 个关键 AWS Glue 使用案例

现在我们已经介绍了 Amazon Athena,接下来我们来谈谈 AWS Glue。您可以使用 AWS Glue 执行一些不同的操作。 

首先,您可以使用 AWS Glue 数据集成引擎,它允许您 从几个不同的来源获取数据。这包括亚马逊 S3、 Amazon DynamoDB 和 Amazon RDS 以及在 Amazon 上运行的数据库 EC2(与 AWS Glue 工作室集成)和 AWS Glue for Ray、Python 壳牌和阿帕奇火花。 

一旦数据被连接和过滤,它就可以与 加载或创建数据的位置,此列表扩展为包含来自以下位置的数据 Amazon Redshift、数据湖和数据仓库等地方。

您还可以使用 AWS Glue 运行 ETL 作业。这些工作可以让你 隔离客户数据,保护传输中和现场的客户数据 休息,仅在响应客户需要时访问客户数据 请求。当配置 ETL 作业时,您需要做的就是提供 虚拟专用中的输入数据源和输出数据目标 云。

使用 AWS Glue 的最后一种方法是通过数据目录 快速发现和搜索多个 AWS 数据集,而无需移动 数据。数据编目后,可立即用于搜索 并使用 Amazon Athena、Amazon EMR 和 Amazon Redshift 进行查询 频谱。

AWS Glue 入门:如何将数据从 AWS Glue 获取到 Amazon Athena

那么,如何将数据从 AWS Glue 获取到 Amazon Athena 中?请按照以下步骤操作:

Grokipedia
Grokipedia

xAI推出的AI在线百科全书

下载
  1. 首先将数据上传到数据源。最受欢迎的 选项是 S3 存储桶,但 DynamoDB 表和 Amazon RedShift 也是 选项。 

  2. 选择您的数据源并创建一个分类器,如果 必要的。分类器读取数据并生成模式(如果满足) 识别格式。您可以创建自定义分类器来查看 不同的数据类型。 

  3. 创建一个爬虫。 

  4. 设置爬网程序的名称,然后选择您的数据源 并添加任何自定义分类器以确保 AWS Glue 识别 数据正确。

  5. 设置身份和访问管理 (IAM) 角色以确保爬网程序可以正确运行流程。

  6. 创建将保存数据集的数据库。设置爬网程序的运行时间和频率,以使您的数据保持最新状态。

  7. 运行爬网程序。此过程可能需要一段时间,具体取决于 数据集有多大。爬虫成功运行后,您将 查看数据库中表的更改。

现在您已经完成了此过程,您可以跳转到 Amazon Athena 并运行您需要的查询来过滤数据并获取 您正在寻找的结果。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
数据分析工具有哪些
数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍:1、Excel,具有强大的计算和数据处理功能;2、SQL,可以进行数据查询、过滤、排序、聚合等操作;3、Python,拥有丰富的数据分析库;4、R,拥有丰富的统计分析库和图形库;5、Tableau,提供了直观易用的用户界面等等。

748

2023.10.12

SQL中distinct的用法
SQL中distinct的用法

SQL中distinct的语法是“SELECT DISTINCT column1, column2,...,FROM table_name;”。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

328

2023.10.27

SQL中months_between使用方法
SQL中months_between使用方法

在SQL中,MONTHS_BETWEEN 是一个常见的函数,用于计算两个日期之间的月份差。想了解更多SQL的相关内容,可以阅读本专题下面的文章。

350

2024.02.23

SQL出现5120错误解决方法
SQL出现5120错误解决方法

SQL Server错误5120是由于没有足够的权限来访问或操作指定的数据库或文件引起的。想了解更多sql错误的相关内容,可以阅读本专题下面的文章。

1283

2024.03.06

sql procedure语法错误解决方法
sql procedure语法错误解决方法

sql procedure语法错误解决办法:1、仔细检查错误消息;2、检查语法规则;3、检查括号和引号;4、检查变量和参数;5、检查关键字和函数;6、逐步调试;7、参考文档和示例。想了解更多语法错误的相关内容,可以阅读本专题下面的文章。

360

2024.03.06

oracle数据库运行sql方法
oracle数据库运行sql方法

运行sql步骤包括:打开sql plus工具并连接到数据库。在提示符下输入sql语句。按enter键运行该语句。查看结果,错误消息或退出sql plus。想了解更多oracle数据库的相关内容,可以阅读本专题下面的文章。

861

2024.04.07

sql中where的含义
sql中where的含义

sql中where子句用于从表中过滤数据,它基于指定条件选择特定的行。想了解更多where的相关内容,可以阅读本专题下面的文章。

581

2024.04.29

sql中删除表的语句是什么
sql中删除表的语句是什么

sql中用于删除表的语句是drop table。语法为drop table table_name;该语句将永久删除指定表的表和数据。想了解更多sql的相关内容,可以阅读本专题下面的文章。

423

2024.04.29

C++ 设计模式与软件架构
C++ 设计模式与软件架构

本专题深入讲解 C++ 中的常见设计模式与架构优化,包括单例模式、工厂模式、观察者模式、策略模式、命令模式等,结合实际案例展示如何在 C++ 项目中应用这些模式提升代码可维护性与扩展性。通过案例分析,帮助开发者掌握 如何运用设计模式构建高质量的软件架构,提升系统的灵活性与可扩展性。

0

2026.01.30

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
SQL 教程
SQL 教程

共61课时 | 3.6万人学习

SQL优化与排查(MySQL版)
SQL优化与排查(MySQL版)

共26课时 | 2.3万人学习

MySQL索引优化解决方案
MySQL索引优化解决方案

共23课时 | 2.1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号