0

0

MySQL非规范化表数据高效提取与PHP处理教程

DDD

DDD

发布时间:2025-10-24 10:33:01

|

799人浏览过

|

来源于php中文网

原创

MySQL非规范化表数据高效提取与PHP处理教程

本教程旨在解决从mysql非规范化eav(实体-属性-值)表中高效提取和组织特定用户数据(如姓名)的问题。针对大型数据集(数万行),传统的多查询循环方式效率低下。文章将深入探讨两种优化策略:一是利用sql的条件聚合功能在数据库层面直接重构数据,实现单次查询的高效数据转换;二是采用单次全量查询结合php内存处理,灵活重组数据。教程将提供详细代码示例、性能考量及注意事项,帮助开发者在处理类似场景时实现卓越性能。

从非规范化表中高效提取与组织用户数据

在Web开发中,尤其是在使用某些内容管理系统(CMS)或第三方插件时,我们经常会遇到数据存储在非规范化的EAV(Entity-Attribute-Value,实体-属性-值)模式表中。这种模式的特点是,不同的属性值(例如用户的姓、名、地址、邮箱)都存储在同一个value列中,并通过一个field_id来标识其具体含义,而用户或实体则通过app_id等字段来唯一识别。

例如,一个典型的EAV表结构可能如下所示:

ID app_id field_id value
xxx yyy 9 First Name
xxx yyy 15 Last Name
zzz aaa 9 Another
zzz aaa 15 User

其中,app_id代表用户ID,field_id为9表示“First Name”,field_id为15表示“Last Name”。我们的目标是高效地从这张表中为每个用户提取出其姓和名,并将其组合或以结构化形式呈现。

挑战:大型数据集的性能瓶颈

当表中的数据量达到数万甚至数十万行时,传统的“为每个用户ID循环查询”或“全表查询后在PHP中进行低效嵌套循环处理”的方法将导致严重的性能问题,例如查询时间过长(10分钟以上)和服务器负载过高。因此,我们需要寻找更高效的数据提取和组织策略。

立即学习PHP免费学习笔记(深入)”;

常见的低效方法及其问题

1. PHP中多层循环处理全量数据

初学者可能会尝试一次性查询出所有数据,然后在PHP中通过多层循环来匹配和重组数据。

$mysqli = new mysqli("localhost", "dbuser", "dbpass", "dbname");
$mysqli->set_charset("utf8mb4");

$fields = $mysqli->query("SELECT app_id, field_id, value FROM name_of_table");
$results = $fields->fetch_all(MYSQLI_ASSOC); // 获取所有数据

$users_data = [];
foreach ($results as $row) {
    $app_id = $row['app_id'];
    $field_id = $row['field_id'];
    $value = $row['value'];

    if (!isset($users_data[$app_id])) {
        $users_data[$app_id] = [
            'first_name' => null,
            'last_name' => null,
        ];
    }

    // 根据field_id分配值
    if ($field_id == 9) { // 假设9是First Name
        $users_data[$app_id]['first_name'] = $value;
    } elseif ($field_id == 15) { // 假设15是Last Name
        $users_data[$app_id]['last_name'] = $value;
    }
}

// 此时 $users_data 包含了所有用户的姓和名
foreach ($users_data as $app_id => $data) {
    echo "用户ID: " . $app_id . ", 姓: " . ($data['first_name'] ?? 'N/A') . ", 名: " . ($data['last_name'] ?? 'N/A') . "<br>";
}

$mysqli->close();

问题分析: 尽管避免了多次数据库查询,但如果数据量非常大,fetch_all()可能会占用大量内存。在PHP中处理大量数据(例如20,000行或更多)也会消耗显著的CPU资源。

2. 在循环中执行多次数据库查询

另一种常见的错误是遍历用户ID列表,并在每次迭代中执行一个数据库查询。

// 假设 $count 是最大的 app_id 或需要处理的 app_id 范围
for ($i = $count; $i >= ($count - 1000); $i--) { // 循环1000次
    // 每次循环都执行一次数据库查询
    $data = $mysqli->query("SELECT field_id, value FROM name_of_table WHERE app_id = $i AND field_id IN (9, 15)");
    $names = $data->fetch_all(MYSQLI_NUM);

    $first_name = null;
    $last_name = null;

    foreach ($names as list($field_id, $value)) {
        switch ($field_id) {
            case 9:
                $first_name = $value;
                break;
            case 15:
                $last_name = $value;
                break;
        }
    }
    // 输出或存储 $first_name, $last_name
    if ($first_name || $last_name) {
        echo "用户ID: " . $i . ", 姓: " . ($first_name ?? 'N/A') . ", 名: " . ($last_name ?? 'N/A') . "<br>";
    }
}
$mysqli->close();

问题分析: 这种方法对数据库的压力极大。每次循环都会建立新的查询连接、解析SQL、执行查询、传输结果,这些开销累积起来会非常显著。对于20,000行数据,如果需要处理数千个不同的app_id,将导致数千次数据库查询,性能将急剧下降。

高效解决方案

为了克服上述性能瓶颈,我们应该尽量减少数据库交互次数,并尽可能将数据重组的逻辑推到数据库层面或在PHP中进行高效的内存处理。

听脑AI
听脑AI

听脑AI语音,一款专注于音视频内容的工作学习助手,为用户提供便捷的音视频内容记录、整理与分析功能。

下载

1. 方案一:SQL条件聚合(推荐)

这是最推荐的方法,它利用SQL的条件聚合功能,在数据库层面通过单次查询完成数据的“透视”或重组。

SELECT
    t.app_id,
    MAX(CASE WHEN t.field_id = 9 THEN t.value ELSE NULL END) AS first_name,
    MAX(CASE WHEN t.field_id = 15 THEN t.value ELSE NULL END) AS last_name
FROM
    name_of_table t
WHERE
    t.field_id IN (9, 15) -- 仅筛选出我们关心的field_id,减少处理的数据量
GROUP BY
    t.app_id;

PHP实现示例:

$mysqli = new mysqli("localhost", "dbuser", "dbpass", "dbname");
$mysqli->set_charset("utf8mb4");

$sql = "
    SELECT
        t.app_id,
        MAX(CASE WHEN t.field_id = 9 THEN t.value ELSE NULL END) AS first_name,
        MAX(CASE WHEN t.field_id = 15 THEN t.value ELSE NULL END) AS last_name
    FROM
        name_of_table t
    WHERE
        t.field_id IN (9, 15)
    GROUP BY
        t.app_id
";

$result = $mysqli->query($sql);

if ($result) {
    while ($row = $result->fetch_assoc()) {
        echo "用户ID: " . $row['app_id'] . ", 姓: " . ($row['first_name'] ?? 'N/A') . ", 名: " . ($row['last_name'] ?? 'N/A') . "<br>";
    }
    $result->free(); // 释放结果集
} else {
    echo "查询失败: " . $mysqli->error;
}

$mysqli->close();

优点:

  • 单次数据库查询: 极大地减少了数据库的I/O和连接开销。
  • 数据库优化: 数据库管理系统(DBMS)通常在处理聚合和分组方面非常高效。
  • 结果集小: 直接返回结构化的结果,PHP接收到的数据量更小,处理更直接。
  • 可扩展性: 如果需要获取更多字段,只需在SELECT子句中添加更多的MAX(CASE WHEN ...)表达式。

注意事项:

  • 确保field_id列上有索引,这将显著提高WHERE子句和GROUP BY操作的性能。
  • MAX()函数在这里不是为了找到最大值,而是因为GROUP BY操作需要一个聚合函数。CASE WHEN确保了只有匹配的field_id的值被选中,其他为NULL,MAX()会忽略NULL并返回唯一非NULL的值。

2. 方案二:单次查询与PHP内存处理(适用于复杂场景)

如果SQL聚合逻辑变得过于复杂,或者需要在PHP中进行更灵活的后续处理,那么一次性查询所有相关数据并在PHP内存中高效处理也是一个不错的选择。关键在于,只查询我们需要的app_id、field_id和value,而不是SELECT *。

$mysqli = new mysqli("localhost", "dbuser", "dbpass", "dbname");
$mysqli->set_charset("utf8mb4");

// 仅查询我们关心的字段和field_id
$stmt = $mysqli->prepare("SELECT app_id, field_id, value FROM name_of_table WHERE field_id IN (?, ?)");
$field_id_first_name = 9;
$field_id_last_name = 15;
$stmt->bind_param("ii", $field_id_first_name, $field_id_last_name);
$stmt->execute();
$result = $stmt->get_result(); // 获取结果集

$users_data = [];
while ($row = $result->fetch_assoc()) {
    $app_id = $row['app_id'];
    $field_id = $row['field_id'];
    $value = $row['value'];

    // 初始化用户数据结构
    if (!isset($users_data[$app_id])) {
        $users_data[$app_id] = [
            'first_name' => null,
            'last_name' => null,
        ];
    }

    // 根据field_id分配值
    if ($field_id == $field_id_first_name) {
        $users_data[$app_id]['first_name'] = $value;
    } elseif ($field_id == $field_id_last_name) {
        $users_data[$app_id]['last_name'] = $value;
    }
}

// 此时 $users_data 包含了所有用户的姓和名,可以进行后续处理
foreach ($users_data as $app_id => $data) {
    echo "用户ID: " . $app_id . ", 姓: " . ($data['first_name'] ?? 'N/A') . ", 名: " . ($data['last_name'] ?? 'N/A') . "<br>";
}

$stmt->close();
$mysqli->close();

优点:

  • 单次数据库查询: 同样减少了数据库交互。
  • PHP处理灵活性: 可以在PHP中进行更复杂的逻辑处理,例如字段验证、格式化或与其他数据源的合并。
  • 内存效率: 使用while ($row = $result->fetch_assoc())逐行获取数据,可以减少一次性将所有数据加载到内存的压力(相比fetch_all())。

注意事项:

  • 同样需要确保field_id和app_id列上有索引。
  • 如果结果集非常庞大,即使逐行处理,PHP脚本的内存使用量和执行时间也可能成为问题。在这种情况下,SQL条件聚合通常是更好的选择。

总结

在处理MySQL非规范化EAV表中的数据时,尤其是在面对大型数据集时,性能优化至关重要。

  • 避免在循环中执行多次数据库查询。 这是最常见的性能杀手。
  • 首选SQL条件聚合 (MAX(CASE WHEN ... GROUP BY)),它将数据重组的复杂性推给数据库,通常能获得最佳性能。
  • 当SQL聚合不适用或PHP需要更灵活处理时,使用单次查询结合PHP内存处理。 确保只查询必要的字段,并逐行处理结果集以优化内存使用。

通过选择合适的策略并结合数据库索引优化,您可以显著提升从非规范化表中提取和组织数据的效率,确保应用程序的响应速度和稳定性。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
数据分析工具有哪些
数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍:1、Excel,具有强大的计算和数据处理功能;2、SQL,可以进行数据查询、过滤、排序、聚合等操作;3、Python,拥有丰富的数据分析库;4、R,拥有丰富的统计分析库和图形库;5、Tableau,提供了直观易用的用户界面等等。

1135

2023.10.12

SQL中distinct的用法
SQL中distinct的用法

SQL中distinct的语法是“SELECT DISTINCT column1, column2,...,FROM table_name;”。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

340

2023.10.27

SQL中months_between使用方法
SQL中months_between使用方法

在SQL中,MONTHS_BETWEEN 是一个常见的函数,用于计算两个日期之间的月份差。想了解更多SQL的相关内容,可以阅读本专题下面的文章。

381

2024.02.23

SQL出现5120错误解决方法
SQL出现5120错误解决方法

SQL Server错误5120是由于没有足够的权限来访问或操作指定的数据库或文件引起的。想了解更多sql错误的相关内容,可以阅读本专题下面的文章。

2194

2024.03.06

sql procedure语法错误解决方法
sql procedure语法错误解决方法

sql procedure语法错误解决办法:1、仔细检查错误消息;2、检查语法规则;3、检查括号和引号;4、检查变量和参数;5、检查关键字和函数;6、逐步调试;7、参考文档和示例。想了解更多语法错误的相关内容,可以阅读本专题下面的文章。

380

2024.03.06

oracle数据库运行sql方法
oracle数据库运行sql方法

运行sql步骤包括:打开sql plus工具并连接到数据库。在提示符下输入sql语句。按enter键运行该语句。查看结果,错误消息或退出sql plus。想了解更多oracle数据库的相关内容,可以阅读本专题下面的文章。

1703

2024.04.07

sql中where的含义
sql中where的含义

sql中where子句用于从表中过滤数据,它基于指定条件选择特定的行。想了解更多where的相关内容,可以阅读本专题下面的文章。

586

2024.04.29

sql中删除表的语句是什么
sql中删除表的语句是什么

sql中用于删除表的语句是drop table。语法为drop table table_name;该语句将永久删除指定表的表和数据。想了解更多sql的相关内容,可以阅读本专题下面的文章。

440

2024.04.29

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

26

2026.03.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
MySQL 教程
MySQL 教程

共48课时 | 2.6万人学习

MySQL 初学入门(mosh老师)
MySQL 初学入门(mosh老师)

共3课时 | 0.3万人学习

简单聊聊mysql8与网络通信
简单聊聊mysql8与网络通信

共1课时 | 850人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号