PHP CSV数据处理：批量提取URL参数中的关键词

聖光之護

发布时间：2025-10-09 14:32:01

567人浏览过

来源于php中文网

原创

php csv数据处理：批量提取url参数中的关键词

本教程详细介绍了如何使用PHP上传并解析CSV文件，将数据转换为关联数组。核心内容是演示如何遍历数组，从URL格式的query字段中精确提取并转换keywords参数的值，实现数据的批量清洗与格式化，最终生成符合要求的数据结构。在数据处理过程中，我们经常需要从结构化的数据源（如CSV文件）中提取特定信息，并对其进行格式化。当这些信息嵌套在复杂的字符串（如URL）中时，就需要运用一系列字符串处理技巧。本文将指导您完成一个典型的场景：上传CSV文件，解析其内容，并从每行数据中URL字段里提取特定的关键词。

1. CSV文件上传与初步解析

首先，我们需要一个HTML表单来允许用户上传CSV文件，并编写PHP代码来接收这个文件并将其内容解析成一个可操作的数组。

1.1 HTML文件上传表单

创建一个简单的HTML表单，用于选择并上传CSV文件：

<form enctype='multipart/form-data' action='' method='post'>
    <label>上传 CSV 文件</label><br>
    <input size='50' type='file' name='filename'><br>
    <input type='submit' name='submit' value='上传文件'>
</form>

1.2 PHP解析CSV文件

当表单提交后，PHP脚本会处理上传的文件。我们使用fgetcsv函数逐行读取CSV内容，并结合array_combine将每行数据与CSV头信息关联起来，形成一个易于访问的关联数组。

<?php

if (isset($_POST['submit'])) {
    // 检查文件是否成功上传
    if (isset($_FILES['filename']) && $_FILES['filename']['error'] == UPLOAD_ERR_OK) {
        $file = fopen($_FILES['filename']['tmp_name'], "r");
        if ($file === false) {
            echo "错误：无法打开上传的文件。";
            exit;
        }

        $all_rows = array();
        // 读取CSV文件的第一行作为表头
        $header = fgetcsv($file);

        // 逐行读取CSV数据
        while (($row = fgetcsv($file)) !== false) {
            // 确保行数据与表头长度匹配，避免array_combine报错
            if (count($header) == count($row)) {
                $all_rows[] = array_combine($header, $row);
            } else {
                // 处理行数据与表头不匹配的情况，例如跳过或记录错误
                echo "警告：CSV行数据与表头不匹配，已跳过一行。<br>";
            }
        }
        fclose($file); // 关闭文件句柄

        echo "<h2>原始解析数据：</h2>";
        echo "<pre>";
        print_r($all_rows);
        echo "</pre>";

    } else {
        echo "错误：文件上传失败或未选择文件。";
        // 根据$_FILES['filename']['error']的值提供更详细的错误信息
        if (isset($_FILES['filename'])) {
            switch ($_FILES['filename']['error']) {
                case UPLOAD_ERR_INI_SIZE:
                case UPLOAD_ERR_FORM_SIZE:
                    echo "文件过大。";
                    break;
                case UPLOAD_ERR_PARTIAL:
                    echo "文件部分上传。";
                    break;
                case UPLOAD_ERR_NO_FILE:
                    echo "未选择文件。";
                    break;
                case UPLOAD_ERR_NO_TMP_DIR:
                    echo "缺少临时文件夹。";
                    break;
                case UPLOAD_ERR_CANT_WRITE:
                    echo "写入磁盘失败。";
                    break;
                case UPLOAD_ERR_EXTENSION:
                    echo "PHP扩展阻止了文件上传。";
                    break;
            }
        }
    }
}
?>

运行上述代码并上传一个CSV文件（例如，内容如问题描述中的示例），您将看到一个包含所有CSV数据的关联数组。

立即学习“PHP免费学习笔记（深入）”；

2. 批量提取URL中的关键词

现在，$all_rows数组包含了CSV的所有数据，其中query键的值是一个URL字符串。我们的目标是从这个URL中提取keywords=后面的值，并替换掉原始的URL字符串。

例如，将： https://www.example.com/search/output/person/?loc=[%22105490917%22%2C%22101452733%22]&keywords=Computational%20Biologist&origin=host 转换为： Computational Biologist

由于数据存储在数组的每个元素中，我们需要遍历整个数组，并对每个元素的query字段进行独立处理。

Otter.ai

一个自动的会议记录和笔记工具，会议内容生成和实时转录

下载

2.1 关键词提取逻辑详解

我们将使用一系列PHP字符串函数来完成这个任务：

strstr($haystack, $needle): 用于查找$needle在$haystack中首次出现的位置，并返回从该位置到字符串结尾的部分。这里，我们用它来定位keywords=子串，获取URL中包含关键词的部分。
str_replace($search, $replace, $subject): 用于替换字符串中的特定子串。我们将用它来移除keywords=这个前缀，只留下关键词及其后面的内容。
substr($string, $start, $length) 和 strpos($haystack, $needle): strpos用于查找$needle在$haystack中首次出现的位置。结合substr，我们可以截取从字符串开头到&符号之间的部分，从而精确地获取关键词。
urldecode($string): URL中的特殊字符（如空格表示为%20）会被编码。urldecode函数用于将这些编码字符解码回其原始形式，使关键词更具可读性。

2.2 实现关键词提取

将上述逻辑应用于$all_rows数组的每个元素：

<?php
// ... (之前的HTML表单和PHP CSV解析代码) ...

if (isset($_POST['submit'])) {
    // ... (CSV文件上传和解析代码) ...

    if (!empty($all_rows)) {
        foreach ($all_rows as $key => $value) {
            // 1. 查找并截取从 'keywords=' 开始的字符串部分
            // 例如：'keywords=Computational%20Biologist&origin=host'
            $query_string_part = strstr($all_rows[$key]['query'], 'keywords=');

            if ($query_string_part !== false) { // 确保找到了 'keywords='
                // 2. 移除 'keywords=' 前缀
                // 例如：'Computational%20Biologist&origin=host'
                $keyword_segment = str_replace('keywords=', '', $query_string_part);

                // 3. 查找 '&' 符号的位置，并截取其之前的部分
                // 例如：'Computational%20Biologist'
                $amp_pos = strpos($keyword_segment, "&");
                if ($amp_pos !== false) {
                    $extracted_keyword = substr($keyword_segment, 0, $amp_pos);
                } else {
                    // 如果没有找到 '&'，说明 'keywords=' 是最后一个参数
                    $extracted_keyword = $keyword_segment;
                }

                // 4. 对提取出的关键词进行URL解码
                $all_rows[$key]['query'] = urldecode($extracted_keyword);
            } else {
                // 如果没有找到 'keywords='，可以将 'query' 设置为默认值或空字符串
                $all_rows[$key]['query'] = ''; // 或者保留原值，取决于业务需求
            }
        }

        echo "<h2>处理后的数据：</h2>";
        echo "<pre>";
        print_r($all_rows);
        echo "</pre>";
    } else {
        echo "数组为空，没有数据可处理。";
    }
}
?>

3. 完整代码示例

将HTML表单、CSV解析和关键词提取逻辑组合在一起，形成一个完整的PHP脚本：

<!DOCTYPE html>
<html lang="zh-CN">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>PHP CSV文件处理与URL关键词提取</title>
    <style>
        body { font-family: Arial, sans-serif; margin: 20px; }
        pre { background-color: #f4f4f4; padding: 15px; border: 1px solid #ddd; overflow-x: auto; }
        h2 { color: #333; }
        form { margin-bottom: 20px; padding: 15px; border: 1px solid #eee; background-color: #f9f9f9; }
        label { font-weight: bold; margin-bottom: 5px; display: block; }
        input[type="file"] { margin-bottom: 10px; }
        input[type="submit"] { padding: 8px 15px; background-color: #007bff; color: white; border: none; cursor: pointer; border-radius: 4px; }
        input[type="submit"]:hover { background-color: #0056b3; }
        .error { color: red; font-weight: bold; }
        .warning { color: orange; }
    </style>
</head>
<body>

    <form enctype='multipart/form-data' action='' method='post'>
        <label>上传 CSV 文件</label><br>
        <input size='50' type='file' name='filename'><br>
        <input type='submit' name='submit' value='上传文件'>
    </form>

    <?php

    if (isset($_POST['submit'])) {
        // 检查文件是否成功上传
        if (isset($_FILES['filename']) && $_FILES['filename']['error'] == UPLOAD_ERR_OK) {
            $file = fopen($_FILES['filename']['tmp_name'], "r");
            if ($file === false) {
                echo "<p class='error'>错误：无法打开上传的文件。</p>";
                exit;
            }

            $all_rows = array();
            // 读取CSV文件的第一行作为表头
            $header = fgetcsv($file);

            // 逐行读取CSV数据
            while (($row = fgetcsv($file)) !== false) {
                // 确保行数据与表头长度匹配
                if ($header && count($header) == count($row)) {
                    $all_rows[] = array_combine($header, $row);
                } else {
                    echo "<p class='warning'>警告：CSV行数据与表头不匹配或表头缺失，已跳过一行。</p>";
                }
            }
            fclose($file); // 关闭文件句柄

            echo "<h2>原始解析数据：</h2>";
            echo "<pre>";
            print_r($all_rows);
            echo "</pre>";

            // --- 批量提取URL中的关键词 ---
            if (!empty($all_rows)) {
                foreach ($all_rows as $key => $value) {
                    $original_query = $all_rows[$key]['query'];

                    // 1. 查找从 'keywords=' 开始的字符串部分
                    $query_string_part = strstr($original_query, 'keywords=');

                    if ($query_string_part !== false) {
                        // 2. 移除 'keywords=' 前缀
                        $keyword_segment = str_replace('keywords=', '', $query_string_part);

                        // 3. 查找 '&' 符号的位置，并截取其之前的部分
                        $amp_pos = strpos($keyword_segment, "&");
                        if ($amp_pos !== false) {
                            $extracted_keyword = substr($keyword_segment, 0, $amp_pos);
                        } else {
                            // 如果没有找到 '&'，说明 'keywords=' 是最后一个参数
                            $extracted_keyword = $keyword_segment;
                        }

                        // 4. 对提取出的关键词进行URL解码
                        $all_rows[$key]['query'] = urldecode($extracted_keyword);
                    } else {
                        // 如果没有找到 'keywords='，则将 'query' 设置为空字符串或根据需求保留原值
                        $all_rows[$key]['query'] = ''; // 或 $all_rows[$key]['query'] = $original_query;
                    }
                }

                echo "<h2>处理后的数据：</h2>";
                echo "<pre>";
                print_r($all_rows);
                echo "</pre>";
            } else {
                echo "<p>数组为空，没有数据可处理。</p>";
            }

        } else {
            echo "<p class='error'>错误：文件上传失败或未选择文件。</p>";
            // 根据$_FILES['filename']['error']的值提供更详细的错误信息
            if (isset($_FILES['filename'])) {
                switch ($_FILES['filename']['error']) {
                    case UPLOAD_ERR_INI_SIZE: echo "<p class='error'>文件过大 (超过php.ini限制)。</p>"; break;
                    case UPLOAD_ERR_FORM_SIZE: echo "<p class='error'>文件过大 (超过HTML表单限制)。</p>"; break;
                    case UPLOAD_ERR_PARTIAL: echo "<p class='error'>文件部分上传。</p>"; break;
                    case UPLOAD_ERR_NO_FILE: echo "<p class='error'>未选择文件。</p>"; break;
                    case UPLOAD_ERR_NO_TMP_DIR: echo "<p class='error'>缺少临时文件夹。</p>"; break;
                    case UPLOAD_ERR_CANT_WRITE: echo "<p class='error'>写入磁盘失败。</p>"; break;
                    case UPLOAD_ERR_EXTENSION: echo "<p class='error'>PHP扩展阻止了文件上传。</p>"; break;
                    default: echo "<p class='error'>未知上传错误。</p>"; break;
                }
            }
        }
    }
    ?>

</body>
</html>

4. 注意事项与总结

错误处理: 在实际应用中，文件上传和CSV解析阶段需要更健壮的错误处理，例如检查$_FILES数组是否存在、文件上传错误码、fopen是否成功等。本教程已在代码中加入了基本的错误检查。
CSV格式兼容性: fgetcsv函数默认以逗号作为分隔符，并支持处理包含引号的字段。如果您的CSV文件使用其他分隔符（如分号或制表符），您可以通过fgetcsv($file, 0, ';')来指定。
URL解析的通用性: 本教程中使用的字符串函数组合适用于特定的URL模式（keywords=...&）。对于更复杂的URL解析需求，PHP提供了parse_url()和parse_str()等更强大的内置函数。例如，您可以使用它们来解析整个查询字符串：
```
$url_components = parse_url($original_query);
if (isset($url_components['query'])) {
    parse_str($url_components['query'], $params);
    if (isset($params['keywords'])) {
        $all_rows[$key]['query'] = $params['keywords'];
    } else {
        $all_rows[$key]['query'] = '';
    }
}
```
这种方法通常更健壮，不易受URL结构变化的影响。然而，对于本教程中这种明确且固定的模式，直接的字符串操作也高效且易于理解。
性能考量: 对于非常大的CSV文件，一次性将所有数据加载到内存中可能会消耗大量资源。在这种情况下，可以考虑逐行处理数据，或者使用生成器（Generator）来优化内存使用。

通过本教程，您学会了如何使用PHP处理CSV文件上传、解析数据，并利用字符串函数从复杂URL中批量提取和格式化特定信息。掌握这些技巧，将有助于您在数据处理和清洗任务中更加高效。

PHP 中使用 Fiber 实现多 URL 并发非阻塞 fread 教程

宝塔面板如何配置Redis集群？在宝塔面板环境下实现缓存高可用

宝塔面板如何安装系统补丁？利用宝塔面板面板管理功能更新底层环境

宝塔面板如何升级到最新版本_面板升级操作方法【教程】

Windows下Workerman支持多进程吗_系统限制说明与解决方法【说明】