0

0

PHP CSV数据处理:批量提取URL参数中的关键词

聖光之護

聖光之護

发布时间:2025-10-09 14:32:01

|

567人浏览过

|

来源于php中文网

原创

php csv数据处理:批量提取url参数中的关键词

本教程详细介绍了如何使用PHP上传并解析CSV文件,将数据转换为关联数组。核心内容是演示如何遍历数组,从URL格式的query字段中精确提取并转换keywords参数的值,实现数据的批量清洗与格式化,最终生成符合要求的数据结构。在数据处理过程中,我们经常需要从结构化的数据源(如CSV文件)中提取特定信息,并对其进行格式化。当这些信息嵌套在复杂的字符串(如URL)中时,就需要运用一系列字符串处理技巧。本文将指导您完成一个典型的场景:上传CSV文件,解析其内容,并从每行数据中URL字段里提取特定的关键词。

1. CSV文件上传与初步解析

首先,我们需要一个HTML表单来允许用户上传CSV文件,并编写PHP代码来接收这个文件并将其内容解析成一个可操作的数组。

1.1 HTML文件上传表单

创建一个简单的HTML表单,用于选择并上传CSV文件:

<form enctype='multipart/form-data' action='' method='post'>
    <label>上传 CSV 文件</label><br>
    <input size='50' type='file' name='filename'><br>
    <input type='submit' name='submit' value='上传文件'>
</form>

1.2 PHP解析CSV文件

当表单提交后,PHP脚本会处理上传的文件。我们使用fgetcsv函数逐行读取CSV内容,并结合array_combine将每行数据与CSV头信息关联起来,形成一个易于访问的关联数组。

<?php

if (isset($_POST['submit'])) {
    // 检查文件是否成功上传
    if (isset($_FILES['filename']) && $_FILES['filename']['error'] == UPLOAD_ERR_OK) {
        $file = fopen($_FILES['filename']['tmp_name'], "r");
        if ($file === false) {
            echo "错误:无法打开上传的文件。";
            exit;
        }

        $all_rows = array();
        // 读取CSV文件的第一行作为表头
        $header = fgetcsv($file);

        // 逐行读取CSV数据
        while (($row = fgetcsv($file)) !== false) {
            // 确保行数据与表头长度匹配,避免array_combine报错
            if (count($header) == count($row)) {
                $all_rows[] = array_combine($header, $row);
            } else {
                // 处理行数据与表头不匹配的情况,例如跳过或记录错误
                echo "警告:CSV行数据与表头不匹配,已跳过一行。<br>";
            }
        }
        fclose($file); // 关闭文件句柄

        echo "<h2>原始解析数据:</h2>";
        echo "<pre>";
        print_r($all_rows);
        echo "</pre>";

    } else {
        echo "错误:文件上传失败或未选择文件。";
        // 根据$_FILES['filename']['error']的值提供更详细的错误信息
        if (isset($_FILES['filename'])) {
            switch ($_FILES['filename']['error']) {
                case UPLOAD_ERR_INI_SIZE:
                case UPLOAD_ERR_FORM_SIZE:
                    echo "文件过大。";
                    break;
                case UPLOAD_ERR_PARTIAL:
                    echo "文件部分上传。";
                    break;
                case UPLOAD_ERR_NO_FILE:
                    echo "未选择文件。";
                    break;
                case UPLOAD_ERR_NO_TMP_DIR:
                    echo "缺少临时文件夹。";
                    break;
                case UPLOAD_ERR_CANT_WRITE:
                    echo "写入磁盘失败。";
                    break;
                case UPLOAD_ERR_EXTENSION:
                    echo "PHP扩展阻止了文件上传。";
                    break;
            }
        }
    }
}
?>

运行上述代码并上传一个CSV文件(例如,内容如问题描述中的示例),您将看到一个包含所有CSV数据的关联数组。

立即学习PHP免费学习笔记(深入)”;

2. 批量提取URL中的关键词

现在,$all_rows数组包含了CSV的所有数据,其中query键的值是一个URL字符串。我们的目标是从这个URL中提取keywords=后面的值,并替换掉原始的URL字符串。

例如,将: https://www.example.com/search/output/person/?loc=[%22105490917%22%2C%22101452733%22]&keywords=Computational%20Biologist&origin=host 转换为: Computational Biologist

由于数据存储在数组的每个元素中,我们需要遍历整个数组,并对每个元素的query字段进行独立处理。

Otter.ai
Otter.ai

一个自动的会议记录和笔记工具,会议内容生成和实时转录

下载

2.1 关键词提取逻辑详解

我们将使用一系列PHP字符串函数来完成这个任务:

  1. strstr($haystack, $needle): 用于查找$needle在$haystack中首次出现的位置,并返回从该位置到字符串结尾的部分。这里,我们用它来定位keywords=子串,获取URL中包含关键词的部分。
  2. str_replace($search, $replace, $subject): 用于替换字符串中的特定子串。我们将用它来移除keywords=这个前缀,只留下关键词及其后面的内容。
  3. substr($string, $start, $length) 和 strpos($haystack, $needle): strpos用于查找$needle在$haystack中首次出现的位置。结合substr,我们可以截取从字符串开头到&符号之间的部分,从而精确地获取关键词。
  4. urldecode($string): URL中的特殊字符(如空格表示为%20)会被编码。urldecode函数用于将这些编码字符解码回其原始形式,使关键词更具可读性。

2.2 实现关键词提取

将上述逻辑应用于$all_rows数组的每个元素:

<?php
// ... (之前的HTML表单和PHP CSV解析代码) ...

if (isset($_POST['submit'])) {
    // ... (CSV文件上传和解析代码) ...

    if (!empty($all_rows)) {
        foreach ($all_rows as $key => $value) {
            // 1. 查找并截取从 'keywords=' 开始的字符串部分
            // 例如:'keywords=Computational%20Biologist&origin=host'
            $query_string_part = strstr($all_rows[$key]['query'], 'keywords=');

            if ($query_string_part !== false) { // 确保找到了 'keywords='
                // 2. 移除 'keywords=' 前缀
                // 例如:'Computational%20Biologist&origin=host'
                $keyword_segment = str_replace('keywords=', '', $query_string_part);

                // 3. 查找 '&' 符号的位置,并截取其之前的部分
                // 例如:'Computational%20Biologist'
                $amp_pos = strpos($keyword_segment, "&");
                if ($amp_pos !== false) {
                    $extracted_keyword = substr($keyword_segment, 0, $amp_pos);
                } else {
                    // 如果没有找到 '&',说明 'keywords=' 是最后一个参数
                    $extracted_keyword = $keyword_segment;
                }

                // 4. 对提取出的关键词进行URL解码
                $all_rows[$key]['query'] = urldecode($extracted_keyword);
            } else {
                // 如果没有找到 'keywords=',可以将 'query' 设置为默认值或空字符串
                $all_rows[$key]['query'] = ''; // 或者保留原值,取决于业务需求
            }
        }

        echo "<h2>处理后的数据:</h2>";
        echo "<pre>";
        print_r($all_rows);
        echo "</pre>";
    } else {
        echo "数组为空,没有数据可处理。";
    }
}
?>

3. 完整代码示例

将HTML表单、CSV解析和关键词提取逻辑组合在一起,形成一个完整的PHP脚本:

<!DOCTYPE html>
<html lang="zh-CN">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>PHP CSV文件处理与URL关键词提取</title>
    <style>
        body { font-family: Arial, sans-serif; margin: 20px; }
        pre { background-color: #f4f4f4; padding: 15px; border: 1px solid #ddd; overflow-x: auto; }
        h2 { color: #333; }
        form { margin-bottom: 20px; padding: 15px; border: 1px solid #eee; background-color: #f9f9f9; }
        label { font-weight: bold; margin-bottom: 5px; display: block; }
        input[type="file"] { margin-bottom: 10px; }
        input[type="submit"] { padding: 8px 15px; background-color: #007bff; color: white; border: none; cursor: pointer; border-radius: 4px; }
        input[type="submit"]:hover { background-color: #0056b3; }
        .error { color: red; font-weight: bold; }
        .warning { color: orange; }
    </style>
</head>
<body>

    <form enctype='multipart/form-data' action='' method='post'>
        <label>上传 CSV 文件</label><br>
        <input size='50' type='file' name='filename'><br>
        <input type='submit' name='submit' value='上传文件'>
    </form>

    <?php

    if (isset($_POST['submit'])) {
        // 检查文件是否成功上传
        if (isset($_FILES['filename']) && $_FILES['filename']['error'] == UPLOAD_ERR_OK) {
            $file = fopen($_FILES['filename']['tmp_name'], "r");
            if ($file === false) {
                echo "<p class='error'>错误:无法打开上传的文件。</p>";
                exit;
            }

            $all_rows = array();
            // 读取CSV文件的第一行作为表头
            $header = fgetcsv($file);

            // 逐行读取CSV数据
            while (($row = fgetcsv($file)) !== false) {
                // 确保行数据与表头长度匹配
                if ($header && count($header) == count($row)) {
                    $all_rows[] = array_combine($header, $row);
                } else {
                    echo "<p class='warning'>警告:CSV行数据与表头不匹配或表头缺失,已跳过一行。</p>";
                }
            }
            fclose($file); // 关闭文件句柄

            echo "<h2>原始解析数据:</h2>";
            echo "<pre>";
            print_r($all_rows);
            echo "</pre>";

            // --- 批量提取URL中的关键词 ---
            if (!empty($all_rows)) {
                foreach ($all_rows as $key => $value) {
                    $original_query = $all_rows[$key]['query'];

                    // 1. 查找从 'keywords=' 开始的字符串部分
                    $query_string_part = strstr($original_query, 'keywords=');

                    if ($query_string_part !== false) {
                        // 2. 移除 'keywords=' 前缀
                        $keyword_segment = str_replace('keywords=', '', $query_string_part);

                        // 3. 查找 '&' 符号的位置,并截取其之前的部分
                        $amp_pos = strpos($keyword_segment, "&");
                        if ($amp_pos !== false) {
                            $extracted_keyword = substr($keyword_segment, 0, $amp_pos);
                        } else {
                            // 如果没有找到 '&',说明 'keywords=' 是最后一个参数
                            $extracted_keyword = $keyword_segment;
                        }

                        // 4. 对提取出的关键词进行URL解码
                        $all_rows[$key]['query'] = urldecode($extracted_keyword);
                    } else {
                        // 如果没有找到 'keywords=',则将 'query' 设置为空字符串或根据需求保留原值
                        $all_rows[$key]['query'] = ''; // 或 $all_rows[$key]['query'] = $original_query;
                    }
                }

                echo "<h2>处理后的数据:</h2>";
                echo "<pre>";
                print_r($all_rows);
                echo "</pre>";
            } else {
                echo "<p>数组为空,没有数据可处理。</p>";
            }

        } else {
            echo "<p class='error'>错误:文件上传失败或未选择文件。</p>";
            // 根据$_FILES['filename']['error']的值提供更详细的错误信息
            if (isset($_FILES['filename'])) {
                switch ($_FILES['filename']['error']) {
                    case UPLOAD_ERR_INI_SIZE: echo "<p class='error'>文件过大 (超过php.ini限制)。</p>"; break;
                    case UPLOAD_ERR_FORM_SIZE: echo "<p class='error'>文件过大 (超过HTML表单限制)。</p>"; break;
                    case UPLOAD_ERR_PARTIAL: echo "<p class='error'>文件部分上传。</p>"; break;
                    case UPLOAD_ERR_NO_FILE: echo "<p class='error'>未选择文件。</p>"; break;
                    case UPLOAD_ERR_NO_TMP_DIR: echo "<p class='error'>缺少临时文件夹。</p>"; break;
                    case UPLOAD_ERR_CANT_WRITE: echo "<p class='error'>写入磁盘失败。</p>"; break;
                    case UPLOAD_ERR_EXTENSION: echo "<p class='error'>PHP扩展阻止了文件上传。</p>"; break;
                    default: echo "<p class='error'>未知上传错误。</p>"; break;
                }
            }
        }
    }
    ?>

</body>
</html>

4. 注意事项与总结

  • 错误处理: 在实际应用中,文件上传和CSV解析阶段需要更健壮的错误处理,例如检查$_FILES数组是否存在、文件上传错误码、fopen是否成功等。本教程已在代码中加入了基本的错误检查。
  • CSV格式兼容性: fgetcsv函数默认以逗号作为分隔符,并支持处理包含引号的字段。如果您的CSV文件使用其他分隔符(如分号或制表符),您可以通过fgetcsv($file, 0, ';')来指定。
  • URL解析的通用性: 本教程中使用的字符串函数组合适用于特定的URL模式(keywords=...&)。对于更复杂的URL解析需求,PHP提供了parse_url()和parse_str()等更强大的内置函数。例如,您可以使用它们来解析整个查询字符串:
    $url_components = parse_url($original_query);
    if (isset($url_components['query'])) {
        parse_str($url_components['query'], $params);
        if (isset($params['keywords'])) {
            $all_rows[$key]['query'] = $params['keywords'];
        } else {
            $all_rows[$key]['query'] = '';
        }
    }

    这种方法通常更健壮,不易受URL结构变化的影响。然而,对于本教程中这种明确且固定的模式,直接的字符串操作也高效且易于理解。

  • 性能考量: 对于非常大的CSV文件,一次性将所有数据加载到内存中可能会消耗大量资源。在这种情况下,可以考虑逐行处理数据,或者使用生成器(Generator)来优化内存使用。

通过本教程,您学会了如何使用PHP处理CSV文件上传、解析数据,并利用字符串函数从复杂URL中批量提取和格式化特定信息。掌握这些技巧,将有助于您在数据处理和清洗任务中更加高效。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

1051

2023.08.02

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

761

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

221

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1569

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

651

2023.11.24

java读取文件转成字符串的方法
java读取文件转成字符串的方法

Java8引入了新的文件I/O API,使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java,可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中,你需要将文件路径替换为你的实际文件路径,并且可能需要处理可能的IOException异常。想了解更多java的相关内容,可以阅读本专题下面的文章。

1228

2024.03.22

php中定义字符串的方式
php中定义字符串的方式

php中定义字符串的方式:单引号;双引号;heredoc语法等等。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

1205

2024.04.29

go语言字符串相关教程
go语言字符串相关教程

本专题整合了go语言字符串相关教程,阅读专题下面的文章了解更多详细内容。

193

2025.07.29

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

26

2026.03.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PHP课程
PHP课程

共137课时 | 13.5万人学习

JavaScript ES5基础线上课程教学
JavaScript ES5基础线上课程教学

共6课时 | 11.3万人学习

PHP新手语法线上课程教学
PHP新手语法线上课程教学

共13课时 | 1.0万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号