0

0

php分割文本批量处理多篇_php循环分割多篇文本【步骤】

絕刀狂花

絕刀狂花

发布时间:2026-01-31 14:01:01

|

453人浏览过

|

来源于php中文网

原创

应优先使用 preg_split() 并配合 trim() 和 PREG_SPLIT_NO_EMPTY 标志来分割多篇文本,以准确处理空行、跨平台换行符及首尾空白;后续用 foreach 遍历处理每篇文章。

php分割文本批量处理多篇_php循环分割多篇文本【步骤】

explode()preg_split() 按分隔符切文本,但要注意空行和边界

PHP 里批量处理多篇文本,核心是先“切开”,再逐篇处理。最常用的是 explode(),比如按 "\n\n"(两个换行)切分多篇文章;但实际中常遇到开头空行、结尾多余换行、Windows 的 "\r\n" 导致切不准。这时候 preg_split() 更稳:preg_split('/\s*\n\s*\n\s*/', trim($text), -1, PREG_SPLIT_NO_EMPTY) —— 自动清理首尾空白、忽略换行前后的空格,并跳过空结果。

  • 别直接 explode("\n\n", $text),原始文本带 \r 时会残留 "\r" 在每段开头
  • 务必 trim() 原始文本,否则首尾空段会进数组
  • PREG_SPLIT_NO_EMPTY 标志,避免因连续多个空行产生空字符串

循环处理每篇文本时,用 foreach 而非 for + count()

切完得到一个数组,比如 $articles = [...],接下来要对每篇做清洗、提取标题、存数据库等操作。用 foreach ($articles as $index => $article) 最安全:不依赖索引连续性,也不用反复调用 count(),PHP 内部迭代效率更高。若需编号(如日志标记第几篇),$index 就是天然序号,从 0 开始——注意是否要加 1 显示。

  • 避免写 for ($i = 0; $i :每次循环都重新算数组长度,小数据不明显,批量大时有性能损耗
  • 如果某篇内容异常(比如超长、含非法字符),在循环体内加 try/catchif (empty($article)) continue; 防止中断整个流程
  • 不要在循环里反复 file_put_contents() 写同一文件,应拼好再写一次,或用 fopen(..., 'a')

批量处理大文本时,内存不够就别一次性 file_get_contents()

单个文本几 MB 还好,但如果是几十 MB 的合集文件,file_get_contents() 会把全部内容载入内存,容易触发 Fatal error: Allowed memory size exhausted。这时得改用流式读取:用 fopen() + fgets()stream_get_line() 逐行攒段,检测到空行就提交一篇,清空缓存变量。

论论App
论论App

AI文献搜索、学术讨论平台,涵盖了各类学术期刊、学位、会议论文,助力科研。

下载
  • $handle = fopen($path, 'r'); 打开后,while (($line = fgets($handle)) !== false) 一行行读
  • 维护一个 $current_article 字符串,遇到空行(trim($line) === '')就处理并重置它
  • 循环末尾别忘 fclose($handle),否则文件句柄泄漏,后续可能报 Too many open files

保存结果时,注意 json_encode() 中文乱码和嵌套深度

处理完每篇,常要转成 JSON 存文件或传接口。默认 json_encode() 对中文输出 Unicode 编码(如 "\u4f60\u597d"),看着像乱码;加 JSON_UNESCAPED_UNICODE 即可。另外,如果某篇文章结构太深(比如嵌套数组超 512 层),会报 Maximum stack depth exceeded,此时要检查是否意外递归引用了自身变量。

立即学习PHP免费学习笔记(深入)”;

  • 正确写法:json_encode($data, JSON_UNESCAPED_UNICODE | JSON_INVALID_UTF8_SUBSTITUTE)
  • JSON_INVALID_UTF8_SUBSTITUTE 可防止含损坏 UTF-8 字节的文本导致整个编码失败
  • 若需格式化输出(便于调试),加 JSON_PRETTY_PRINT,但线上环境慎用,体积增大且无必要
实际批量处理时,最易被忽略的是输入文本的编码一致性(比如混着 GBK 和 UTF-8)和空行判定逻辑——看似简单,一不留神就漏掉第一篇或吞掉最后一篇。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
json数据格式
json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章,帮助大家解决问题。

420

2023.08.07

json是什么
json是什么

JSON是一种轻量级的数据交换格式,具有简洁、易读、跨平台和语言的特点,JSON数据是通过键值对的方式进行组织,其中键是字符串,值可以是字符串、数值、布尔值、数组、对象或者null,在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容,供大家免费下载体验。

536

2023.08.23

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

313

2023.10.13

go语言处理json数据方法
go语言处理json数据方法

本专题整合了go语言中处理json数据方法,阅读专题下面的文章了解更多详细内容。

77

2025.09.10

if什么意思
if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词,用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章,供大家免费阅读。

783

2023.08.22

counta和count的区别
counta和count的区别

Count函数用于计算指定范围内数字的个数,而CountA函数用于计算指定范围内非空单元格的个数。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

198

2023.11.20

while的用法
while的用法

while的用法是“while 条件: 代码块”,条件是一个表达式,当条件为真时,执行代码块,然后再次判断条件是否为真,如果为真则继续执行代码块,直到条件为假为止。本专题为大家提供while相关的文章、下载、课程内容,供大家免费下载体验。

97

2023.09.25

php中foreach用法
php中foreach用法

本专题整合了php中foreach用法的相关介绍,阅读专题下面的文章了解更多详细教程。

76

2025.12.04

2026赚钱平台入口大全
2026赚钱平台入口大全

2026年最新赚钱平台入口汇总,涵盖任务众包、内容创作、电商运营、技能变现等多类正规渠道,助你轻松开启副业增收之路。阅读专题下面的文章了解更多详细内容。

54

2026.01.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PHP课程
PHP课程

共137课时 | 10.5万人学习

JavaScript ES5基础线上课程教学
JavaScript ES5基础线上课程教学

共6课时 | 11.2万人学习

PHP新手语法线上课程教学
PHP新手语法线上课程教学

共13课时 | 0.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号