0

0

dedecms采集规则怎么编写

尚

发布时间:2019-07-19 11:41:22

|

4154人浏览过

|

来源于php中文网

原创

dedecms采集规则怎么编写

织梦系统作为一个比较常用的文章系统,相对来说操作比较容易。在众多功能中,采集系统可能对于部分新手来说可能是比较头疼,比如采集区域设置不对、采集规则具体编辑不正确、采集后空白等问题。今天我们就从比较容易遇到的几个问题来详细讲解下。

首先我们先登录后台,分别点击采集--采集节点管理,进入采集管理设置界面

1.jpg

这里有两个可以选择,一个是修改原先的节点(主要是之前设置错误导致采集不了或者其他设置),一个是直接新增节点,大部分以新增节点为主,点击,然后下一步,选择“普通文章”确认。

2.jpg

然后填写节点名称(建议是和栏目相关的名称,避免导入的时候出错),这个按实际填就可以了。然后第一个重点:目标页面编码   。这个是一定要填写目标网页的编码,非自己网页的。查看方法:打开目标网站随便一个页面,空白地方右键-查看源代码(编码一般在前几行)

3.jpg

然后是填写列表规则,一种是批量生成网址,一般适用于规律比较强的或者需要采集是从上到下的。比如我们是以这个栏目目标的:

第一页列表:http://youqubu.cn/tansuo/list_5_1.html 

第二页列表:http://youqubu.cn/tansuo/list_5_2.html。

 这个列表规则最重要的是找相同和不同点,相同点填上去,不同点用匹配符号补充,就是变量。其实这个一对比我们可以知道,http://youqubu.cn/tansuo/list_5_ .html这里都是一样的,所以变量就是1.2.3.4.。。所以匹配的网址是:

http://youqubu.cn/tansuo/list_5_(*).html。

4.jpg

另一种是列表规则是手工指定列表网址,这个就比较通俗了。就是把你所有需要采集的列表页填写上去。(比较适合只采集某几页或者变量比较多的页面)

注意:很多网站的栏目首页是以http://xxx.xx/xxx/这样的形式展示的,可以对比以上我们发现,少了后面的变量项。所以找到有变量项的方法是:点击这个列表的下一页,如果还弄不清楚就再点击下一页,对比列表的第二和第三页,我们可以同样发现步骤四的变量项。

5.jpg

这一步是获取该列表下文章的全部地址,我们要从列表页中获取全部的文章页地址。我们还是以:http://youqubu.cn/tansuo/list_5_1.html列表为例。复制该列表下第一篇文章的标题,然后列表页空白处右键--查看源代码,按ctrl+F查找,粘贴刚刚复制的标题,定位到该文字源代码中的位置。其实这个是有一定规律的。然后我们查找源代码中哪部分代码是唯一的并且能够包含列表所有文章地址的(注意:开始代码查找应该从列表第一篇文章标题开始往上找,结束代码查找应该从列表第一篇文章标题开始往下找)。通过这个源代码可知。开始代码:

GitHub Copilot
GitHub Copilot

GitHub AI编程工具,实时编程建议

下载
    和结束代码:
     能够包含所有的文章列表,并且代码是唯一的

    6.jpg

    下一步的缩略图我们可以选择不采集,因为织梦本身是会把第一张图片默认为缩略图的,这个看实际情况。下面是对网址的筛选:包含的意思是:这个步骤六选择的代码区间的文章网址只有包含了这部分才会被采集(这里有两种情况:1。譬如上面演示的地址,它是以超链接的形式,不是完整的网址,所以这种情况千万不要填写包含。2.就是列表涉及到多个链接的,比如标签这样的,最好填写包含,填写你想要的网址有的,不想要的网址没有的部分)。然后下一步。这边会列出因为上面填写的规则所采集到的列表页中文章的网址。如果是空白:我们可以先删除必须包含和不能包含,点击下一步测试,如果能采集到连接但是很乱,那就是你这步包含相关填错了;如果这样操作还是没有采集到东西,那就是“包含文章网址区域”这步填写错了。

    7.jpg

    8.jpg

    分页规则也主要分两种:一种是直接填写默认代码:{path}{file}_{p}{ext}  然后选择分页列表规则(如下图)。  另一种是打开目标文章页,找到有上下几页的文章,右键查看源码,找到这部分代码,填写方式和文章页网址区域的方法一样,然后右边选择:全部列出的分页列表。(第二种方法要注意,因为涉及到多页,填写首尾代码的时候一定要多翻几张,然后查看源代码,把你认为共同的代码在多个页面查找下,因为可能出现你选择的代码在首页是可以找到的,在2.3四页后面就没有了,那就说明这个不是公用代码,你填上去也会导致采集不到分页的)

    9.jpg

    分页设置好后,我们主要设置标题规则和内容规则。时间规则和作者、来源规则这里不细说,这个不是所有人都需要的,这步谈到的规则都可以获取区间的方式得到内容或者填入固定的词语。首先是标题规则:我们以:http://youqubu.cn/tansuo/362.html。这个文章页来做说明。我们先复制标题名字,然后在源代码中查找。示例中查找我们可以发现这里有五个相同的部分,而且冲对比中发现,这个其实是有两种写法的。1.完全包含这个文字的代码区间,不带其他文字:

    世界神秘十大历史遗迹
    。这个很容易就可以写出规则:
    [内容]
    。2.另一种是代码中包含了该文字,但是还有其他类似的文字混淆。如:世界神秘十大历史遗迹_有趣猎奇网-知天下奇事 观天下奇景 解未解之谜 -www.youqubu.cn   从这里很明显就可以看出有一部分是唯一的,一部分是我们想要的,另一部分是通用的,所以简单的就能写出规则:[内容]_有趣猎奇网-知天下奇事 观天下奇景 解未解之谜 -www.youqubu.cn      。为什么这里不选择另外几个呢,主要是另外几个都是变量,这个是没办法获取的。

    10.jpg

    11.jpg

    12.jpg

    下面的内容也是一样的道理,这里要注意的是把广告代码或者不需要的东西屏蔽掉,这里就要用到“过滤规则”。一般情况下除了IMG这个,其他都可以过滤,如果你连图片也不要的话,全选即可。

    13.jpg

    14.jpg

    最后点击保存,开始采集网页,采集完成后,我们点击采集-采集节点管理。我们进入后在刚才采集好的节点前面打钩,然后点击“导出数据”,选择你需要导入的栏目,确认即可。(最后一步设置最好设置下重复标题)

    15.jpg

    更多DedeCMS相关技术文章,请访问DedeCMS教程栏目进行学习!

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python 自然语言处理(NLP)基础与实战
Python 自然语言处理(NLP)基础与实战

本专题系统讲解 Python 在自然语言处理(NLP)领域的基础方法与实战应用,涵盖文本预处理(分词、去停用词)、词性标注、命名实体识别、关键词提取、情感分析,以及常用 NLP 库(NLTK、spaCy)的核心用法。通过真实文本案例,帮助学习者掌握 使用 Python 进行文本分析与语言数据处理的完整流程,适用于内容分析、舆情监测与智能文本应用场景。

10

2026.01.27

拼多多赚钱的5种方法 拼多多赚钱的5种方法
拼多多赚钱的5种方法 拼多多赚钱的5种方法

在拼多多上赚钱主要可以通过无货源模式一件代发、精细化运营特色店铺、参与官方高流量活动、利用拼团机制社交裂变,以及成为多多进宝推广员这5种方法实现。核心策略在于通过低成本、高效率的供应链管理与营销,利用平台社交电商红利实现盈利。

109

2026.01.26

edge浏览器怎样设置主页 edge浏览器自定义设置教程
edge浏览器怎样设置主页 edge浏览器自定义设置教程

在Edge浏览器中设置主页,请依次点击右上角“...”图标 > 设置 > 开始、主页和新建标签页。在“Microsoft Edge 启动时”选择“打开以下页面”,点击“添加新页面”并输入网址。若要使用主页按钮,需在“外观”设置中开启“显示主页按钮”并设定网址。

16

2026.01.26

苹果官方查询网站 苹果手机正品激活查询入口
苹果官方查询网站 苹果手机正品激活查询入口

苹果官方查询网站主要通过 checkcoverage.apple.com/cn/zh/ 进行,可用于查询序列号(SN)对应的保修状态、激活日期及技术支持服务。此外,查找丢失设备请使用 iCloud.com/find,购买信息与物流可访问 Apple (中国大陆) 订单状态页面。

136

2026.01.26

npd人格什么意思 npd人格有什么特征
npd人格什么意思 npd人格有什么特征

NPD(Narcissistic Personality Disorder)即自恋型人格障碍,是一种心理健康问题,特点是极度夸大自我重要性、需要过度赞美与关注,同时极度缺乏共情能力,背后常掩藏着低自尊和不安全感,影响人际关系、工作和生活,通常在青少年时期开始显现,需由专业人士诊断。

7

2026.01.26

windows安全中心怎么关闭 windows安全中心怎么执行操作
windows安全中心怎么关闭 windows安全中心怎么执行操作

关闭Windows安全中心(Windows Defender)可通过系统设置暂时关闭,或使用组策略/注册表永久关闭。最简单的方法是:进入设置 > 隐私和安全性 > Windows安全中心 > 病毒和威胁防护 > 管理设置,将实时保护等选项关闭。

6

2026.01.26

2026年春运抢票攻略大全 春运抢票攻略教你三招手【技巧】
2026年春运抢票攻略大全 春运抢票攻略教你三招手【技巧】

铁路12306提供起售时间查询、起售提醒、购票预填、候补购票及误购限时免费退票五项服务,并强调官方渠道唯一性与信息安全。

122

2026.01.26

个人所得税税率表2026 个人所得税率最新税率表
个人所得税税率表2026 个人所得税率最新税率表

以工资薪金所得为例,应纳税额 = 应纳税所得额 × 税率 - 速算扣除数。应纳税所得额 = 月度收入 - 5000 元 - 专项扣除 - 专项附加扣除 - 依法确定的其他扣除。假设某员工月工资 10000 元,专项扣除 1000 元,专项附加扣除 2000 元,当月应纳税所得额为 10000 - 5000 - 1000 - 2000 = 2000 元,对应税率为 3%,速算扣除数为 0,则当月应纳税额为 2000×3% = 60 元。

35

2026.01.26

oppo云服务官网登录入口 oppo云服务登录手机版
oppo云服务官网登录入口 oppo云服务登录手机版

oppo云服务https://cloud.oppo.com/可以在云端安全存储您的照片、视频、联系人、便签等重要数据。当您的手机数据意外丢失或者需要更换手机时,可以随时将这些存储在云端的数据快速恢复到手机中。

121

2026.01.26

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PHP爬虫采集课程
PHP爬虫采集课程

共11课时 | 2.2万人学习

后盾网织梦DedeCMS视频教程
后盾网织梦DedeCMS视频教程

共9课时 | 2.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号