phpcms开发教程

浏览68445
更新时间2022-04-12


模块常用操作

操作名 说明
采集流程详述
其它功能说明

说明:

 文章的采集功能是通过程序来远程获取目标网页内容,经过本地规则解析处理后存储到服务器的数据库内。 

 文章采集系统颠覆传统采集模式和流程,采集规则与采集界面分离,规则设置更简单,只需有基础技术知识的人员设置好相关规则。编辑人员无需了解太过细节的技 术规则,只需选中自己想要采集的文章列表,就可以像发布文章一样,轻松地完成数据采集操作。 
 
一、采集流程
 
简单的讲有三个步骤:
1、添加采集点,填写采集规则。
2、采集网址,采集内容
3、发布内容到指定栏目
 
以采集新浪新闻(http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml)为例,作一下详细流程介绍。
 
实例说明:
 
目标:采集新浪新闻到V9系统 国际新闻 栏目中。 
目标网址:http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml
 
 
1、添加采集点
 
1.1 网址规则配置
 
70.jpg
 
 
                       添加采集点 - 网址规则配置图1
 
 
查看要采集的目标网址源代码,查找到要采集网址的开始点和结束点(这二个点要有在整个源代码里具有唯一性)。更进一步缩小采集网址搜索范围。
 
71.jpg
 
                      添加采集点 - 网址规则配置图2
 
测试你的网址采集规则是否正确,如下图所示
 
72.jpg
 
 
1.2 内容规则配置 
 
内容规则这里看起来比较复杂,其实也很简单,为了便于说明,我们只采集标题、内容两个字段。采集内容网址:
http://news.sina.com.cn/w/2010-12-01/135121565455.shtml 的内容采集规则,请你打开这个网址,然后页面空白处右键->查看源文件搜索标题和内容的开始边界。
 
标题采集配置:
从网页<title></title>里取标题,并去除不需要的字符。如下图
 
73.jpg
 
内容采集配置:
 
新浪新闻最终页,新闻内容都包含在 <!-- 正文内容 begin --> <!-- 正文内容 end --> 之间,而且这二个结点,在整个页面源代码中具有唯一性。所以可以以此为规则取内容。并对内容进行过滤。如下图  
 
74.jpg
 
1.3 自定义规则
 
1.4 高级配置
 
可设置是否把图片下载到服务器上,是否打水印等配置。
 
75.jpg
 
2、采集网址,采集内容
 
采集规则配好以后,即可进行网址的采集,然后进行内容的采集。
 
76.jpg  
 
 
3、发布内容到指定栏目
 
  77.jpg  
  78.jpg
 
选择导入的栏目
 
79.jpg
 
设置 采集内容与数据库的字段对应关系.提交进行数据入库,在此期间请耐心等待, 完成后会自动转向。至此一个简单的采集流程就操作完成。
 
其它更多功能,期待你发掘。
 
 
 
 
 
 
 


相关视频

更多

免费

php8,我来也
初级php8,我来也

321921次学习

收藏

免费

Thinkphp6.0正式版视频教程
中级Thinkphp6.0正式版视频教程

382524次学习

收藏

免费

细说PHP第一季
中级细说PHP第一季

283050次学习

收藏

免费

简单聊聊PHP创业那点事
初级简单聊聊PHP创业那点事

13419次学习

收藏

精品课程

更多
前端入门_HTML5
前端入门_HTML5

共29课时 | 62.5万人学习

CSS视频教程-玉女心经版
CSS视频教程-玉女心经版

共25课时 | 39.8万人学习

JavaScript极速入门_玉女心经系列
JavaScript极速入门_玉女心经系列

共43课时 | 73.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号