thinkphp自动采集怎么实现

爱喝马黛茶的安东尼

发布时间：2019-08-22 09:46:16

4301人浏览过

来源于php中文网

原创

thinkphp实现自动采集功能的三种方法：

方法一：QueryList

个人感觉比较好用，采集详情比较不错的选择，但是采集复杂一点的列表，不好用。具体使用：

立即学习“PHP免费学习笔记（深入）”；

控制器示例：

public function index(){
    // 使用采集类
    // 使用手册 ：http://www.php.cn/php/php-QueryList3-ThinkPHP.html
    import('Org.QL.QueryList');
    $url = "http://www.zyctd.com/gqqg/";
    $reg = array();
    $reg['title'] = array('.sulist_title','text');
    $reg['shuliang'] = array('.su_li1','html');
    $obj = new \QueryList($url,$reg);
    $data = $obj->jsonArr;
    // foreach($data as $v){
    //     echo "
".$v['title'].'___'.$v['shuliang']."
";
    // }
    p($data);
}

相关推荐：《ThinkPHP教程》

方法二：simple_html_dom

这个方法比较适合采集一点结构简单的页面，HTML标签的类名比较明确的页面，还不错。具体使用：

奥硕企业网站管理系统3.0.2

临沂奥硕软件有限公司拥有国内一流的企业网站管理系统，奥硕企业网站管理系统真正会打字就会建站的管理系统，其强大的扩展性可以满足企业网站实现各种功能（唯一集成3O多套模版的企业建站系统）奥硕企业网站管理系统具有一下特色功能1、双语双模（中英文采用单独模板设计，可制作中英文不同样式的网站）2、在线编辑JS动态菜单支持下拉效果，同时生成中文，英文，静态3个JS菜单3、在线制作并调用FLASH展示动画4、自

下载

控制器示例：

public function index(){
    // 参考文档：http://microphp.us/plugins/public/microphp_res/simple_html_dom/manual.htm#section_quickstart
    // 下载地址：https://github.com/samacs/simple_html_dom/edit/master/simple_html_dom.php
    // 使用方法：http://www.thinkphp.cn/topic/21635.html
    import("Org.Util.simple_html_dom", '', '.php');
    $html = file_get_html('http://www.zyctd.com/gqqg/');
    $ret = $html->find('.supply_list_box ul',0)->first_child();
    foreach($ret as $v){
        echo $v;
    };
}

方法三：获取页面HTMl，进行正则匹配采集

举例一个Demo：

采集一个页面：

http://www.zyctd.com/gqqg/

我要获取上面的四个信息：标题，数量，时间，跳转链接。

获取这些信息，通过上面两种方法都采集不到，最后才选用的正则来采集。具体方法：

public function index(){
    $url = "http://www.zyctd.com/gqqg/";
    // http://www.zyctd.com/gqqg-p1.html
    $supplyDB = M('supply');    
    $urlList = array();
    $array = array();
    for($x=1; $x<=1; $x++) {
        array_push($urlList,"http://www.zyctd.com/gqqg-p".$x.".html");
    };        
    foreach($urlList as $v){
        $curPageList = $this->getInfo($v);
        array_push($array,$curPageList);
    };
    foreach($array as $v){
        foreach($v as $vv){
            //echo $vv['title']."__".$vv['weight']."__".$vv['time']."
";
            $data = array();
            $data['title'] = $vv['title'];
            $data['weight'] = $vv['weight'];
            $data['add_time'] = $vv['add_time'];
            $data['url'] = $vv['url'];
            //$res = $supplyDB->add($data);
            //echo $res;
            echo "".$vv['title']."
            ".$vv['weight']."
            ".$vv['add_time']."
            ".$vv['url']."";
        }
    }
        // 获取信息
        //$curPageList = $this->getInfo($html);
        //p($curPageList);
}
private function getInfo($url){
    $html = $this->getHtml($url);
    $array = array();
    // 匹配所有的标题
    preg_match_all("#(.*?)

#",$html,$matches); $all_title = $matches[1]; preg_match_all("#发布时间：(.*?)#",$html,$matches); // 匹配所有的发布时间 $all_time = $matches[1]; // 匹配所有的求购数量 preg_match_all("#求购数量：(.*?)#",$html,$matches); $all_weight = $matches[1]; // 匹配跳转链接 preg_match_all("##",$html,$matches); $all_url = $matches[1]; // 组合 foreach($all_title as $k => $v){ $arr = array(); $arr['title'] = $v; $arr['weight'] = $all_weight[$k]; $arr['add_time'] = $all_time[$k]; $arr['url'] = $all_url[$k]; array_push($array,$arr); } return $array; } private function getHtml($url){ $html = file_get_contents($url); $html = preg_replace("#\n#","",$html); $html = preg_replace("#\r#","",$html); $html = preg_replace("#\\s#","",$html); return $html; }

thinkphp如何配置伪静态隐藏index.php

thinkphp数据库迁移和数据填充怎么用

thinkphp查询作用域(scope)如何简化查询

thinkphp session无法保存或跨控制器失效怎么办

thinkphp如何防止SQL注入和XSS攻击

PHP速学教程(入门到精通)

PHP怎么学习？PHP怎么入门？PHP在哪学？PHP怎么学才快？不用担心，这里为大家提供了PHP速学教程(入门到精通)，有需要的小伙伴保存下载就能学习啦！

下载

相关专题

html版权符号

html版权符号是“©”，可以在html源文件中直接输入或者从word中复制粘贴过来，php中文网还为大家带来html的相关下载资源、相关课程以及相关文章等内容，供大家免费下载使用。

609

2023.06.14

html在线编辑器

html在线编辑器是用于在线编辑的工具，编辑的内容是基于HTML的文档。它经常被应用于留言板留言、论坛发贴、Blog编写日志或等需要用户输入普通HTML的地方，是Web应用的常用模块之一。php中文网为大家带来了html在线编辑器的相关教程、以及相关文章等内容，供大家免费下载使用。

646

2023.06.21

html网页制作

html网页制作是指使用超文本标记语言来设计和创建网页的过程，html是一种标记语言，它使用标记来描述文档结构和语义，并定义了网页中的各种元素和内容的呈现方式。本专题为大家提供html网页制作的相关的文章、下载、课程内容，供大家免费下载体验。

466

2023.07.31

html空格

html空格是一种用于在网页中添加间隔和对齐文本的特殊字符，被用于在网页中插入额外的空间，以改变元素之间的排列和对齐方式。本专题为大家提供html空格的相关的文章、下载、课程内容，供大家免费下载体验。

245

2023.08.01

html是什么

HTML是一种标准标记语言，用于创建和呈现网页的结构和内容，是互联网发展的基石，为网页开发提供了丰富的功能和灵活性。本专题为大家提供html相关的各种文章、以及下载和课程。

2889

2023.08.11

html字体大小怎么设置

在网页设计中，字体大小的选择是至关重要的。合理的字体大小不仅可以提升网页的可读性，还能够影响用户对网页整体布局的感知。php中文网将介绍一些常用的方法和技巧，帮助您在HTML中设置合适的字体大小。

503

2023.08.11

html转txt

html转txt的方法有使用文本编辑器、使用在线转换工具和使用Python编程。本专题为大家提供html转txt相关的文章、下载、课程内容，供大家免费下载体验。

311

2023.08.31

html文本框代码怎么写

html文本框代码：1、单行文本框【<input type="text" style="height:..;width:..;" />】；2、多行文本框【textarea style=";height:;"></textare】。

423

2023.09.01

Golang gRPC 服务开发与Protobuf实战

本专题系统讲解 Golang 在 gRPC 服务开发中的完整实践，涵盖 Protobuf 定义与代码生成、gRPC 服务端与客户端实现、流式 RPC（Unary/Server/Client/Bidirectional）、错误处理、拦截器、中间件以及与 HTTP/REST 的对接方案。通过实际案例，帮助学习者掌握使用 Go 构建高性能、强类型、可扩展的 RPC 服务体系，适用于微服务与内部系统通信场景。

2026.01.15

热门下载

网站特效

网站源码

网站素材

前端模板