正则表达式 - 如何用 php 抓取微信文章正文？-PHP中文网问答

我是一个新手，想使用php抓取微信页面的正文和标题，标题直接用正则表达式|(.*?)<\/title>|i</code>就抓取到了，但是正文我想的是<code>|>(.*?)<\/|i</code>匹配标签间的内容，再去掉空格，但是还是会匹配到一堆标签，是怎么回事？或者说有其他更好的方法吗？求指教！</p> <p>http://mp.weixin.qq.com/s?__biz=MzA5NTQ2NjUzMA==&mid=207136729&...</p> <p>这是一般的微信文章内容链接</p> <p>下面是这链接的页面代码</p> <pre class='brush:php;toolbar:false;'><code><br><!DOCTYPE html><html> <head> <script type="text/javascript"> var sampling = Math.random() < 0.001; var page_begintime = (+new Date()); (sampling) && ((new Image()).src = "http://isdspeed.qq.com/cgi-bin/r.cgi?flag1=7839&flag2=7&flag3=8&15=1000&r=" + Math.random()); var biz = "MzA5NTQ2NjUzMA=="; var sn = "a82af7b7ba0bee9a7017b607dc7e5d4b" || ""; var mid = "207136729" || ""; var idx = "1" || "" ; //辟谣需求 var is_rumor = ""*1; var norumor = ""*1; if (!!is_rumor&&!norumor){ if (!document.referrer || document.referrer.indexOf("mp.weixin.qq.com/mp/rumor") == -1){ location.href = "http://mp.weixin.qq.com/mp/rumor?action=info&__biz=" + biz + "&mid=" + mid + "&idx=" + idx + "&sn=" + sn + "#wechat_redirect"; } } //原创需求，需要跳转到中间页 /* var copyrightInfo = { display_source : ""*1, nocopyrightsource : ""*1 }; if (!!copyrightInfo.display_source&&!copyrightInfo.nocopyrightsource){ if (!document.referrer || document.referrer.indexOf("mp.weixin.qq.com/mp/reprint") == -1){ location.href = "http://mp.weixin.qq.com/mp/reprint?action=info&__biz=" + biz + "&mid=" + mid + "&idx=" + idx + "&sn=" + sn + "#wechat_redirect"; } }*/ </script> <meta http-equiv="Content-Type" content="text/html; charset=utf-8"><link rel="dns-prefetch" href="//res.wx.qq.com"><link rel="dns-prefetch" href="//mmbiz.qpic.cn"><meta http-equiv="X-UA-Compatible" content="IE=edge"><meta name="viewport" content="width=device-width,initial-scale=1.0,maximum-scale=1.0,user-scalable=0" /><link rel="shortcut icon" type="image/x-icon" href="http://res.wx.qq.com/mmbizwap/zh_CN/htmledition/images/icon/common/favicon22c41b.ico"><meta name="apple-mobile-web-app-capable" content="yes"><meta name="apple-mobile-web-app-status-bar-style" content="black"><meta name="format-detection" content="telephone=no"><script type="text/javascript"> var uin = ""; var key = ""; var pass_ticket = ""; String.prototype.html= function(encode) { var replace =["'", "'", """, '"', " ", " ", ">", ">", "<", "<", "&", "&", "¥", "¥"]; //console.log(replace); if(encode){ replace.reverse(); } for (var i=0,str=this;i< replace.length;i+= 2){ str=str.replace(new RegExp(replace[i],'g'),replace[i+1]); } return str; }; pass_ticket = encodeURIComponent(pass_ticket.html(false).html(false).replace(/\s/g,"+")); </script> <title>Living Music校园歌唱大赛半决赛距离开赛还有？？？

`Living Music校园歌唱大赛半决赛距离开赛还有？？？`

                                                                            
            提交
                            
                    我的评论                
                
            
                                            加载中            
                                            
已评论
            
        
    
                    
         
                                    
                
                    
                        Living Music校园歌唱大赛半决赛距离开赛还有？？？                     
                                                                    2015-04-27                                                gzgsytw                        gzgsytw                        
                            
                                gzgsytw                                                                
                                微信号                                gzgsytw0                                
                                                                功能介绍                                校园内有关团委的一切动态一切资讯都可在这里接收查找。                                
                                                            
                                                                                                                                                
                    
                                                                                                                                                                
Living Music校园歌唱大赛半决赛距离开赛还有？？？

精彩绝伦的复赛没有来观看？没关系！30进15的淘汰赛已经结束，15进5的半决赛就在今晚！


今晚六点半Living Music大赛花都校区的十五强选手将在实验楼105举行的半决赛当中角逐出进入最终决赛的五名选手，届时将和三水校区进入决赛的五名选手共同组成广工商十强歌手来竞争广工商最强音的宝座！！

广工商最强音的诞生需要你的见证，come on 小伙伴，即使不是最专业的点评家，你也可以是最专业的聆听者！

Living Music大赛花都校区15进5的半决赛
 4月27日18:30（即今晚）
 实验楼105


                                                                                                                                                                                            
阅读 
                                                                                                    举报                    
                
                                                        
                                        
                                                        
                           
                            
                    
                                                
微信扫一扫
关注该公众号

php$url = "http://mp.weixin.qq.com/s?__biz=MzA5NTQ2NjUzMA==&mid=207136729&idx=1&sn=a82af7b7ba0bee9a7017b607dc7e5d4b&scene=5#rd"; $contents = file_get_contents($url); $contents = explode('js_article', $contents); $contents = $contents[1]; $contents = explode('<script>window.moon_map', $contents); $contents = $contents[0]; $contents = '<p id="js_article'.$contents;

<?php require dirname(__FILE__).'/simple_html_dom.php'; $html = file_get_html('http://php.net/'); $articles = array(); foreach($html->find('article.newsentry') as $article) { $item['time'] = trim($article->find('time', 0)->plaintext); $item['title'] = trim($article->find('h2.newstitle', 0)->plaintext); $item['content'] = trim($article->find('p.newscontent', 0)->plaintext); $articles[] = $item; } print_r($articles);

全部回复(11)

PHPz2017-04-10 15:45:48 11楼

随便折腾～见笑

赞 +0

添加回复