0

0

如何用PHP获取网站收录的内容

PHPz

PHPz

发布时间:2016-05-25 17:12:57

|

1675人浏览过

|

来源于php中文网

原创

这篇文章主要讲了如何用php获取网站收录的内容,有一定的参考价值,感兴趣的朋友可以看看。

url = preg_replace('/http\:\/\//si', '', $url);
}
private function getContent($url)
{
$snoopy=new Snoopy();
$snoopy->agent='Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) AppleWebKit/534.7 (KHTML, like Gecko) Chrome/7.0.517.41 Safari/534.7';
$snoopy->fetch($url);
if($snoopy->status==200)
{
$charset='utf-8';
$snoopy->results=strtolower($snoopy->results);
//首先从html获取编码
preg_match("/results,$temp) ? strtolower($temp[1]):"";
if(isset($temp[1])!="")
{
$charset=$temp[1]; 
}
else if(!empty($snoopy->headers))
{
//从header中获取编码
$hstr=strtolower(implode("|||",$snoopy->headers));
preg_match("/charset=[^\w]?([-\w]+)/is",$hstr,$lang) ? strtolower($lang[1]):"";
if($lang[1]!="")
{
$charset=$lang[1];
}
else
{
$encode_arr=array("UTF-8","GB2312","GBK","BIG5","ASCII","EUC-JP","Shift_JIS","CP936","ISO-8859-1","JIS","eucjp-win","sjis-win");
$encoded=mb_detect_encoding($snoopy->results,$encode_arr);
if($encoded)
{
$charset=strtolower($encoded);
}
}
}
else 
{
$encode_arr=array("UTF-8","GB2312","GBK","BIG5","ASCII","EUC-JP","Shift_JIS","CP936","ISO-8859-1","JIS","eucjp-win","sjis-win");
$encoded=mb_detect_encoding($snoopy->results,$encode_arr);
if($encoded)
{
$charset=strtolower($encoded);
}
}
if($charset!="utf-8" && $charset!==false)
{
$snoopy->results=mb_convert_encoding($snoopy->results,"UTF-8",$charset);
}
return $snoopy->results;
}
else 
{
return '';
}
}
//获取alexa排名
public function getAlexaRank()
{
$url = $this->url;
$xml = @simplexml_load_string(file_get_contents('http://data.alexa.com/data?cli=10&url=' . $url));
return $xml ? $xml->SD->POPULARITY['TEXT'] : '';
}
//如果被dmoz收录就返回dmoz的目录名称
public function getDmoz()
{
$url = preg_replace('/^www\./', '', $this->url);
$url = "http://search.dmoz.org/cgi-bin/search?search=$url";
$data = $this->getContent($url);
if(preg_match('
No Open Directory Project results found
', $data)) { $value = false; } else { $value = true; } return $value; } //如果被yahoo收录就返回yahoo的目录名称 public function getYahooDirectory() { $url = preg_replace('/^www\./', '', $this->url); $url = "http://search.yahoo.com/search/dir?p=$url"; $data = $this->getContent($url); if(preg_match('No Directory Search results were found\.', $data)) { $value = false; } else { $value = true; } return $value; } //获取Baidu收录 public function getIndexedBaidu() { $url = $this->url; $url = 'http://www.baidu.com/s?wd=site%3A'.urlencode($url); $data = $this->getContent($url); preg_match('/找到相关结果数([0-9\,]+)个/si', $data, $p); $value = isset($p[1]) ? $this->toInt($p[1]) : 0; return $value; } //获取google收录 public function getIndexedGoogle() { $url = $this->url; $url = 'http://www.google.com/search?hl=en&safe=off&btnG=Search&q=site%3A'.urlencode($url); $data = $this->getContent($url); preg_match('/([0-9\,]+) result/si', $data, $p); $value = isset($p[1]) ? $this->toInt($p[1]) : 0; return $value; } /** *功能:获取Google反链 *时间: 2011-10-13 下午11:28:45 */ public function getBacklinksGoogle() { $url = $this->url; $url = 'http://www.google.com/search?q=link%3A'.urlencode($url); $data = $this->getContent($url); preg_match('/of about \([0-9\,]+)\<\/b\>/si', $data, $p); $value = isset($p[1]) ? $this->toInt($p[1]) : 0; return $value; } /** *功能:获取Yahoo反链 *时间: 2011-10-13 下午11:28:45 */ public function getBacklinksYahoo() { $url = $this->url; $url = 'http://siteexplorer.search.yahoo.com/search?p='.urlencode($url); $data = $this->getContent($url); preg_match('/Inlinks \(([0-9\,]+)\)/si', $data, $p); $value = isset($p[1]) ? $this->toInt($p[1]) : 0; return $value; } //获取域名年龄 public function getAge() { $url = preg_replace('/^www\./', '', $this->url); $url = 'http://www.who.is/whois/'.urlencode($url); $data = $this->getContent($url); preg_match('#(?:Creation Date|Created On):\s*([a-z0-9/-]+)#si', $data, $p); if(!isset($p[1])) { return null; } $value = time() - strtotime($p[1]); return $value; } //获取yahoo的收录数量 public function getIndexedYahoo() { $url = $this->url; $url = 'http://siteexplorer.search.yahoo.com/search?p='.urlencode($url); $data = $this->getContent($url); preg_match('/Pages \(([0-9,]{1,})\)/im', $data, $p); $value = isset($p[1]) ? $this->toInt($p[1]) : 0; return $value; } /** *功能:获取PR *时间: 2011-10-13 下午11:27:19 */ public function getPagerank() { $chwrite = $this->CheckHash($this->HashURL($this->url)); $url="http://toolbarqueries.google.com/tbr?client=navclient-auto&ch=".$chwrite."&features=Rank&q=info:".$this->url."&num=100&filter=0"; $data = $this->getContent($url); preg_match('#Rank_[0-9]:[0-9]:([0-9]+){1,}#si', $data, $p); $value = isset($p[1]) ? $p[1] : 0; return $value; } private function toInt($string) { return preg_replace('#[^0-9]#si', '', $string); } //--> for google Piwik_SEO_Ranks private function StrToNum($Str, $Check, $Magic) { $Int32Unit = 4294967296; // 2^32 $length = strlen($Str); for($i = 0; $i < $length; $i++) { $Check *= $Magic; // If the float is beyond the boundaries of integer (usually +/- 2.15e+9 = 2^31), // the result of converting to integer is undefined // refer to http://www.php.net/manual/en/language.types.integer.php if($Check >= $Int32Unit) { $Check = ($Check - $Int32Unit * (int) ($Check / $Int32Unit)); //if the check less than -2^31 $Check = ($Check < -2147483648) ? ($Check + $Int32Unit) : $Check; } $Check += ord($Str{$i}); } return $Check; } /* * Genearate a hash for a url */ private function HashURL($String) { $Check1 = $this->StrToNum($String, 0x1505, 0x21); $Check2 = $this->StrToNum($String, 0, 0x1003F); $Check1 >>= 2; $Check1 = (($Check1 >> 4) & 0x3FFFFC0 ) | ($Check1 & 0x3F); $Check1 = (($Check1 >> 4) & 0x3FFC00 ) | ($Check1 & 0x3FF); $Check1 = (($Check1 >> 4) & 0x3C000 ) | ($Check1 & 0x3FFF); $T1 = (((($Check1 & 0x3C0) << 4) | ($Check1 & 0x3C)) <<2 ) | ($Check2 & 0xF0F ); $T2 = (((($Check1 & 0xFFFFC000) << 4) | ($Check1 & 0x3C00)) << 0xA) | ($Check2 & 0xF0F0000 ); return ($T1 | $T2); } //--> for google Piwik_SEO_Ranks /* * genearate a checksum for the hash string */ private function CheckHash($Hashnum) { $CheckByte = 0; $Flag = 0; $HashStr = sprintf('%u', $Hashnum) ; $length = strlen($HashStr); for($i = $length - 1; $i >= 0; $i --) { $Re = $HashStr{$i}; if(1 === ($Flag % 2)) { $Re += $Re; $Re = (int)($Re / 10) + ($Re % 10); } $CheckByte += $Re; $Flag ++; } $CheckByte %= 10; if(0 !== $CheckByte) { $CheckByte = 10 - $CheckByte; if(1 === ($Flag % 2) ) { if(1 === ($CheckByte % 2)) { $CheckByte += 9; } $CheckByte >>= 1; } } return '7'.$CheckByte.$HashStr; } } ?>

【相关教程推荐】

1. php编程从入门到精通全套视频教程
2.  php从入门到精通
3. bootstrap教程

SeoShop
SeoShop

SeoShop网店系统全站纯静态html生成更符合搜索引擎优化,并修改了以前许多js代码,取消了连接地址的js代码更换为纯div+css格式,并且所有文件可自定义url和文件名,自定义内部连接,自定义外部连接,等多个符合SEO搜索引擎优化的设置,让您的网店更容易让搜索引擎收录. 简单易用 极速网店真正做到以人为本、以用户体验为中心,能使您快速搭建网上购物网站。后台管理操作简单,一目了然,没有夹杂多

下载
PHP速学教程(入门到精通)
PHP速学教程(入门到精通)

PHP怎么学习?PHP怎么入门?PHP在哪学?PHP怎么学才快?不用担心,这里为大家提供了PHP速学教程(入门到精通),有需要的小伙伴保存下载就能学习啦!

下载

相关标签:

php

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
全国统一发票查询平台入口合集
全国统一发票查询平台入口合集

本专题整合了全国统一发票查询入口地址合集,阅读专题下面的文章了解更多详细入口。

19

2026.02.03

短剧入口地址汇总
短剧入口地址汇总

本专题整合了短剧app推荐平台,阅读专题下面的文章了解更多详细入口。

27

2026.02.03

植物大战僵尸版本入口地址汇总
植物大战僵尸版本入口地址汇总

本专题整合了植物大战僵尸版本入口地址汇总,前往文章中寻找想要的答案。

15

2026.02.03

c语言中/相关合集
c语言中/相关合集

本专题整合了c语言中/的用法、含义解释。阅读专题下面的文章了解更多详细内容。

3

2026.02.03

漫蛙漫画网页版入口与正版在线阅读 漫蛙MANWA官网访问专题
漫蛙漫画网页版入口与正版在线阅读 漫蛙MANWA官网访问专题

本专题围绕漫蛙漫画(Manwa / Manwa2)官网网页版入口进行整理,涵盖漫蛙漫画官方主页访问方式、网页版在线阅读入口、台版正版漫画浏览说明及基础使用指引,帮助用户快速进入漫蛙漫画官网,稳定在线阅读正版漫画内容,避免误入非官方页面。

13

2026.02.03

Yandex官网入口与俄罗斯搜索引擎访问指南 Yandex中文登录与网页版入口
Yandex官网入口与俄罗斯搜索引擎访问指南 Yandex中文登录与网页版入口

本专题汇总了俄罗斯知名搜索引擎 Yandex 的官网入口、免登录访问地址、中文登录方法与网页版使用指南,帮助用户稳定访问 Yandex 官网,并提供一站式入口汇总。无论是登录入口还是在线搜索,用户都能快速获取最新稳定的访问链接与使用指南。

114

2026.02.03

Java 设计模式与重构实践
Java 设计模式与重构实践

本专题专注讲解 Java 中常用的设计模式,包括单例模式、工厂模式、观察者模式、策略模式等,并结合代码重构实践,帮助学习者掌握 如何运用设计模式优化代码结构,提高代码的可读性、可维护性和扩展性。通过具体示例,展示设计模式如何解决实际开发中的复杂问题。

3

2026.02.03

C# 并发与异步编程
C# 并发与异步编程

本专题系统讲解 C# 异步编程与并发控制,重点介绍 async 和 await 关键字、Task 类、线程池管理、并发数据结构、死锁与线程安全问题。通过多个实战项目,帮助学习者掌握 如何在 C# 中编写高效的异步代码,提升应用的并发性能与响应速度。

2

2026.02.03

Python 强化学习与深度Q网络(DQN)
Python 强化学习与深度Q网络(DQN)

本专题深入讲解 Python 在强化学习(Reinforcement Learning)中的应用,重点介绍 深度Q网络(DQN) 及其实现方法,涵盖 Q-learning 算法、深度学习与神经网络的结合、环境模拟与奖励机制设计、探索与利用的平衡等。通过构建一个简单的游戏AI,帮助学习者掌握 如何使用 Python 训练智能体在动态环境中作出决策。

3

2026.02.03

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PHP课程
PHP课程

共137课时 | 10.9万人学习

JavaScript ES5基础线上课程教学
JavaScript ES5基础线上课程教学

共6课时 | 11.2万人学习

PHP新手语法线上课程教学
PHP新手语法线上课程教学

共13课时 | 0.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号