Using Django with GAE Python 后台抓取多个网站的页面全文

php中文网

发布时间：2016-06-10 15:06:02

1292人浏览过

来源于php中文网

原创

一直想做个能帮我过滤出优质文章和博客的平台给它取了个名叫Moven。。把实现它的过程分成了三个阶段：
1. Downloader: 对于指定的url的下载并把获得的内容传递给Analyser－－这是最简单的开始
2. Analyser: 对于接受到的内容，用Regular Expression 或是 XPath 或是 BeautifulSoup/lxml 进行过滤和简化－－这部分也不是太难
3. Smart Crawler：去抓取优质文章的链接－－这部分是最难的：

Crawler的话可以在Scrapy Framework的基础上快速的搭建
但是判断一个链接下的文章是不是优质需要一个很复杂的算法

最近就先从downloader 和 analyser 开始：最近搭了一个l2z story 并且还有一个 z life 和 z life@sina 还有一个她的博客做为一个对downloader 和 analyser的练习我就写了这个东西来监听以上四个站点并且把它们的内容都同步到这个站上：

http://l2zstory.appspot.com

App 的特色
这个站上除了最上面的黑色导航条和最右边的About This Site 部分外，其他的内容都是从另外的站点上自动获得
原则上，可以添加任何博客或者网站地址到这个东西。。。当然因为这个是L2Z Story..所以只收录了四个站点在里面
特点是：只要站点的主人不停止更新，这个东西就会一直存在下去－－－这就是懒人的力量

值得一提的是， Content 菜单是在客户端用JavaScript 自动生成的－－这样就节约了服务器上的资源消耗

这里用的是html全页面抓取所以对那些feed没有全文输出的站点来说，这个app 可以去把它要隐藏的文字抓来
在加载的时候会花很多时间因为程序会自动到一个没有全文输出的页面上抓取所有的文章列表，作者信息，更新时间，以及文章全文。。所以打开的时候请耐心。。。下一步会加入数据存储部分，这样就会快了。。

技术准备

前端：

1. CSS 在信奉简单之上的原则上 twitter的bootstrap.css满足了我大多数的要求个人超喜欢它的 Grid System
2. Javascript上，当然选用了jQuery 自从我开始在我的第一个小项目上用了jQuery 后我就爱上了它那个动态的目录系统就是用jQuery快速生成的
为了配合bootstrap.css, bootstrap-dropdown.js 也用到了

服务器：

立即学习“Python免费学习笔记（深入）”；

这个app有两个版本：
一个跑在我的Apache上，但是因为我的网络是ADSL, 所以ip一直会变基本上只是我在我的所谓的局域网内自测用的。。这个版本是纯Django的
另一个跑在Google App Engine上地址是 http://l2zstory.appspot.com 在把Django 配置到GAE的时候我花了很多功夫才把框架搭起来

详情请见： Using Django with Google App Engine GAE: l2Z Story Setup-Step 1 http://blog.sina.com.cn/s/blog_6266e57b01011mjk.html

后台：

主要语言是Python--不解释，自从认识Python后就没有离开它

主要用到的module是

1. BeautifulSoup.py 用于html 的解析--不解释
2. feedparser.py 用于对feed xml的解析－－网上有很多人说GAE不支持feedparser..这里你们得到答案了。。可以。。这里我也是花了很久才弄明白到底是怎么回事。。总之简单讲就是：可以用！但是feedparser.py这个文件必须放到跟app.yaml同一个目录中不然会出现网上众人说的不可以import feedparser的情况

数据库：
Google Datastore: 在下一步中，这个程序会每隔30分钟醒来逐一查看各个站点有没有更新并抓取更新后的文章并存入Google 的Datastore中

App 的配置

遵循Google的规则，配置文件app.yaml 如下：
这里主要是定义了一些static directory－－css 和 javascript的所在地

逍遥内容管理系统(Carefree CMS)1.3.0

系统简介逍遥内容管理系统（CarefreeCMS）是一款功能强大、易于使用的内容管理平台，采用前后端分离架构，支持静态页面生成，适用于个人博客、企业网站、新闻媒体等各类内容发布场景。核心特性1、模板套装系统 - 支持多套模板自由切换，快速定制网站风格2、静态页面生成 - 一键生成纯静态HTML页面，访问速度快，SEO友好3、文章管理 - 支持富文本编辑、草稿保存、文章属性标记、自动提取SEO4、全

下载

复制代码代码如下:

application: l2zstory
version: 1
runtime: python
api_version: 1

handlers:

- url: /images
static_dir: l2zstory/templates/template2/images
- url: /css
static_dir: l2zstory/templates/template2/css
- url: /js
static_dir: l2zstory/templates/template2/js
- url: /js
static_dir: l2zstory/templates/template2/js
- url: /.*
script: main.py

URL的配置

这里采用的是Django 里的正则表达式

复制代码代码如下:

from django.conf.urls.defaults import *

# Uncomment the next two lines to enable the admin:
# from django.contrib import admin
# admin.autodiscover()

urlpatterns = patterns('',
# Example:
# (r'^l2zstory/', include('l2zstory.foo.urls')),

    # Uncomment the admin/doc line below and add 'django.contrib.admindocs'
    # to INSTALLED_APPS to enable admin documentation:
    # (r'^admin/doc/', include('django.contrib.admindocs.urls')),

    # Uncomment the next line to enable the admin:
    # (r'^admin/(.*)', admin.site.root),
    (r'^$','l2zstory.stories.views.L2ZStory'),
    (r'^YukiLife/','l2zstory.stories.views.YukiLife'),
     (r'^ZLife_Sina/','l2zstory.stories.views.ZLife_Sina'),
     (r'^ZLife/','l2zstory.stories.views.ZLife')
)

Views的细节

对Django比较熟悉的人应该会从url的配置中看到view的名字了我只把L2ZStory的这个view贴出来因为其他的在view里的架构至少是差不多的

复制代码代码如下:

#from BeautifulSoup import BeautifulSoup
from PyUtils import getAboutPage
from PyUtils import getPostInfos

def L2ZStory(request):
    url="feed://l2zstory.wordpress.com/feed/"
    about_url="http://l2zstory.wordpress.com/about/"
    blog_type="wordpress"
    htmlpages={}
    aboutContent=getAboutPage(about_url,blog_type)
    if aboutContent=="Not Found":
        aboutContent="We use this to tell those past stories..."
    htmlpages['about']={}
    htmlpages['about']['content']=aboutContent
    htmlpages['about']['title']="About This Story"
    htmlpages['about']['url']=about_url
    PostInfos=getPostInfos(url,blog_type,order_desc=True)
    return render_to_response('l2zstory.html',
{'PostInfos':PostInfos,
'htmlpages':htmlpages
})

这里主要是构建一个dictionary of dictionary htmlpages 和一个list of dictionary PostInfos
htmlpages 主要是存贮站点的 About, Contact US 之类的页面
PostInfos 会存贮所有文章的内容，作者，发布时间之类的

这里面最重要的是PyUtils。。这是这个app的核心

PyUtils的细节

我把一些我认为比较重要的细节加深了并加了评论

复制代码代码如下:

import feedparser
import urllib2
import re
from BeautifulSoup import BeautifulSoup
header={
'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.7; rv:8.0.1) Gecko/20100101 Firefox/8.0.1',
}

＃用来欺骗网站的后台。。象新浪这类的网站对我们这类的app十分不友好。。。希望它们可以多象被墙掉的wordpress学一学。。

复制代码代码如下:

timeoutMsg="""
The Robot cannot connect to the desired page due to either of these reasons:
1. Great Fire Wall
2. The Blog Site has block connections made by Robots.
"""

def getPageContent(url,blog_type):
    try:
        req=urllib2.Request(url,None,header)
        response=urllib2.urlopen(req)
        html=response.read()
        html=BeautifulSoup(html).prettify()
        soup=BeautifulSoup(html)
        Content=""
        if blog_type=="wordpress":
            try:
                for Sharesection in soup.findAll('div',{'class':'sharedaddy sd-like-enabled sd-sharing-enabled'}):
                    Sharesection.extract()
                for item in soup.findAll('div',{'class':'post-content'}):
                    Content+=unicode(item)
            except:
                Content="No Post Content Found"
        elif blog_type=="sina":
            try:
                for item in soup.findAll('div',{'class':'articalContent '}):
                    Content+=unicode(item)
            except:
                Content="No Post Content Found"

＃对于不同的网站类型应用不同的过滤器

    except:
        Content=timeoutMsg
    return removeStyle(Content)

def removeStyle(Content):
    #add this to remove all the img tag : ( Using Django with GAE Python 后台抓取多个网站的页面全文 )|()|(src=\".*\")|
    patn=re.compile(r"(align=\".*\")|(id=\".*\")|(class=\"*\")|(style=\".*\")|()|()|()|()")
    replacepatn=""

    Content=re.sub(patn,replacepatn,Content)
    ＃运用正则表达式把抓取的内容中那些格式通通去掉这样得到的文字比较纯粹
    return Content

def getPostInfos(url,blog_type,order_desc=False):
    feeds=feedparser.parse(url)
    PostInfos=[]
    if order_desc:
        items=feeds.entries[::-1]
    else:
        items=feeds.entries
    Cnt=0
    for item in items:
        PostInfo={}
        PostInfo['title']=item.title
        PostInfo['author']=item.author
        PostInfo['date']=item.date
        PostInfo['link']=item.link

        if blog_type=="wordpress":
            Cnt+=1
            if Cnt                 PostInfo['description']=getPageContent(item.link,blog_type)
            else:
                PostInfo['description']=removeStyle(item.description)
        elif blog_type=="sina":
            PostInfo['description']=removeStyle(item.description)


        PostInfos.append(PostInfo)

    return PostInfos

template 的概览

在简单之上的原则的鼓舞下，所有的站点都统一使用一个template 这个template 只接受两个变量－－前文中提到的htmlpages 和 PostInfos
重要的片断是：

复制代码代码如下:

                         {%for item in PostInfos%}

author: {{item.author}} date: {{item.date}}

{%endfor%}

总结

一句话，我爱死Python了
两句话，我爱死Python了，我爱死Django了
三句话，我爱死Python了，我爱死Django了，我爱死jQuery了。。。

Python贝叶斯怎么分类_朴素贝叶斯条件概率公式在垃圾邮件分类的应用

Python Web安全怎么做_HTTPS/HSTS与Security Headers配置

Python怎么读二进制文件_rb模式与struct模块拆解解包字节流

Python怎么解决过拟合_L1/L2正则化惩罚项配置与早停法应用策略

Python怎么获取请求头_Request Headers解析与自定义

python速学教程(入门到精通)

python怎么学习？python怎么入门？python在哪学？python怎么学才快？不用担心，这里为大家提供了python速学教程(入门到精通)，有需要的小伙伴保存下载就能学习啦！

下载

相关专题

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

223

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

458

2026.03.04

AI安装教程大全

2026最全AI工具安装教程专题：包含各版本AI绘图、AI视频、智能办公软件的本地化部署手册。全篇零基础友好，附带最新模型下载地址、一键安装脚本及常见报错修复方案。每日更新，收藏这一篇就够了，让AI安装不再报错！

169

2026.03.04

Swift iOS架构设计与MVVM模式实战

本专题聚焦 Swift 在 iOS 应用架构设计中的实践，系统讲解 MVVM 模式的核心思想、数据绑定机制、模块拆分策略以及组件化开发方法。内容涵盖网络层封装、状态管理、依赖注入与性能优化技巧。通过完整项目案例，帮助开发者构建结构清晰、可维护性强的 iOS 应用架构体系。

246

2026.03.03

C++高性能网络编程与Reactor模型实践

本专题围绕 C++ 在高性能网络服务开发中的应用展开，深入讲解 Socket 编程、多路复用机制、Reactor 模型设计原理以及线程池协作策略。内容涵盖 epoll 实现机制、内存管理优化、连接管理策略与高并发场景下的性能调优方法。通过构建高并发网络服务器实战案例，帮助开发者掌握 C++ 在底层系统与网络通信领域的核心技术。

2026.03.03

热门下载

网站特效

网站源码

网站素材

前端模板

Using Django with GAE Python 后台抓取多个网站的页面全文

{{htmlpages.about.title}}

{{item.title}}