python如何正确抓取网页标题-PHP中文网问答

讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题人工智能 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架人工智能 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 AI 提示词

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

python如何正确抓取网页标题

巴扎黑 2017-04-17 11:01:55

[Python讨论组]

652

通过 urllib 将网页内容抓取下来，然后用正则表达式 re 模块将标题匹配出来，但是发现部分标题会出现问题，比如下面抓 Apple 的代码运行结果是 App，测试发现匹配结果 m 是没有问题的，问题出现在了 strip() 这里。

# -*- coding: utf-8 -*-
import urllib
import re

url='http://apple.com'
html = urllib.urlopen(url).read()
#print html
m = re.search(".*", html)
print m.group() # 这里输出结果 Apple
print m.group().strip("") #问题应该出现在这个正则

巴扎黑

全部回复(5)

怪我咯2017-04-17 11:03:55 5楼

re.findall(r"<title>(.*)</title>","<title>Apple</title>")

正则有一个分组功能。。。。。。。

赞 +0

添加回复

PHPz2017-04-17 11:03:55 4楼

关键是用()进行分组提取，使用.*不一定匹配上。因为.*代表的含义是一组任意字符，但不包括换行符。

赞 +0

添加回复

黄舟2017-04-17 11:03:55 3楼

pattern = re.compile((?<=<title>)[\w\W]*(?=</title>))
pattern.search("Apple")

主要是(?<=...)和(?=...)这两个表达式

赞 +0

添加回复

ringa_lee2017-04-17 11:03:55 2楼

这是strip的help

`Help on method_descriptor:

strip(...)
S.strip([chars]) -> string or unicode

Return a copy of the string S with leading and trailing
whitespace removed.
If chars is given and not None, remove characters in chars instead.
If chars is unicode, S will be converted to unicode before stripping`

title中包涵le, 所以apple里的le被strip掉了

赞 +0

添加回复