0

0

使用 R 提取新闻文章中的有效文本

心靈之曲

心靈之曲

发布时间:2025-11-02 12:29:35

|

353人浏览过

|

来源于php中文网

原创

使用 r 提取新闻文章中的有效文本

本文介绍如何使用 R 语言提取网页中的有效文本内容,去除无关的 HTML 标签、特殊字符和非文本信息。通过结合 `htm2txt`、`quanteda` 和 `qdapDictionaries` 等 R 包,实现从网页抓取文本并过滤掉非英文单词,从而获得更干净、更易于分析的文章内容。

在进行文本分析、自然语言处理或信息检索等任务时,经常需要从网页中提取文本数据。然而,直接从 HTML 页面提取的文本往往包含大量的噪音,例如 HTML 标签、JavaScript 代码、CSS 样式以及各种特殊字符。这些噪音会严重影响后续分析的准确性和效率。本文将介绍一种使用 R 语言提取网页有效文本的方案,通过结合多个 R 包,实现网页文本的清洗和过滤。

方案概述

该方案的核心思路是:

  1. 使用 htm2txt 包提取网页的纯文本内容。 htm2txt 包可以将 HTML 页面转换为纯文本,去除大部分 HTML 标签。
  2. 使用 quanteda 包进行文本预处理。 quanteda 包提供了强大的文本处理功能,可以进行分词、去除标点符号、去除数字等操作。
  3. 使用 qdapDictionaries 包过滤非英文单词。 qdapDictionaries 包包含一个常用的英文单词字典,可以用于过滤掉文本中不是英文单词的内容。

详细步骤

以下是详细的代码示例,展示了如何使用 R 语言提取网页中的有效文本:

逍遥内容管理系统(Carefree CMS)1.3.0
逍遥内容管理系统(Carefree CMS)1.3.0

系统简介逍遥内容管理系统(CarefreeCMS)是一款功能强大、易于使用的内容管理平台,采用前后端分离架构,支持静态页面生成,适用于个人博客、企业网站、新闻媒体等各类内容发布场景。核心特性1、模板套装系统 - 支持多套模板自由切换,快速定制网站风格2、静态页面生成 - 一键生成纯静态HTML页面,访问速度快,SEO友好3、文章管理 - 支持富文本编辑、草稿保存、文章属性标记、自动提取SEO4、全

下载
library(tidyverse)
library(htm2txt)
library(quanteda)
library(qdapDictionaries)
data(DICTIONARY)

# 定义要提取文本的 URL
url <- 'https://en.wikipedia.org/wiki/Alan_Turing'

# 使用 htm2txt 包提取网页的纯文本内容
text <- url %>% gettxt() %>% corpus()

# 使用 quanteda 包进行文本预处理
text <- tokens(text, remove_punct = TRUE, remove_numbers = TRUE)

# 使用 qdapDictionaries 包过滤非英文单词
text <- tokens_select(text, DICTIONARY$word)

# 将结果转换为数据框并统计词频
text <- data.frame(text = sapply(text, as.character), stringsAsFactors = FALSE) %>%
  group_by(text1 = tolower(text)) %>%
  table() %>% as.data.frame() %>%
  rename(word = text1) %>%
  rename(frequency = Freq)

# 显示词频最高的前几项
head(text)

代码解释:

  • library(tidyverse): 导入tidyverse包,包含dplyr, readr, ggplot2等常用数据处理和可视化工具
  • library(htm2txt): 导入htm2txt包,用于从HTML页面提取文本。
  • library(quanteda): 导入quanteda包,用于文本分析和处理。
  • library(qdapDictionaries): 导入qdapDictionaries包,包含英文单词字典。
  • data(DICTIONARY): 加载qdapDictionaries包中的DICTIONARY数据集,包含英文单词列表。
  • url
  • text % gettxt() %>% corpus(): 使用gettxt()函数从URL提取文本,并使用corpus()函数创建quanteda语料库对象。
  • text
  • text word): 使用tokens_select()函数,根据DICTIONARY中的单词列表,选择只包含英文单词的token。
  • text
  • head(text): 显示词频最高的前几项。

注意事项

  • 此方法依赖于 qdapDictionaries 中的英文单词字典。如果需要处理其他语言的文本,需要使用相应的字典。
  • 即使使用了字典过滤,仍然可能存在一些非文章内容的单词,例如导航栏中的单词。需要根据实际情况进行进一步的过滤。
  • 该方法仅适用于包含英文单词的网页。对于其他语言的网页,需要使用相应的词典进行过滤。
  • 对于结构复杂的网页,可能需要使用更高级的 HTML 解析技术,例如使用 rvest 包选择特定的 HTML 节点进行提取。

总结

本文介绍了一种使用 R 语言提取网页有效文本的方案。该方案通过结合 htm2txt、quanteda 和 qdapDictionaries 等 R 包,实现了从网页抓取文本并过滤掉非英文单词,从而获得更干净、更易于分析的文章内容。这种方法可以应用于各种文本分析任务,例如情感分析、主题建模和关键词提取等。在实际应用中,可以根据具体需求对代码进行修改和优化,以获得更好的效果。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6143

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

816

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1065

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1340

2024.03.01

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2070

2024.08.16

word背景色怎么改成白色
word背景色怎么改成白色

Word是微软公司的一个文字处理器软件。word为用户提供了专业而优雅的文档工具,帮助用户节省时间并得到优雅美观的结果。word提供了许多易于使用的文档创建工具,同时也提供了丰富的功能供创建复杂的文档使用。怎么word背景色怎么该呢?php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

3711

2023.07.21

word最后一页空白页怎么删除
word最后一页空白页怎么删除

word最后一页空白页删除方法有:通过删除回车符、调整页边距、删除分节符或调整分页符位置,您可以轻松去除最后一页的空白页。根据您实际的文档情况,选择适合您的方法进行操作,使您的文档更加美观和整洁。本专题为大家提供word最后一页空白页怎么删除不了相关的各种文章、以及下载和课程。

322

2023.07.24

word最后一页空白页怎么删除不了
word最后一页空白页怎么删除不了

word删除最后一页空白页,可以尝试使用Backspace键删除空白页,如果无效,查找和删除分页符,或者调整页面边距和行距。还可以尝试将文档保存为其他格式并重新打开和保存。本专题为大家提供word最后一页空白页为啥删除不了的相关的文章、下载、课程内容,供大家免费下载体验。

373

2023.07.25

Python 自然语言处理(NLP)基础与实战
Python 自然语言处理(NLP)基础与实战

本专题系统讲解 Python 在自然语言处理(NLP)领域的基础方法与实战应用,涵盖文本预处理(分词、去停用词)、词性标注、命名实体识别、关键词提取、情感分析,以及常用 NLP 库(NLTK、spaCy)的核心用法。通过真实文本案例,帮助学习者掌握 使用 Python 进行文本分析与语言数据处理的完整流程,适用于内容分析、舆情监测与智能文本应用场景。

10

2026.01.27

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Sass 教程
Sass 教程

共14课时 | 0.8万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 3万人学习

CSS教程
CSS教程

共754课时 | 24.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号