0

0

使用R语言提取新闻文章中的有效文本

花韻仙語

花韻仙語

发布时间:2025-11-01 09:50:01

|

794人浏览过

|

来源于php中文网

原创

使用r语言提取新闻文章中的有效文本

本文介绍如何使用R语言从网页中提取有效的新闻文章文本。通过结合`htm2txt`、`quanteda`和`qdapDictionaries`等包,我们可以去除HTML标签、标点符号和数字,并筛选出存在于常用英语词典中的词汇,从而获得更干净、更具可读性的文本内容。

从网页抓取文本数据是数据分析和自然语言处理的常见任务。然而,直接从HTML页面提取的文本通常包含大量的噪声,例如HTML标签、导航链接、广告以及其他非文章内容的文本。为了获得更干净、更易于分析的文本,我们需要对提取的文本进行清洗和过滤。

以下是一个使用R语言提取并清洗网页文本的示例,它结合了多个R包的功能,以实现更精确的文本提取:

步骤 1: 安装和加载必要的R包

首先,确保你已经安装了以下R包。如果未安装,请使用install.packages()函数进行安装。

# 安装必要的R包
if(!require(tidyverse)){install.packages("tidyverse")}
if(!require(htm2txt)){install.packages("htm2txt")}
if(!require(quanteda)){install.packages("quanteda")}
if(!require(qdapDictionaries)){install.packages("qdapDictionaries")}

# 加载R包
library(tidyverse)
library(htm2txt)
library(quanteda)
library(qdapDictionaries)

步骤 2: 提取网页文本

使用htm2txt包中的gettxt()函数从指定的URL提取文本。

url <- 'https://en.wikipedia.org/wiki/Alan_Turing'
text <- gettxt(url)

步骤 3: 文本清洗和过滤

这一步是关键,我们将使用quanteda和qdapDictionaries包来清洗和过滤文本。

  1. 创建语料库 (Corpus): 将提取的文本转换为quanteda可以处理的语料库对象。

    逍遥内容管理系统(Carefree CMS)1.3.0
    逍遥内容管理系统(Carefree CMS)1.3.0

    系统简介逍遥内容管理系统(CarefreeCMS)是一款功能强大、易于使用的内容管理平台,采用前后端分离架构,支持静态页面生成,适用于个人博客、企业网站、新闻媒体等各类内容发布场景。核心特性1、模板套装系统 - 支持多套模板自由切换,快速定制网站风格2、静态页面生成 - 一键生成纯静态HTML页面,访问速度快,SEO友好3、文章管理 - 支持富文本编辑、草稿保存、文章属性标记、自动提取SEO4、全

    下载
    text <- corpus(text)
  2. 分词 (Tokenization): 将语料库分割成单独的词语,并移除标点符号和数字。

    text <- tokens(text, remove_punct = TRUE, remove_numbers = TRUE)
  3. 词汇过滤: 使用qdapDictionaries包中的DICTIONARY数据集,该数据集包含了常用的英语单词。我们只保留出现在该词典中的词语。

    data(DICTIONARY)
    text <- tokens_select(text, DICTIONARY$word)
  4. 统计词频: 将清洗后的文本转换为数据框,并统计每个单词的出现频率。

    text <- data.frame(text = sapply(text, as.character), stringsAsFactors = FALSE) %>%
      group_by(text1 = tolower(text)) %>%
      table() %>% as.data.frame() %>%
      rename(word = text1) %>%
      rename(frequency = Freq)

步骤 4: 查看结果

查看清洗和过滤后的文本数据。

head(text)

这段代码将显示词频最高的前几个单词,这些单词应该是文章中的有效文本。

注意事项和总结

  • 依赖于词典: 这种方法依赖于qdapDictionaries提供的词典。如果文章中包含不在词典中的专业术语或生僻词汇,它们将被过滤掉。可以考虑自定义词典,以包含这些特定领域的词汇。
  • 网页结构差异: 虽然这种方法在很多情况下有效,但不同的网站结构可能导致提取的文本包含一些噪音。针对特定的网站,可能需要进行定制化的处理。
  • 停用词移除: 可以考虑移除常见的停用词(例如 "the", "a", "is" 等),以进一步提高文本质量。quanteda包提供了停用词列表,可以使用tokens_remove()函数移除停用词。
  • 进一步处理: 提取的文本还可以进行词干提取(stemming)或词形还原(lemmatization)等进一步处理,以提高后续分析的准确性。

总而言之,使用R语言结合htm2txt、quanteda和qdapDictionaries等包,可以有效地从网页中提取并清洗文本数据。通过调整代码中的参数和方法,可以针对不同的网页结构和分析需求进行优化。

相关专题

更多
html版权符号
html版权符号

html版权符号是“©”,可以在html源文件中直接输入或者从word中复制粘贴过来,php中文网还为大家带来html的相关下载资源、相关课程以及相关文章等内容,供大家免费下载使用。

616

2023.06.14

html在线编辑器
html在线编辑器

html在线编辑器是用于在线编辑的工具,编辑的内容是基于HTML的文档。它经常被应用于留言板留言、论坛发贴、Blog编写日志或等需要用户输入普通HTML的地方,是Web应用的常用模块之一。php中文网为大家带来了html在线编辑器的相关教程、以及相关文章等内容,供大家免费下载使用。

655

2023.06.21

html网页制作
html网页制作

html网页制作是指使用超文本标记语言来设计和创建网页的过程,html是一种标记语言,它使用标记来描述文档结构和语义,并定义了网页中的各种元素和内容的呈现方式。本专题为大家提供html网页制作的相关的文章、下载、课程内容,供大家免费下载体验。

470

2023.07.31

html空格
html空格

html空格是一种用于在网页中添加间隔和对齐文本的特殊字符,被用于在网页中插入额外的空间,以改变元素之间的排列和对齐方式。本专题为大家提供html空格的相关的文章、下载、课程内容,供大家免费下载体验。

245

2023.08.01

html是什么
html是什么

HTML是一种标准标记语言,用于创建和呈现网页的结构和内容,是互联网发展的基石,为网页开发提供了丰富的功能和灵活性。本专题为大家提供html相关的各种文章、以及下载和课程。

2895

2023.08.11

html字体大小怎么设置
html字体大小怎么设置

在网页设计中,字体大小的选择是至关重要的。合理的字体大小不仅可以提升网页的可读性,还能够影响用户对网页整体布局的感知。php中文网将介绍一些常用的方法和技巧,帮助您在HTML中设置合适的字体大小。

505

2023.08.11

html转txt
html转txt

html转txt的方法有使用文本编辑器、使用在线转换工具和使用Python编程。本专题为大家提供html转txt相关的文章、下载、课程内容,供大家免费下载体验。

312

2023.08.31

html文本框代码怎么写
html文本框代码怎么写

html文本框代码:1、单行文本框【<input type="text" style="height:..;width:..;" />】;2、多行文本框【textarea style=";height:;"></textare】。

425

2023.09.01

PS使用蒙版相关教程
PS使用蒙版相关教程

本专题整合了ps使用蒙版相关教程,阅读专题下面的文章了解更多详细内容。

23

2026.01.19

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Bootstrap 5教程
Bootstrap 5教程

共46课时 | 2.9万人学习

AngularJS教程
AngularJS教程

共24课时 | 2.8万人学习

CSS教程
CSS教程

共754课时 | 21万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号