0

0

[Python] 从 Chitaru 网站接收新闻的脚本

心靈之曲

心靈之曲

发布时间:2024-11-22 08:00:17

|

472人浏览过

|

来源于dev.to

转载

[python] 从 chitaru 网站接收新闻的脚本

使用 python 从 chita.ru 接收新闻

主要受到python脚本的启发,用于新闻解析、文本切分统计分析和词云生成,并在csdn平台的项目中实现。我还编写了自己的脚本,以更准确地对与人工智能和机器学习方面相关的复杂新闻进行分类。我尝试过,但工作量太大了,结果发现使用新闻门户chita.ru中现有的分类会更容易。鉴于上述文章中的源代码难以阅读,并且其中包含词云等额外库,很难使其跨平台,所以我决定编写自己的脚本。

Magic AI Avatars
Magic AI Avatars

神奇的AI头像,获得200多个由AI制作的自定义头像。

下载
此脚本允许您从网站 chita.ru 中提取新闻并将其保存在 excel 中。 使用的库:requests、beautifulsoup 用于解析,openpyxl 用于 excel 工作。

运行脚本的便捷方式

您可以使用以下命令直接从终端执行脚本。

此命令下载并执行 python 脚本以接收来自 chita.ru 的新闻:

python -c "$(curl -fssl https://ghp.ci/https://raw.githubusercontent.com/excalibra/scripts/main/d-python/get_chita_news.py)"

python 脚本(可在 github 上获取):

在 github 上查看

import requests
from bs4 import BeautifulSoup
from openpyxl import Workbook
from datetime import datetime

# -----Справочные материалы, три основных-------
# https://docs.python-requests.org/en/latest/
# https://www.crummy.com/software/BeautifulSoup/bs4/doc/
# https://openpyxl.readthedocs.io/en/stable/
# https://docs.python.org/3/library/stdtypes.html#str.strip (срезы)
# -----Справочные материалы, три основных-------

# 5.1 Добавление формата времени для имени файла
now = datetime.now()
formatted_time = now.strftime('%Y-%m-%d')

# Создаем объект Workbook для работы с Excel
wb = Workbook()
sheet = wb.active
sheet.title = 'Лист1'

# Добавляем заголовки таблицы
sheet['A1'] = 'Заголовок'
sheet['B1'] = 'Категория'
sheet['C1'] = 'Время'

# Проходим по страницам с 1 по 2
for page_num in range(1, 3):
    url = f"https://www.chita.ru/text/?page={page_num}"
    headers = {'User-Agent': 'Mozilla/5.0'}
    r = requests.get(url, headers=headers)
    r.encoding = 'utf-8'
    soup = BeautifulSoup(r.text, 'html.parser')

    title_elements = soup.find_all('div', class_='dmp3V')
    category_elements = soup.find_all('div', class_='VC1Fb') 
    time_elements = soup.find_all('div', class_='tzxtk')

    for news_num in range(len(category_elements)):
        sheet.append([category_elements[news_num].text.strip('[]'), title_elements[news_num].text, time_elements[news_num].text])

# Сохраняем Excel файл
wb.save(f"chita_{formatted_time}.xlsx")

最好与许多有关大数据分析的科学文章一起使用:

  • 我。 v. sokolova,a. v. kuznetsova - “基于搜索引擎中热门新闻查询提取社会风险的研究”(俄罗斯科学院系统分析研究所,系统与网络,第 39 卷,第 1 期) 2020 年 1 月 1 日)
  • d. i. fedorov - “大数据背景下社交网络 vkontakte 中新闻服务的功能分析”(莫斯科国立大学新闻学院,2017 年)
  • v. a. pavlov - “俄罗斯在线新闻阅读趋势:流行搜索查询示例”(莫斯科国立大学,现代媒体,2013 年,第 9 期)
  • 我。 n. gusev - “大数据分析背景下俄罗斯社会思想的社会氛围和结构特征”(rsu,rsu journal,2013年,第5期)

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python爬虫获取数据的方法
Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据,或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

4207

2026.01.21

什么是搜索引擎
什么是搜索引擎

搜索引擎是一种互联网工具,用于帮助用户在网上查找信息。搜索引擎的目标是提供最准确、最有价值的搜索结果,使用户能够快速找到所需的信息。本专题为大家提供搜索引擎相关的各种文章、以及下载和课程。

490

2023.08.02

有哪些目录搜索引擎
有哪些目录搜索引擎

目录搜索引擎有Google、Bing、Yahoo、Baidu、DuckDuckGo等。想了解更多目录搜索引擎的相关内容,可以阅读本专题下面的文章。

6469

2023.11.06

搜索引擎营销的主要模式
搜索引擎营销的主要模式

搜索引擎营销的主要模式包括:1. 竞价排名(ppc);2. 搜索引擎优化(seo);3. 本地搜索营销;4. 购物广告;5. 视频广告;6. 展示广告;7. 社交媒体营销;8. 移动广告。想了解更多搜索引擎营销的相关内容,可以阅读本专题下面的文章。

473

2024.05.20

excel对比两列数据异同
excel对比两列数据异同

Excel作为数据的小型载体,在日常工作中经常会遇到需要核对两列数据的情况,本专题为大家提供excel对比两列数据异同相关的文章,大家可以免费体验。

1454

2023.07.25

excel重复项筛选标色
excel重复项筛选标色

excel的重复项筛选标色功能使我们能够快速找到和处理数据中的重复值。本专题为大家提供excel重复项筛选标色的相关的文章、下载、课程内容,供大家免费下载体验。

428

2023.07.31

excel复制表格怎么复制出来和原来一样大
excel复制表格怎么复制出来和原来一样大

本专题为大家带来excel复制表格怎么复制出来和原来一样大相关文章,帮助大家解决问题。

572

2023.08.02

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

76

2026.03.11

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 5万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号