0

0

基于深度学习的文本情感识别技术在5G不良消息安全管控平台中的应用

王林

王林

发布时间:2023-04-09 16:41:06

|

1954人浏览过

|

来源于51CTO.COM

转载

作者 | 孙越,单位:中移(杭州)信息技术有限公司 | 中国移动杭州研发中心

Labs 导读

随着5G网络的不断普及,大量用户开始接触并使用5G网络。5G网络不仅可以传送传统网络的语音、视频、文本等信息,还可以凭借更加低时延及高精准的定位能力,被使用在更多具有实用价值的应用场景中,如:战地实况信息、卫星定位导航等等。

晓象AI资讯阅读神器
晓象AI资讯阅读神器

晓象-AI时代的资讯阅读神器

下载

网络信息时常会夹杂不良信息,如涉政信息、涉黄信息、涉黑信息、涉诈信息、商业广告消息等,且不良信息数量呈现逐年上升趋势,给用户造成了巨大骚扰。为了净化网络环境,有效管控不良信息传播,中国移动5G不良消息安全管控平台应运而生。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

数据来源:中国移动集团信息安全中心

1、5G不良信息管控平台的应用场景

该平台在面对繁杂的网络信息环境时,诸如文本消息、语音信息、视频信息、富媒体信息等,将信息归类为:涉政、涉黄、涉黑、涉诈、商业广告消息、正常消息等等,再通过对应策略进行及时拦截,并根据不良消息的严重程度进行后续惩处处理,从根源净化网络环境,营造良好的网络空间。

图片

2、现有5G不良信息管控平台的技术要点

该平台主要通过以下几种方法对不良信息进行拦截:

①设定一级关键词:一级关键词通常设置为一些极度敏感词汇,若用户发送信息中包含一级关键词内容,即立即拦截该信息,信息内容无法下发,并对该用户进行标记。

②设定普通关键词: 普通关键词设置为一些较为敏感词汇,若用户发送信息中包含普通关键词内容,且在一定时间内,用户发送该敏感消息的次数超过系统预先设定的拦截阈值,则系统会将用户拉入黑名单,在一定时间内,该用户无法使用完整5G网络服务。

③设定复杂文本信息监控:如用户发送PDF文件,其中该文件中包含文字和图片,将文件中文字提取出来,过滤一级关键词和普通关键词机制,图片则进行富媒体机制过滤,分别根据文本和图片的过滤结果,采用从重处置的原则,作为该文件的处置结果。

3、现有5G不良管控平台的技术弱点

现有5G不良消息安全管控平台的过滤机制仅能过滤指定且有限的短语、短句,而随着网络普及,新鲜词汇每天都会大量涌现,仅靠人工手动添加词汇,已经无法做到及时、快速的更新词汇库。而且当今大量用户在发送文本信息时,虽然整个文本信息没有违规词汇,但表达的思想及情感却可能带有大量不良情感倾向,仅靠词汇及短句无法成功拦截不良情感内容。因此,利用文本情感分析,将富含不良情感倾向的句子进行送审拦截,可以进一步加强不良信息管控的效果,减少垃圾信息对用户的侵蚀与毒害。

通过建立包含网络流行短句及新闻消息的文本情感库,将文本中富含的情感分为三类:积极情感、中性情感、消极情感,并按照这三种分类对每一个文本加上相应标签,利用深度学习网络对情感库中文本进行训练,便可将训练好的模型用在5G不良消息管控平台中对不良情感消息进行拦截。

4、基于深度学习的5G不良管控系统技术实现细节

该技术中包含三大主体:jieba分词系统、词组向量化,文本情感识别算法,各个主体之间的交互如下图:

图片

各模块交互流程图

通过爬虫技术爬取网络词语及新闻消息作为原始文本,并将原始文本按照8:2的比例分为训练集和测试集,对训练集中的文本信息进行标签化,然后将测试集中文本信息通过jieba分词工具进行分词处理,比如:他来到移动杭研大厦。通过jieba分词工具分词后,结果为:他/来到/移动/杭研/大厦,最后将分词后数据组建成语料库。由于训练集和测试集文本信息量很大(通常在百万级数据),所以会导致分词后语料库中的数据量也十分庞大(千万级数据量)。虽然可以将这些语料以编号的形式储存在语料库中,但由于数据量庞大,极易出现维度灾难。因此,针对文本信息中出现的语气助词,比如:“了”、“的”、“吗”等等,这些词虽然出现十分频繁,但对情感作用几乎没有贡献,我们会选择在语料库中剔除这些词组,达到减少维度的目的。

我们将训练集中已经向量化的词组送入深度学习网络中进行学习训练,获取相应模型,最后将测试集中的数据放入到模型中查看对应的识别结果,当该模型能够获得较好的正确率时,该模型联接到5G不良管控平台,用户发送端到端的信息进行过滤。在过滤过程中,若发现不良信息及时进行拦截,使5G不良信息管控系统对于不良信息的拦截更加系统、全面。

图片

具体步骤如下:

  1. 从网上爬取原始文本语料,并将原始文本进行预处理,包括:去除语气词,删除文本中出现的标点符号、空白区域,删除文本中出现的终止词、稀疏词和特定词;使用jieba库进行分词,将文本句子按照词组精确地切开,分成一个一个单独的词组;
  2. 将爬取到的文本数据集按照一定比例划分成训练集和测试集,对训练集中文本句子进行人工标注,分为:积极情感、消极情感、中性情感。并分别使用jieba库对训练集和测试集内文本句子进行分词,将分词后的训练集构建成语料库;
  3. 将步骤1中词组进行向量化,让每一个分词映射为一个多维的连续值向量,得到整个数据集的词向量矩阵。
  4. 通过先抽取情感词所在的子句,减少句子的复杂度,再在子句中根据各种特征预测情感对象的位置,然后再从相应位置进行情感抽取。情感抽取是为了获取文本中有价值的情感信息,判断一个单词或词组在情感表达中扮演的角色,包括情感表达者识别、评价对象识别、情感观点词识别等任务。
  5. 通过将上述操作获得的情感向量送入到深度学习网络获得文本情感识别模型,再将测试集中情感向量送入该模型中,查看测试结果,并将检测结果正常的数据继续进行常规策略过滤,如:文本匹配、富媒体识别等。  

5、融入深度学习的5G拦截系统的优点

与现有5G拦截系统相比,融入深度学习的5G拦截系统具有以下优点:

  • 利用深度学习技术提供高可靠性、高真实性的有效鉴别;
  • 利用深度学习技术进行情感识别,人工介入少,工作效率高;
  • 利用文本情感识别,可有效补充关键词拦截的不足;
  • 利用文本情感识别,可将在策略中及时自动更新补充新的词条信息,提高效率。

写在最后:

目前,深度学习应用领域十分广阔,依靠其重复训练、自我学习的方式,可以大大降低人工的工作量,提升效率及准确度。不仅适用于上述不良信息拦截系统,相信在不久的将来,该技术在其他新兴领域也会大放异彩。当然,深度学习本身也不尽完美,并不能解决所有棘手问题。正因为如此,我们应该继续将深度学习技术投入到新场景、新领域以期获得新突破,共创美好的未来智能生活。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
拼多多赚钱的5种方法 拼多多赚钱的5种方法
拼多多赚钱的5种方法 拼多多赚钱的5种方法

在拼多多上赚钱主要可以通过无货源模式一件代发、精细化运营特色店铺、参与官方高流量活动、利用拼团机制社交裂变,以及成为多多进宝推广员这5种方法实现。核心策略在于通过低成本、高效率的供应链管理与营销,利用平台社交电商红利实现盈利。

28

2026.01.26

edge浏览器怎样设置主页 edge浏览器自定义设置教程
edge浏览器怎样设置主页 edge浏览器自定义设置教程

在Edge浏览器中设置主页,请依次点击右上角“...”图标 > 设置 > 开始、主页和新建标签页。在“Microsoft Edge 启动时”选择“打开以下页面”,点击“添加新页面”并输入网址。若要使用主页按钮,需在“外观”设置中开启“显示主页按钮”并设定网址。

8

2026.01.26

苹果官方查询网站 苹果手机正品激活查询入口
苹果官方查询网站 苹果手机正品激活查询入口

苹果官方查询网站主要通过 checkcoverage.apple.com/cn/zh/ 进行,可用于查询序列号(SN)对应的保修状态、激活日期及技术支持服务。此外,查找丢失设备请使用 iCloud.com/find,购买信息与物流可访问 Apple (中国大陆) 订单状态页面。

31

2026.01.26

npd人格什么意思 npd人格有什么特征
npd人格什么意思 npd人格有什么特征

NPD(Narcissistic Personality Disorder)即自恋型人格障碍,是一种心理健康问题,特点是极度夸大自我重要性、需要过度赞美与关注,同时极度缺乏共情能力,背后常掩藏着低自尊和不安全感,影响人际关系、工作和生活,通常在青少年时期开始显现,需由专业人士诊断。

3

2026.01.26

windows安全中心怎么关闭 windows安全中心怎么执行操作
windows安全中心怎么关闭 windows安全中心怎么执行操作

关闭Windows安全中心(Windows Defender)可通过系统设置暂时关闭,或使用组策略/注册表永久关闭。最简单的方法是:进入设置 > 隐私和安全性 > Windows安全中心 > 病毒和威胁防护 > 管理设置,将实时保护等选项关闭。

5

2026.01.26

2026年春运抢票攻略大全 春运抢票攻略教你三招手【技巧】
2026年春运抢票攻略大全 春运抢票攻略教你三招手【技巧】

铁路12306提供起售时间查询、起售提醒、购票预填、候补购票及误购限时免费退票五项服务,并强调官方渠道唯一性与信息安全。

35

2026.01.26

个人所得税税率表2026 个人所得税率最新税率表
个人所得税税率表2026 个人所得税率最新税率表

以工资薪金所得为例,应纳税额 = 应纳税所得额 × 税率 - 速算扣除数。应纳税所得额 = 月度收入 - 5000 元 - 专项扣除 - 专项附加扣除 - 依法确定的其他扣除。假设某员工月工资 10000 元,专项扣除 1000 元,专项附加扣除 2000 元,当月应纳税所得额为 10000 - 5000 - 1000 - 2000 = 2000 元,对应税率为 3%,速算扣除数为 0,则当月应纳税额为 2000×3% = 60 元。

12

2026.01.26

oppo云服务官网登录入口 oppo云服务登录手机版
oppo云服务官网登录入口 oppo云服务登录手机版

oppo云服务https://cloud.oppo.com/可以在云端安全存储您的照片、视频、联系人、便签等重要数据。当您的手机数据意外丢失或者需要更换手机时,可以随时将这些存储在云端的数据快速恢复到手机中。

40

2026.01.26

抖币充值官方网站 抖币性价比充值链接地址
抖币充值官方网站 抖币性价比充值链接地址

网页端充值步骤:打开浏览器,输入https://www.douyin.com,登录账号;点击右上角头像,选择“钱包”;进入“充值中心”,操作和APP端一致。注意:切勿通过第三方链接、二维码充值,谨防受骗

7

2026.01.26

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Node.js 教程
Node.js 教程

共57课时 | 9.4万人学习

CSS3 教程
CSS3 教程

共18课时 | 4.9万人学习

Rust 教程
Rust 教程

共28课时 | 4.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号