0

0

如何使用Python进行文本实体识别_NER模型训练详解【指导】

舞夢輝影

舞夢輝影

发布时间:2025-12-23 22:07:02

|

316人浏览过

|

来源于php中文网

原创

python做ner需选对工具、规范数据、定义标签体系并微调预训练模型;用hugging face的transformers等库加载bert类模型,按bio格式标注,对齐tokenizer与标签,用automodelfortokenclassification微调,以seqeval评估各项指标。

如何使用python进行文本实体识别_ner模型训练详解【指导】

用Python做文本实体识别(NER),核心是选对工具、准备规范数据、定义标签体系,再微调预训练模型。不一定要从零训练,用Hugging Face的Transformers + Tokenizers + datasets库,配合BERT类模型,效果好、上手快。

准备标注数据:格式和清洗很关键

NER训练数据通常按字或词打标签,常用BIO格式(B-ORG, I-ORG, O)。每行一个字+标签,句子间空行隔开:

李 B-PER
明 I-PER
就 O
职 O
于 O
腾 B-ORG
讯 I-ORG

北 B-LOC
京 I-LOC
大 I-LOC
学 I-LOC

注意三点:

  • 确保所有标点、空格、数字都参与标注,不能跳过
  • 统一编码(UTF-8),避免乱码导致token对齐失败
  • 检查标签一致性:比如“B-LOC”后必须接“I-LOC”,不能出现“B-LOC B-LOC”

加载与预处理:对齐tokenizer和标签

用transformers里的AutoTokenizer加载BERT类分词器(如bert-base-chinese),关键在保持“子词切分”和“标签映射”同步:

Dora
Dora

创建令人惊叹的3D动画网站,无需编写一行代码。

下载

立即学习Python免费学习笔记(深入)”;

  • 原始字序列长度 = 标签序列长度
  • tokenizer分词后可能产生[CLS]、[SEP]、##xx等子词,需把标签映射到第一个子词,其余设为-100(PyTorch中忽略损失)
  • 用datasets库加载数据集,用map()函数批量处理,自动padding和截断

构建模型:微调比从头训练更实际

推荐用AutoModelForTokenClassification:

  • 加载预训练BERT权重(如bert-base-chinese)
  • 指定num_labels = 实体类别数 + 1(含O)
  • loss自动按token计算,不用手动写CRF层(除非你明确需要序列建模)
  • 若想提升边界识别,可在训练时加入少量规则后处理(如合并连续I-PER)

训练与评估:别只看准确率

用Trainer API训练,但评估要用seqeval(专为NER设计):

  • 指标重点看precision、recall、f1 per label,尤其关注低频实体(如B-PROD)
  • 验证集上f1停滞时,可早停;学习率建议2e-5 ~ 5e-5
  • 推理时用model.predict()拿到logits,再argmax转标签,最后按原始字序列还原

基本上就这些。NER不是黑箱,关键是数据对齐和标签逻辑清晰。模型可以换,流程跑通了,换成RoBERTa、MacBERT甚至Qwen-1.5B也一样套用。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6607

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

842

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1092

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

2108

2024.03.01

golang map内存释放
golang map内存释放

本专题整合了golang map内存相关教程,阅读专题下面的文章了解更多相关内容。

77

2025.09.05

golang map相关教程
golang map相关教程

本专题整合了golang map相关教程,阅读专题下面的文章了解更多详细内容。

40

2025.11.16

golang map原理
golang map原理

本专题整合了golang map相关内容,阅读专题下面的文章了解更多详细内容。

67

2025.11.17

java判断map相关教程
java判断map相关教程

本专题整合了java判断map相关教程,阅读专题下面的文章了解更多详细内容。

47

2025.11.27

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

3

2026.03.11

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 4.9万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号