如何构建一个系统？

PHP中文网

发布时间：2017-06-20 11:00:18

2589人浏览过

来源于php中文网

原创

如何构建一个系统，用于从非结构化的文本中提取结构化的信息和数据？哪些方法使用这类行为？哪些语料库适合这项工作？是否可以训练和评估模型？

信息提取，特别是结构化信息提取，可以类比数据库的记录。对应的关系绑定了对应的数据信息。针对自然语言这类非结构化的数据，为了获取对应关系，应该搜索实体对应的特殊关系，并且用字符串、元素等一些数据结构记录。

实体识别：分块技术

比如：We saw the yellow dog ，按照分块的思想，会将后三个词语分到NP中，而里面的三个词又分别对应 DT/JJ/NN；saw 分到VBD中；We 分到NP中。对于最后三个词语来说，NP就是组块（较大的集合）。为了做到这点，可以借助NLTK自带的分块语法，类似于正则表达式，来实现句子分块。

分块语法的构建

注意三点即可：

基本的分块：组块 :{组块下的子组块}（类似于："NP: {
?*}"
这样的字符串）。而?*+保存了正则表达式的意义。

import nltk
sentence = [('the','DT'),('little','JJ'),('yellow','JJ'),('dog','NN'),('brak','VBD')]
grammer = "NP: {?*}"cp = nltk.RegexpParser(grammer) #生成规则result = cp.parse(sentence) #进行分块print(result)

result.draw() #调用matplotlib库画出来

可以为不包括再大块中的标识符序列定义一个缝隙：}+{

import nltk
sentence = [('the','DT'),('little','JJ'),('yellow','JJ'),('dog','NN'),('bark','VBD'),('at','IN'),('the','DT'),('cat','NN')]
grammer = """NP:             {?*}            }+{            """  #加缝隙，必须保存换行符cp = nltk.RegexpParser(grammer) #生成规则result = cp.parse(sentence) #进行分块print(result)

可以递归式的调用，这符合语言结构中的递归嵌套。例如：VP: {*} PP:{} 。此时，RegexpParser函数的参数loop即可以设置为2，多次循环，来防止遗漏。

树状图

如果调用print(type(result))查看类型就会发现，是 nltk.tree.Tree。从名字看出来这是一种树状结构。nltk.Tree 可以实现树状结构，并且支持拼接技术，提供结点的查询和树的绘制。

tree1 = nltk.Tree('NP',['Alick'])print(tree1)
tree2 = nltk.Tree('N',['Alick','Rabbit'])print(tree2)
tree3 = nltk.Tree('S',[tree1,tree2])print(tree3.label()) #查看树的结点tree3.draw()

IOB标记

分别代表内部，外部，开始（就是英语单词的首字母）。对于上面讲的 NP，NN这样的分类，只需要在前面加上 I-/B-/O-即可。这样就能使规则外的集合被显式出来，类似上面的加缝隙。

Codenull.ai

一个无代码AI平台，允许用户无需编写一行代码就可以构建任何AI模型。

下载

开发和评估分块器

NLTK已经为我们提供了分块器，减少了手动构建规则。同时，也提供了已经分块好的内容，供我们自己构建规则时候进行参考。

#这段代码在python2下运行from nltk.corpus import conll2000print conll2000.chunked_sents('train.txt')[99] #查看已经分块的一个句子text = """   he /PRP/ B-NP   accepted /VBD/ B-VP   the DT B-NP   position NN I-NP   of IN B-PP   vice NN B-NP   chairman NN I-NP   of IN B-PP   Carlyle NNP B-NP   Group NNP I-NP   , , O   a DT B-NP   merchant NN I-NP   banking NN I-NP   concern NN I-NP   . . O"""result = nltk.chunk.conllstr2tree(text,chunk_types=['NP'])

对于之前自己定义的规则cp，可以使用cp.evaluate(conll2000.chunked_sents('train.txt')[99]) 来测试正确率。利用之前学过的Unigram标注器，可以进行名词短语分块，并且测试准确度

class UnigramChunker(nltk.ChunkParserI):"""        一元分块器，        该分块器可以从训练句子集中找出每个词性标注最有可能的分块标记，        然后使用这些信息进行分块    """def __init__(self, train_sents):"""            构造函数            :param train_sents: Tree对象列表        """train_data = []for sent in train_sents:# 将Tree对象转换为IOB标记列表[(word, tag, IOB-tag), ...]conlltags = nltk.chunk.tree2conlltags(sent)# 找出每个词性标注对应的IOB标记ti_list = [(t, i) for w, t, i in conlltags]
            train_data.append(ti_list)# 使用一元标注器进行训练self.__tagger = nltk.UnigramTagger(train_data)def parse(self, tokens):"""            对句子进行分块            :param tokens: 标注词性的单词列表            :return: Tree对象        """# 取出词性标注tags = [tag for (word, tag) in tokens]# 对词性标注进行分块标记ti_list = self.__tagger.tag(tags)# 取出IOB标记iob_tags = [iob_tag for (tag, iob_tag) in ti_list]# 组合成conll标记conlltags = [(word, pos, iob_tag) for ((word, pos), iob_tag) in zip(tokens, iob_tags)]return nltk.chunk.conlltags2tree(conlltags)
test_sents = conll2000.chunked_sents("test.txt", chunk_types=["NP"])
train_sents = conll2000.chunked_sents("train.txt", chunk_types=["NP"])

unigram_chunker = UnigramChunker(train_sents)print(unigram_chunker.evaluate(test_sents))

命名实体识别和信息提取

命名实体：确切的名词短语，指特定类型的个体，如日期、人、组织等 。如果自己去许梿分类器肯定头大(ˉ▽￣～)~~。NLTK提供了一个训练好的分类器--nltk.ne_chunk(tagged_sent[,binary=False]) 。如果binary被设置为True，那么命名实体就只被标注为NE；否则标签会有点复杂。

sent = nltk.corpus.treebank.tagged_sents()[22]print(nltk.ne_chunk(sent,binary=True))

如果命名实体被确定后，就可以实现关系抽取来提取信息。一种方法是：寻找所有的三元组(X,a,Y)。其中X和Y是命名实体，a是表示两者关系的字符串，示例如下：

#请在Python2下运行import re
IN = re.compile(r'.*\bin\b(?!\b.+ing)')for doc in nltk.corpus.ieer.parsed_docs('NYT_19980315'):for rel in nltk.sem.extract_rels('ORG','LOC',doc,corpus='ieer',pattern = IN):print nltk.sem.show_raw_rtuple(rel)

使用Python和NLTK从文本中高效提取名词的实用教程

使用Python和NLTK从文本中高效提取名词

Python与NLTK：高效提取文本名词的实用指南

使用Python和NLTK从文本中高效提取名词的教程

Python代码怎样进行文本处理 Python代码正则表达式的应用实例

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：scrapy抓取学院新闻报告实例下一篇：Python函数有哪些？

作者最新文章

小米笔记本重装系统的方法

2024-07-12 05:54

Thinkpad如何重装系统

2024-07-12 05:55

Nvidia控制面板显示设置不可用怎么办

2024-07-15 13:06

美颜相机怎么做海报

2024-07-15 13:06

美颜相机怎么贴纸遮脸脸

2024-07-15 13:09

美颜相机扣款怎么关掉

2024-07-15 13:10

如何开通拼多多

2024-07-15 13:10

拼多多开店如何选品类

2024-07-15 13:12

拼多多是如何成立的

2024-07-15 13:13

是大事

2024-12-27 16:41

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

java入门学习合集

本专题整合了java入门学习指南、初学者项目实战、入门到精通等等内容，阅读专题下面的文章了解更多详细学习方法。

2026.01.29

java配置环境变量教程合集

本专题整合了java配置环境变量设置、步骤、安装jdk、避免冲突等等相关内容，阅读专题下面的文章了解更多详细操作。

2026.01.29

java成品学习网站推荐大全

本专题整合了java成品网站、在线成品网站源码、源码入口等等相关内容，阅读专题下面的文章了解更多详细推荐内容。

2026.01.29

Java字符串处理使用教程合集

本专题整合了Java字符串截取、处理、使用、实战等等教程内容，阅读专题下面的文章了解详细操作教程。

2026.01.29

Java空对象相关教程合集

本专题整合了Java空对象相关教程，阅读专题下面的文章了解更多详细内容。

2026.01.29

clawdbot ai使用教程保姆级clawdbot部署安装手册

Clawdbot是一个“有灵魂”的AI助手，可以帮用户清空收件箱、发送电子邮件、管理日历、办理航班值机等等，并且可以接入用户常用的任何聊天APP，所有的操作均可通过WhatsApp、Telegram等平台完成，用户只需通过对话，就能操控设备自动执行各类任务。

2026.01.29

clawdbot龙虾机器人官网入口 clawdbot ai官方网站地址

clawdbot龙虾机器人官网入口:https://clawd.bot/,clawdbot ai是一个“有灵魂”的AI助手，可以帮用户清空收件箱、发送电子邮件、管理日历、办理航班值机等等，并且可以接入用户常用的任何聊天APP，所有的操作均可通过WhatsApp、Telegram等平台完成，用户只需通过对话，就能操控设备自动执行各类任务。

2026.01.29

Golang 网络安全与加密实战

本专题系统讲解 Golang 在网络安全与加密技术中的应用，包括对称加密与非对称加密（AES、RSA）、哈希与数字签名、JWT身份认证、SSL/TLS 安全通信、常见网络攻击防范（如SQL注入、XSS、CSRF）及其防护措施。通过实战案例，帮助学习者掌握如何使用 Go 语言保障网络通信的安全性，保护用户数据与隐私。

2026.01.29