0

0

C# 文件内容的关系提取 C#如何从非结构化文本中识别和提取实体间的关系

月夜之吻

月夜之吻

发布时间:2026-02-25 07:35:21

|

572人浏览过

|

来源于php中文网

原创

正则提取固定模式关系需限定上下文、约束实体名、白名单谓词;示例匹配"class\s+(\w+)\s:\s(\w+)"提取继承关系,避免宽泛模式误抓描述性语句。

c# 文件内容的关系提取 c#如何从非结构化文本中识别和提取实体间的关系

Regex 快速提取固定模式的关系(比如 “A 是 B 的父类”)

如果你面对的是格式相对规整的注释、文档或日志,比如 "class Derived : Base" 或文本中明确出现 "继承自""依赖于" 这类词,正则就是最直接的工具。它不解决语义,但能稳住第一批可落地的关系。

常见错误是写太宽泛的模式,比如 @"(\w+)\s+是\s+(\w+)\s+的\s+(\w+)",结果把 "String 是不可变的" 也抓进来——这不是实体关系,是描述性语句。

  • 限定上下文:只在 /// 注释块或 /* ... */ 中运行,避开代码正文和字符串字面量
  • 实体名加约束:用 [A-Za-z_]\w* 替代 \w+,排除数字开头或纯数字匹配
  • 动词必须白名单:只匹配 "继承自|实现|依赖|调用|包含|属于" 等你实际关心的谓词,别用 .* 模糊兜底
  • 示例:提取接口实现关系 Regex.Match(line, @"class\s+(\w+)\s*:\s*(\w+\w*>?)"),注意要处理泛型如 IEnumerable<t></t> 中的 和 <code>> 转义

Microsoft.CodeAnalysis 解析 AST 提取真实代码级关系

真正可靠的类继承、方法调用、字段访问关系,只能从编译器抽象语法树(AST)里挖。靠文本扫描永远绕不开字符串拼接、宏展开、条件编译这些坑。

容易踩的坑是直接用 SyntaxTree.GetRoot() 后暴力遍历所有 IdentifierNameSyntax,结果把变量名、命名空间、字符串内容全当“实体”拎出来——没类型上下文,关系就无意义。

  • 优先走语义模型:semanticModel.GetSymbolInfo(node).Symbol 才能确认这个 BaseClass 确实是个类型,而不是局部变量名
  • 关注三类关键节点:BaseListSyntax(继承/实现)、InvocationExpressionSyntax(调用)、MemberAccessExpressionSyntax(成员访问)
  • 别忽略别名:如果用了 using Alias = Some.Long.Namespace.Type;Alias.Method() 的符号解析必须通过 Compilation 全局作用域,不能只看当前文件
  • 性能提示:一次性加载整个解决方案比逐个文件解析快得多,CSharpCompilation.Create() 配合 ParseOptions.WithPreprocessorSymbols() 处理条件编译

NLP.NETML.NET 做轻量级语义关系分类(非代码文本)

当你面对的是 XML 注释、XML 文档、设计文档或 PR 描述这类自然语言文本,且需要识别像 “UserRepository 负责持久化 User 实体” 这种隐含关系时,规则已不够用,得上简单 NLP。

无涯·问知
无涯·问知

无涯·问知,是一款基于星环大模型底座,结合个人知识库、企业知识库、法律法规、财经等多种知识源的企业级垂直领域问答产品

下载

别一上来就拉大模型——ML.NETTextFeaturizingEstimator + SdcaMaximumEntropyMulticlassTrainer 在百条样本下就能对 “调用/拥有/配置/触发” 几类关系做到 75%+ 准确率,够用且不拖慢构建流程。

  • 训练数据必须带实体边界:标注出 [UserRepository][User],否则模型学不会谁是主语谁是宾语
  • 特征别只喂词袋:加入依存句法关键词距(如 “负责” 到最近名词的距离)、实体类型(类名/方法名/配置项)作为数值特征
  • 兼容性注意:NLP.NET 不维护了,ML.NET 的文本管道在 .NET 6+ 上需引用 Microsoft.ML.Text 单独包,不是默认内置
  • 示例 pipeline:mlContext.Transforms.Text.FeaturizeText("Features", "Text") 后接二分类器判断 “是否存在 ‘配置’ 关系”

关系去重与可信度打标(避免 A→B 和 B←A 重复入库)

不同路径提取的关系会大量重叠:AST 说 Program 调用 Console.WriteLine,正则又从注释里扫出 “Program 输出日志”,这两条该合并还是丢弃?不处理,图谱就长毛。

最易被忽略的是关系方向性丢失。比如 typeof(A).GetInterfaces() 返回 IInterface,这表达的是 A 实现 IInterface,不是 IInterface 被 A 实现——箭头反了,下游推理全错。

  • 统一用 (subject, predicate, object) 三元组结构存储,subject/object 必须是完整符号名(如 "MyApp.Services.UserService"),不是简称
  • 为每条关系挂来源标签:"ast:inheritance""regex:comment-dependency""nlp:doc-owns",方便后续按可信度加权
  • 同 subject+object 但 predicate 冲突时(如 “继承” vs “组合”),保留 AST 来源,丢弃 NLP 来源——代码事实永远优先于文档推测
  • 调试技巧:导出为 CSV 时加一列 confidence_score,AST 关系设为 0.95,正则设 0.7,NLP 设 0.6,一眼看出哪条该人工复核

事情说清了就结束。关系提取最难的从来不是怎么找,而是怎么让不同来源的结果在同一个坐标系里对齐——实体消歧、方向判定、置信度归一,这些不写进 pipeline,后面建模全在还债。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

850

2023.08.02

string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

850

2023.08.02

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

638

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

217

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1558

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

642

2023.11.24

java读取文件转成字符串的方法
java读取文件转成字符串的方法

Java8引入了新的文件I/O API,使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java,可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中,你需要将文件路径替换为你的实际文件路径,并且可能需要处理可能的IOException异常。想了解更多java的相关内容,可以阅读本专题下面的文章。

1027

2024.03.22

php中定义字符串的方式
php中定义字符串的方式

php中定义字符串的方式:单引号;双引号;heredoc语法等等。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

980

2024.04.29

Golang 生态工具与框架:扩展开发能力
Golang 生态工具与框架:扩展开发能力

《Golang 生态工具与框架》系统梳理 Go 语言在实际工程中的主流工具链与框架选型思路,涵盖 Web 框架、RPC 通信、依赖管理、测试工具、代码生成与项目结构设计等内容。通过真实项目场景解析不同工具的适用边界与组合方式,帮助开发者构建高效、可维护的 Go 工程体系,并提升团队协作与交付效率。

1

2026.02.24

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
C# 教程
C# 教程

共94课时 | 10.2万人学习

C 教程
C 教程

共75课时 | 4.9万人学习

C++教程
C++教程

共115课时 | 19.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号