DetectGPT：使用概率曲率的零样本机器生成文本检测

PHPz

发布时间：2023-04-14 10:13:02

1702人浏览过

来源于51CTO.COM

转载

detectgpt的目的是确定一段文本是否由特定的llm生成，例如gpt-3。为了对段落 x 进行分类，detectgpt 首先使用通用的预训练模型（例如 t5）对段落 ~xi 生成较小的扰动。然后detectgpt将原始样本x的对数概率与每个扰动样本~xi进行比较。如果平均对数比高，则样本可能来自源模型。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

ChatGPT是一个热门话题。人们正在讨论是否可以检测到一篇文章是由大型语言模型(LLM)生成的。DetectGPT定义了一种新的基于曲率的准则，用于判断是否从给定的LLM生成。DetectGPT不需要训练单独的分类器，不需要收集真实或生成的段落的数据集，也不需要显式地为生成的文本加水印。它只使用由感兴趣的模型计算的对数概率和来自另一个通用预训练语言模型(例如T5)的文章随机扰动。

1、DetectGPT:随机排列和假设

识别并利用了机器生成的通道x~pθ(左)位于logp (x)的负曲率区域的趋势，其中附近的样本平均具有较低的模型对数概率。相比之下，人类书写的文本x~preal(.)(右)倾向于不占据具有明显负对数概率曲率的区域。

DetectGPT基于一个假设，即来自源模型pθ的样本通常位于pθ对数概率函数的负曲率区域，这是人类文本不同的。如果我们对一段文本 x~pθ 应用小的扰动，产生 ~x，与人类编写的文本相比，机器生成的样本的数量 log pθ(x) - log pθ(~x) 应该相对较大。利用这个假设，首先考虑一个扰动函数 q(.|x)，它给出了在 ~x 上的分布，x 的略微修改版本具有相似的含义（通常考虑粗略的段落长度文本 x）。例如，q(.|x) 可能是简单地要求人类重写 x 的其中一个句子的结果，同时保留 x 的含义。使用扰动函数的概念，可以定义扰动差异 d (x; pθ, q)：

DetectGPT：使用概率曲率的零样本机器生成文本检测

因此，下面的假设 4.1也就是：

DetectGPT：使用概率曲率的零样本机器生成文本检测

如果q(.|x)是来自掩码填充模型(如T5)的样本而不是人类重写，那么假设4.1可以以自动的、可扩展的方式进行经验检验。

2、DetectGPT：自动测试

DetectGPT：使用概率曲率的零样本机器生成文本检测

对一篇文章进行改写后，模型生成的文章的对数概率(扰动差异)的平均下降始终高于人工书写的文章

对于真实数据，使用了XSum数据集中的500篇新闻文章。当提示XSum中每篇文章的前30个令牌时，使用四个不同llm的输出。使用T5-3B施加扰动，遮蔽随机采样的2个单词跨度，直到文章中15%的单词被掩盖。上面公式(1)中的期望近似于T5中的100个样本。

上述实验结果表明，人写文章和模型样本的摄动差异分布有显著差异;模型样本往往有较大的扰动差异。根据这些结果，就可以通过简单地阈值扰动差异来检测一段文本是否由模型p生成。

通过用于估计 E~x q(.|x) log p (~x) 的观测值的标准偏差对扰动差异进行归一化提供了更好的检测，通常将 AUROC 增加 0.020 左右，所以在实验中使用了扰动差异的归一化版本。

DetectGPT 的检测过程伪代码

扰动差异可能是有用的，它测量的是什么还无法明确解释，所以作者在下一节中使用曲率进行解释。

3、将微扰差异解释为曲率

扰动差异近似于候选段落附近对数概率函数局部曲率的度量，更具体地说，它与对数概率函数的 Hessian 矩阵的负迹成正比。

猫目

AI工具导航与智能应用推荐

下载

这一节内容比较多，这里就不详细解释了，有兴趣的可以看看原论文，大概总结如下：

语义空间中的采样确保所有样本都保持在数据流形附近，因为如果随机添加扰动标记，预计对数概率总是下降。所以可以将目标解释为近似限制在数据流形上的曲率。

4、结果展示

零样本机器生成文本检测

每个实验使用150到500个例子进行评估。机器生成的文本是通过提示真实文本的前30个标记来生成的。使用AUROC)评估性能。

可以看到DetectGPT最大程度地提高了XSum故事的平均检测精度(AUROC提高0.1 )和SQuAD维基百科上下文(AUROC提高0.05 )。

对于15种数据集和模型组合中的14种，DetectGPT提供了最准确的检测性能，AUROC平均提高了0.06。

与有监督检测器的比较

在真实文本和生成文本的大型数据集上训练的有监督的机器生成文本检测模型在分布内(顶部行)文本上的表现与DetectGPT一样好，甚至更好。零样本方法适用于新域(底部一行)，如PubMed医学文本和WMT16中的德语新闻数据。

来自每个数据集的200个样本进行评估，监督检测器对英语新闻等分布内数据的检测性能与DetectGPT相似，但在英语科学写作的情况下，其表现明显差于零样本方法，而在德语写作中则完全失败。

DetectGPT检测GPT-3的平均AUROC与专门为机器生成文本检测训练的监督模型相当。

从PubMedQA、XSum和writingprompt数据集中抽取了150个示例。将两种预训练的基于roberta的检测器模型与DetectGPT和概率阈值基线进行了比较。DetectGPT 可以提供与更强大的监督模型竞争的检测。

机器生成文本检测的变体

这部分是看检测器是否可以检测到人工编辑的机器生成文本。通过用 T5–3B 中的样本替换文本的 5 个单词跨度来模拟人工修订，直到 r% 的文本被替换。即使模型样本中近四分之一的文本已被替换，DetectGPT 仍能将检测 AUROC 保持在 0.8 以上。DetectGPT 显示了所有修订级别的最强检测性能。

千问AI的“表格生成”功能有多智能？实测Excel处理

DeepSeek如何写MySql索引_DeepSeek数据库调优指南【干货】

KreaAI实时生成怎么调整强度_Krea控制滑块参数详解

DeepSeek代码重构_DeepSeek优化代码结构与性能【精通】

Kimi怎么整理录音_Kimi音频文件总结要点【整理】

相关专题

ChatGPT注册

ChatGPT注册方法：1、访问OpenAI的官方网站，进入注册页面；2、完成注册后收到一份邮件，打开后点击验证账号；3、选择一个适合您需求的订阅计划；4、获得访问ChatGPT的权限即可。

555

2023.09.12

国内免费ChatGPT大全

ChatGPT是一种基于深度学习技术的自然语言处理模型，由OpenAI开发。它是GPT的一个变体，专门设计用于生成上下文相关的文本回复。ChatGPT被训练成一个聊天机器人，可以与用户进行对话交互。更多关于ChatGPT的文章详情请查看本专题，希望对大家能有所帮助。

612

2023.10.25

手机安装chatgpt的方法

手机安装chatgpt的方法：1、在ChatGTP官网或手机商店上下载ChatGTP软件；2、打开后在设置界面中，选择语言为中文；3、在对局界面中，选择人机对局并设置中文相谱；4、开始后在聊天窗口中输入指令，即可与软件进行交互。想了解更多chatgpt的相关内容，可以阅读本专题下面的文章。

2995

2024.03.05

chatgpt国内可不可以使用

chatgpt在国内可以使用，但不能注册，港澳也不行，用户想要注册的话，可以使用国外的手机号进行注册，注意注册过程中要将网络环境切换成国外ip。想了解更多chatgpt的相关内容，可以阅读本专题下面的文章。

1083

2024.03.05

Golang 测试体系与代码质量保障：工程级可靠性建设

Go语言测试体系与代码质量保障聚焦于构建工程级可靠性系统。本专题深入解析Go的测试工具链（如go test）、单元测试、集成测试及端到端测试实践，结合代码覆盖率分析、静态代码扫描（如go vet）和动态分析工具，建立全链路质量监控机制。通过自动化测试框架、持续集成（CI）流水线配置及代码审查规范，实现测试用例管理、缺陷追踪与质量门禁控制，确保代码健壮性与可维护性，为高可靠性工程系统提供质量保障。

2026.02.28

Golang 工程化架构设计：可维护与可演进系统构建

Go语言工程化架构设计专注于构建高可维护性、可演进的企业级系统。本专题深入探讨Go项目的目录结构设计、模块划分、依赖管理等核心架构原则，涵盖微服务架构、领域驱动设计(DDD)在Go中的实践应用。通过实战案例解析接口抽象、错误处理、配置管理、日志监控等关键工程化技术，帮助开发者掌握构建稳定、可扩展Go应用的最佳实践方法。

2026.02.28

Golang 性能分析与运行时机制：构建高性能程序

Go语言以其高效的并发模型和优异的性能表现广泛应用于高并发、高性能场景。其运行时机制包括 Goroutine 调度、内存管理、垃圾回收等方面，深入理解这些机制有助于编写更高效稳定的程序。本专题将系统讲解 Golang 的性能分析工具使用、常见性能瓶颈定位及优化策略，并结合实际案例剖析 Go 程序的运行时行为，帮助开发者掌握构建高性能应用的关键技能。

2026.02.28