大模型时代如何捕捉不良内容？欧盟法案要求AI公司确保用户知情权

PHPz

发布时间：2023-05-27 14:05:47

1653人浏览过

来源于搜狐

转载

在过去的 10 年里，大型科技公司在许多技术上变得非常擅长：语言、预测、个性化、存档、文本解析和数据处理。但它们在捕捉、标记和删除有害内容方面仍然十分糟糕。对于在美国传播的选举和疫苗阴谋论，只需回顾过去两年的事件，就能了解它们对现实世界造成的危害。

这种差异引发了一些问题。为什么科技公司在内容审核方面没有改进？他们可以被迫这么做吗？人工智能的新进展会提高我们捕捉不良信息的能力吗？

大多数情况下，当科技公司被美国国会要求对传播仇恨和错误信息做出解释时，它们往往会把自己失败的原因归咎于语言本身的复杂性。高管们表示，在不同语言和背景下理解和防止上下文相关的仇恨言论是一项难度很大的任务。

马克·扎克伯格（Mark Zuckerberg）最喜欢说的一句话是，科技公司不应该承担解决世界上所有政治问题的责任。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

（来源：STEPHANIE ARNETT/MITTR | GETTY IMAGES）

大多数公司目前同时使用技术和人工内容审核员，后者的工作被低估了，这反映在他们微薄的薪酬上。

例如，在 Facebook 上删除的所有内容中，人工智能目前负责了 97%。

然而，斯坦福互联网观测站的研究经理蕾妮·迪雷斯塔（Renee DiResta）说，人工智能并不擅长解释细微差别和背景，所以它不可能完全取代人类内容审查员，即使人类也不总是擅长解释这些事情。

由于自动内容审核系统通常是根据英文数据进行训练的，因此文化背景和语言也会带来挑战，难以有效处理其他语言的内容。

哈尼·法里德教授于加州大学伯克利分校信息学院提供了一个更为明显的解释。据法里德所言，由于内容审核不符合科技公司的经济利益，因此它没有跟上风险的发展。这一切都与贪婪有关。别再假装这不是钱的问题了。”

由于联邦监管的缺失，网络暴力的受害者很难要求平台承担经济责任。

内容审核似乎是科技公司和不良行为者之间一场永无止境的战争。当科技公司推出内容监管规则时，不良行为者通常会使用表情符号或故意拼写错误来避免被检测。然后这些公司试图堵住漏洞，人们再寻找新的漏洞，如此循环往复。

大模型时代如何捕捉不良内容？欧盟法案要求AI公司确保用户知情权

现在，大型语言模型来了......

现在的处境已经很难了。随着生成式人工智能和ChatGPT等大型语言模型的出现，情况可能会更加恶劣。生成式技术也有问题——比如，它倾向于自信地编造一些事情，并把它们作为事实呈现出来——但有一点是明确的：人工智能在语言方面越来越强大了，非常强大。

虽然迪雷斯塔和法里德都很谨慎，但他们认为现在还为时过早去做出对事情如何发展的判断。尽管许多像 GPT-4 和 Bard 这样的大模型都有内置的内容审核过滤器，但它们仍然可能产生有毒的输出，比如仇恨言论或如何制造炸弹的指令。

生成式人工智能可使坏人在更大规模和更快速度上进行虚假信息欺骗活动。考虑到人工智能生成内容的识别和标记方法严重不足，这个情况非常可怕。

小微助手

微信推出的一款专注于提升桌面效率的助手型AI工具

下载

另一方面，最新的大型语言模型在文本解释方面比之前的人工智能系统要表现得更出色。理论上，它们可以用来促进自动内容审核的发展。

科技公司需要投资重新设计大型语言模型，以实现这一特定目标。尽管微软等公司已开始研究此事，但尚未出现引人注目的活动。

法里德表示：“尽管我们已经看到了许多技术进步，但我对内容审核方面的任何改进都持怀疑态度。”

尽管大型语言模型发展迅速，但它们依然面临上下文理解方面的挑战，这可能导致它们无法像人类审核员那样准确地理解帖子和图像之间的微小差别。跨文化的可扩展性和特殊性也带来了问题。“你会针对特定类型的小众市场部署一种模型吗？是按国家划分的吗？是按社区来做的吗？这不是一个放之四海而皆准的问题，”迪雷斯塔说。

大模型时代如何捕捉不良内容？欧盟法案要求AI公司确保用户知情权

基于新技术的新工具

生成式人工智能最终对在线信息领域是有害还是有益，可能在很大程度上取决于科技公司能否拿出好的、被广泛采用的工具来告诉我们内容是否是由人工智能生成的。

迪雷斯塔告诉我说，检测合成介质可能是需要优先考虑的一项技术挑战，因为这很有挑战性。这包括像数字水印这样的方法，它指的是嵌入一段代码，作为一种永久性的标记，表明附加的内容是由人工智能制作的。用于检测人工智能生成或操纵的帖子的自动化工具很有吸引力，因为与水印不同，它们不需要人工智能生成内容的创建者主动标记。换句话说，目前尝试识别机器生成内容的工具的表现还不够出色。

一些公司甚至提出了使用数学来安全地记录信息的加密签名，比如一段内容是如何产生的，但这将依赖于像水印这样的自愿披露技术。

欧盟上周刚刚提出的最新版《人工智能法案》（AI Act）要求，使用生成式人工智能的公司要在内容确实是由机器生成时通知用户。在未来几个月，我们可能会听到更多有关新兴工具的消息，因为对人工智能生成内容透明度的需求正在增加。

支持：Ren

原文：

https：//www.technologyreview.com/2023/05/15/1073019/catching-bad-content-in-the-age-of-ai/

SongGeneration 2— 腾讯联合清华开源的音乐生成模型

Ollama如何下载热门大模型_Ollama模型安装方法【教程】

AnythingLLM如何实现文档问答_AnythingLLM问答系统搭建方法【教程】

QClaw怎么用一步API接入更多模型_QClaw第三方API适配与密钥配置【指南】

Gemini镜像站：OpenClaw的第一批受害者已经出现了！

相关专题

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

276

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

105

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

230

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

619

2026.03.04