0

0

测试 LLM 应用程序:模拟 SDK 与直接 HTTP 请求中的不幸事件

霞舞

霞舞

发布时间:2024-11-11 17:45:02

|

973人浏览过

|

来源于dev.to

转载

测试 llm 应用程序:模拟 sdk 与直接 http 请求中的不幸事件

介绍

让我在这篇博客的前言中说,这个与我的其他博客不同,在这些博客中我能够逐步完成完成任务的步骤。相反,这更多地反映了我在尝试向我的项目 gimme_readme 添加测试时遇到的挑战,以及我在此过程中学到的关于测试 llm 支持的应用程序的知识。

背景

本周,我和我的开源开发同学的任务是向包含大型语言模型 (llm) 的命令行工具添加测试。乍一看这似乎很简单,但它让我陷入了一个我没有预料到的测试复杂性的兔子洞。

我的测试之旅

最初的方法

当我第一次构建 gimme_readme 时,我使用 jest.js 添加了一些基本测试。这些测试相当简单,主要关注:

  • 验证函数输出
  • 检查基本错误处理
  • 测试简单的实用函数

虽然这些测试提供了一些覆盖范围,但它们并没有测试我的申请中最关键的部分之一:llm 交互。

挑战:测试 llm 交互

当我尝试添加更全面的测试时,我对我的应用程序如何与法学硕士进行通信有了一个有趣的认识。最初,我认为可以使用 nock.js 来模拟对这些语言模型的 http 请求。毕竟,这就是 nock 的擅长之处 - 拦截和模拟 http 请求以进行测试。

但是,我发现我使用llm的方式让我很难使用nock编写测试。

sdk 与直接 http 请求的困境

这就是事情变得有趣的地方。我的应用程序使用 llm 服务(例如 google 的 gemini 和 groq)提供的官方 sdk 客户端。这些 sdk 充当抽象层,在幕后处理所有 http 通信。虽然这使得代码更干净、更容易在生产中使用,但它带来了有趣的测试挑战。

考虑这两种实现 llm 功能的方法:

Spacely AI
Spacely AI

为您的房间提供AI室内设计解决方案,寻找无限的创意

下载
// Approach 1: Using SDK
const groq = new Groq({ apiKey });
const response = await groq.chat.completions.create({
  messages: [{ role: "user", content: prompt }],
  model: "mixtral-8x7b-32768"
});

// Approach 2: Direct HTTP requests
const response = await fetch('https://api.groq.com/v1/completions', {
  method: 'POST',
  headers: {
    'Authorization': `Bearer ${apiKey}`,
    'Content-Type': 'application/json'
  },
  body: JSON.stringify({
    messages: [{ role: "user", content: prompt }],
    model: "mixtral-8x7b-32768"
  })
});

sdk 方法更简洁,提供了更好的开发人员体验,但它使得像 nock 这样的传统 http 模拟工具不太有用。 http 请求发生在 sdk 内部,这使得它们更难被 nock 拦截

经验教训

  1. 尽早考虑测试策略:在 sdk 和直接 http 请求之间进行选择时,请考虑如何测试实现。有时,“更干净”的生产代码可能会使测试更具挑战性。

  2. sdk 测试需要不同的工具:使用 sdk 时,需要在 sdk 级别而不是 http 级别进行模拟。这意味着:

    • 模拟整个 sdk 客户端
    • 专注于 sdk 的接口而不是 http 请求
    • 使用 jest 的模块模拟​​功能而不是 http 拦截器
  3. 便利性和可测试性之间的平衡:虽然 sdk 提供了出色的开发人员体验,但它们可能会使某些测试方法变得更加困难。在构建应用程序时值得考虑这种权衡。

前进

虽然我还没有完全解决我的测试挑战,但这段经历教会了我关于通过 sdk 测试依赖于外部服务的应用程序的宝贵经验。对于构建类似应用程序的任何人,我建议:

  1. 在 sdk 和直接 api 调用之间进行选择时考虑测试策略
  2. 如果使用 sdk,请计划在 sdk 级别而不是 http 级别进行模拟
  3. 考虑在 sdk 周围编写薄包装器,使它们更易于测试
  4. 为可能参与该项目的其他人记录测试方法

结论

测试 llm 应用程序带来了独特的挑战,特别是在平衡 sdk 等现代开发便利性与彻底测试的需要时。虽然我仍在努力提高 gimme_readme 的测试覆盖率,但这次经历让我更好地了解了如何在涉及外部服务和 sdk 的未来项目中进行测试。

还有其他人在测试使用 llm sdk 的应用程序时遇到过类似的挑战吗?我很想在评论中听到您的经验和解决方案!

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
硬盘接口类型介绍
硬盘接口类型介绍

硬盘接口类型有IDE、SATA、SCSI、Fibre Channel、USB、eSATA、mSATA、PCIe等等。详细介绍:1、IDE接口是一种并行接口,主要用于连接硬盘和光驱等设备,它主要有两种类型:ATA和ATAPI,IDE接口已经逐渐被SATA接口;2、SATA接口是一种串行接口,相较于IDE接口,它具有更高的传输速度、更低的功耗和更小的体积;3、SCSI接口等等。

1607

2023.10.19

PHP接口编写教程
PHP接口编写教程

本专题整合了PHP接口编写教程,阅读专题下面的文章了解更多详细内容。

463

2025.10.17

php8.4实现接口限流的教程
php8.4实现接口限流的教程

PHP8.4本身不内置限流功能,需借助Redis(令牌桶)或Swoole(漏桶)实现;文件锁因I/O瓶颈、无跨机共享、秒级精度等缺陷不适用高并发场景。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2300

2025.12.29

java接口相关教程
java接口相关教程

本专题整合了java接口相关内容,阅读专题下面的文章了解更多详细内容。

40

2026.01.19

js正则表达式
js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法,还有更多js正则表达式的相关文章、相关下载、相关课程,供大家免费下载体验。

524

2023.06.20

js获取当前时间
js获取当前时间

JS全称JavaScript,是一种具有函数优先的轻量级,解释型或即时编译型的编程语言;它是一种属于网络的高级脚本语言,主要用于Web,常用来为网页添加各式各样的动态功能。js怎么获取当前时间呢?php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

454

2023.07.28

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

618

2023.08.03

js是什么意思
js是什么意思

JS是JavaScript的缩写,它是一种广泛应用于网页开发的脚本语言。JavaScript是一种解释性的、基于对象和事件驱动的编程语言,通常用于为网页增加交互性和动态性。它可以在网页上实现复杂的功能和效果,如表单验证、页面元素操作、动画效果、数据交互等。

5736

2023.08.17

pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法
pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式,涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明,帮助用户高效找到pixiv官方网站,实现便捷、安全的网页端浏览与账号登录体验。

1127

2026.02.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
10分钟--Midjourney创作自己的漫画
10分钟--Midjourney创作自己的漫画

共1课时 | 0.1万人学习

Midjourney 关键词系列整合
Midjourney 关键词系列整合

共13课时 | 0.9万人学习

AI绘画教程
AI绘画教程

共2课时 | 0.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号