QA
幻觉
Q:目前的AI生成用例存在“幻觉”(生成不存在的逻辑)或“不合规”问题。
在你的AI平台改造中,你提到的‘用例规范’和‘前处理/后处理逻辑’具体是如何通过技术手段约束LLM输出的?
A:前置注入、中置约束、后置校验
1.前置注入
模型直接生成的用例脱离业务背景,针对此引入业务提示词,不同业务线根据需要切换。
更理想的做法:引入RAG机制,让平台先去内部知识库(包含已有的PRD、历史高价值用例、API定义)中检索相关的Top-K片段。
2.中置约束
针对输出格式随意,无法用于后续导入metersphere的问题。
- 给例子,提供标准用例包含的字段、规范及要求。
- 限制返回json格式的结构化数据,并搭配专用清洗函数(处理模型可能返回的不规范响应(如包含思考过程、Markdown标记等))。
3.后置校验
缺少,目前以人工审查方式进行
更理想的做法:
- 通过脚本校验:针对步骤乱序、或者缺少关键要素
- 自纠错:生成的用例喂给另一个逻辑能力更强的模型(如
DeepSeek V3或GPT-4),设置专门的评审提示词,并输出修正意见。
信号量并发控制
Q:信号量并发控制在AI平台是怎么用的?做了什么错误处理机制?
A:因为LLM API有频率限制,因此通过Python的asyncio.Semaphore(10)来限制同时运行的协程数量,确保在不打爆API额度的前提下实现最大吞吐量。
错误处理机制:
- 失败重试: 超时、api调用失败、内容质量不合格(空白或过短)、json格式错误、ai服务端异常,每步AI调用都有10次重试机会,间隔5秒。
- 系统异常: 事务回滚和状态更新
- 数据验证: 多层次的数据校验
- 任务太多时执行异常:前端页面加入防抖机制(Debounce),200ms防抖;后端以信号量控制并发。