用量与模型表现
当一次任务变贵、变慢或结果开始不稳定时,先看用量面板。Memfit 会把模型调用过程中的输入、输出、缓存、上下文压力和速度数据展示出来,帮助你判断问题发生在上下文、模型选择、网络连接,还是任务本身。
【配图:AIContextToken 用量详情面板,标注 Total Input、Total Output、Cache、Pressure、Speed、Tier Consumption】
打开用量面板
在 Agent 对话页执行任务后,找到模型/用量入口,打开当前会话的用量详情。一次完整任务可能包含多轮模型调用,所以建议同时观察“单次调用”和“整段任务”的统计。
重点看这些指标:
| 指标 | 说明 | 看到异常时怎么处理 |
|---|---|---|
| Total Input | 本次调用送入模型的 token。 | 过高时缩小任务范围、减少挂载资料、拆分任务。 |
| Total Output | 模型生成的 token。 | 过高时要求输出表格、摘要或固定模板。 |
| Cache | 被模型缓存复用的输入 token。 | 命中低时检查上下文是否频繁变化。 |
| Pressure | 当前上下文接近模型限制的程度。 | 压力高时删除无关上下文,或换更大上下文模型。 |
| Speed | 首 token、总耗时或吞吐速度。 | 抖动大时对比模型、网络、代理和上下文大小。 |
| Tier Consumption | 高质、轻量、视觉等模型层级的消耗。 | 判断调用模式是否把简单任务交给了过重模型。 |
如何理解缓存
缓存不是“结果缓存”,而是模型服务对重复输入片段的复用。它通常对稳定的系统提示词、长期上下文、重复的知识库片段更有效;如果你每一轮都大幅改变上下文,缓存命中会下降。
【配图:缓存命中对比图,左侧为稳定上下文高命中,右侧为频繁改上下文低命中】
缓存低时按这个顺序排查:
- 查看是否每轮都挂载了不同文件、不同知识库或大段临时文本。
- 检查是否在任务中反复要求 Agent 重写完整背景资料。
- 确认是否频繁切换模型供应商或模型层级。
- 把稳定规则放到全局上下文,把临时要求放到本轮消息。
适合缓存的内容:
团队代码规范、固定输出格式、安全审计边界、长期项目背景。
不适合缓存的内容:
每轮变化的日志、一次性粘贴的大文件、临时调试输出、不断重写的任务描述。
查看缓存排查优化图
在用量详情里查看缓存相关图表。如果图里 Input 很高但 Cache 很低,通常说明“送进去的东西很多,但可复用的部分少”。如果 Cache 高但 Total Input 仍然高,说明上下文可以复用,但上下文本身仍然过大。
【配图:缓存排查优化图,标注 Input、Cache Hit、Uncached Input、Pressure 的关系】
可以这样判断:
| 图表表现 | 可能原因 | 优化动作 |
|---|---|---|
| Input 高、Cache 低 | 临时文本太多,或上下文变化太频繁。 | 精简本轮输入,把长期规则移到全局上下文。 |
| Input 高、Cache 高、Pressure 高 | 上下文稳定但体积太大。 | 拆任务、减少知识库挂载、只保留必要文件。 |
| Output 高 | 输出要求过宽,模型在写长解释。 | 规定输出字段、长度和格式。 |
| Tier Consumption 偏高 | 调用模式过重或高质模型参与太多。 | 回到基础配置调整高质/轻量模型和调用模式。 |
如何分析抖动
抖动指同类任务的耗时或输出质量忽高忽低。分析时不要只看一次调用,至少比较 3 次相似任务。
【配图:模型速度抖动分析图,展示首 token 耗时、总耗时、Pressure、Input 的多次对比】
常见抖动来源:
| 现象 | 判断方法 | 处理方式 |
|---|---|---|
| 首 token 慢,但后续生成正常 | 首 token 时间升高,总输出速度正常。 | 检查模型供应商、网络代理、服务排队。 |
| 总耗时慢,Output 很高 | 输出 token 明显变多。 | 限制输出长度,要求先给结论再给证据。 |
| Pressure 高时更慢 | 压力升高和耗时升高同时出现。 | 缩小上下文,减少知识库或文件挂载。 |
| 同一任务结果风格飘 | 输入约束不稳定,或 Review 中多次改方向。 | 固定输出模板,把长期规则放进全局上下文。 |
| 简单任务也调用高质模型 | Tier Consumption 中高质模型占比异常。 | 检查调用模式,简单任务改用轻量模型。 |
降低成本的操作方法
从最有效的动作开始:
- 明确目录、文件、知识库范围,例如“只分析
src/auth”。 - 要求固定输出格式,例如“输出表格,不写背景介绍”。
- 把大任务拆成多次小任务,不要一次要求“分析整个项目并修复所有问题”。
- 对简单问答使用轻量模型,对高风险推理保留高质模型。
- 保留 Review,让你能在工具调用前发现无关操作。
示例提示词:
只分析 src/auth 目录。输出一个表格:风险、证据文件、原因、修复建议。
不要输出与认证无关的内容,不要生成背景介绍。
什么时候回到基础配置
如果你已经确认问题来自模型层级、压力阈值或 Review 策略,回到 基础配置与自定义 AI 配置 调整:
| 想优化什么 | 回到基础配置调整什么 |
|---|---|
| 简单任务太贵 | 轻量模型、调用模式 |
| 复杂任务质量不稳 | 高质模型、Review 规则 |
| 上下文经常接近上限 | 压力 token 阈值、模型上下文大小 |
| 工具调用太激进 | Review 规则、风险阈值、禁用工具运行时 AI 审查 |
下一步
如果指标显示 Agent 不是“慢”或“贵”,而是执行方向不对,继续阅读 人工干预与上下文修改。