跳到主要内容

用量与模型表现

当一次任务变贵、变慢或结果开始不稳定时,先看用量面板。Memfit 会把模型调用过程中的输入、输出、缓存、上下文压力和速度数据展示出来,帮助你判断问题发生在上下文、模型选择、网络连接,还是任务本身。

【配图:AIContextToken 用量详情面板,标注 Total Input、Total Output、Cache、Pressure、Speed、Tier Consumption】

打开用量面板

在 Agent 对话页执行任务后,找到模型/用量入口,打开当前会话的用量详情。一次完整任务可能包含多轮模型调用,所以建议同时观察“单次调用”和“整段任务”的统计。

重点看这些指标:

指标说明看到异常时怎么处理
Total Input本次调用送入模型的 token。过高时缩小任务范围、减少挂载资料、拆分任务。
Total Output模型生成的 token。过高时要求输出表格、摘要或固定模板。
Cache被模型缓存复用的输入 token。命中低时检查上下文是否频繁变化。
Pressure当前上下文接近模型限制的程度。压力高时删除无关上下文,或换更大上下文模型。
Speed首 token、总耗时或吞吐速度。抖动大时对比模型、网络、代理和上下文大小。
Tier Consumption高质、轻量、视觉等模型层级的消耗。判断调用模式是否把简单任务交给了过重模型。

如何理解缓存

缓存不是“结果缓存”,而是模型服务对重复输入片段的复用。它通常对稳定的系统提示词、长期上下文、重复的知识库片段更有效;如果你每一轮都大幅改变上下文,缓存命中会下降。

【配图:缓存命中对比图,左侧为稳定上下文高命中,右侧为频繁改上下文低命中】

缓存低时按这个顺序排查:

  1. 查看是否每轮都挂载了不同文件、不同知识库或大段临时文本。
  2. 检查是否在任务中反复要求 Agent 重写完整背景资料。
  3. 确认是否频繁切换模型供应商或模型层级。
  4. 把稳定规则放到全局上下文,把临时要求放到本轮消息。

适合缓存的内容:

团队代码规范、固定输出格式、安全审计边界、长期项目背景。

不适合缓存的内容:

每轮变化的日志、一次性粘贴的大文件、临时调试输出、不断重写的任务描述。

查看缓存排查优化图

在用量详情里查看缓存相关图表。如果图里 Input 很高但 Cache 很低,通常说明“送进去的东西很多,但可复用的部分少”。如果 Cache 高但 Total Input 仍然高,说明上下文可以复用,但上下文本身仍然过大。

【配图:缓存排查优化图,标注 Input、Cache Hit、Uncached Input、Pressure 的关系】

可以这样判断:

图表表现可能原因优化动作
Input 高、Cache 低临时文本太多,或上下文变化太频繁。精简本轮输入,把长期规则移到全局上下文。
Input 高、Cache 高、Pressure 高上下文稳定但体积太大。拆任务、减少知识库挂载、只保留必要文件。
Output 高输出要求过宽,模型在写长解释。规定输出字段、长度和格式。
Tier Consumption 偏高调用模式过重或高质模型参与太多。回到基础配置调整高质/轻量模型和调用模式。

如何分析抖动

抖动指同类任务的耗时或输出质量忽高忽低。分析时不要只看一次调用,至少比较 3 次相似任务。

【配图:模型速度抖动分析图,展示首 token 耗时、总耗时、Pressure、Input 的多次对比】

常见抖动来源:

现象判断方法处理方式
首 token 慢,但后续生成正常首 token 时间升高,总输出速度正常。检查模型供应商、网络代理、服务排队。
总耗时慢,Output 很高输出 token 明显变多。限制输出长度,要求先给结论再给证据。
Pressure 高时更慢压力升高和耗时升高同时出现。缩小上下文,减少知识库或文件挂载。
同一任务结果风格飘输入约束不稳定,或 Review 中多次改方向。固定输出模板,把长期规则放进全局上下文。
简单任务也调用高质模型Tier Consumption 中高质模型占比异常。检查调用模式,简单任务改用轻量模型。

降低成本的操作方法

从最有效的动作开始:

  1. 明确目录、文件、知识库范围,例如“只分析 src/auth”。
  2. 要求固定输出格式,例如“输出表格,不写背景介绍”。
  3. 把大任务拆成多次小任务,不要一次要求“分析整个项目并修复所有问题”。
  4. 对简单问答使用轻量模型,对高风险推理保留高质模型。
  5. 保留 Review,让你能在工具调用前发现无关操作。

示例提示词:

只分析 src/auth 目录。输出一个表格:风险、证据文件、原因、修复建议。
不要输出与认证无关的内容,不要生成背景介绍。

什么时候回到基础配置

如果你已经确认问题来自模型层级、压力阈值或 Review 策略,回到 基础配置与自定义 AI 配置 调整:

想优化什么回到基础配置调整什么
简单任务太贵轻量模型、调用模式
复杂任务质量不稳高质模型、Review 规则
上下文经常接近上限压力 token 阈值、模型上下文大小
工具调用太激进Review 规则、风险阈值、禁用工具运行时 AI 审查

下一步

如果指标显示 Agent 不是“慢”或“贵”,而是执行方向不对,继续阅读 人工干预与上下文修改