跳到主要内容

用量与模型表现

当一次任务变贵、变慢或结果开始不稳定时，先看用量面板。Memfit 会把模型调用过程中的输入、输出、缓存、上下文压力和速度数据展示出来，帮助你判断问题发生在上下文、模型选择、网络连接，还是任务本身。

【配图：AIContextToken 用量详情面板，标注 Total Input、Total Output、Cache、Pressure、Speed、Tier Consumption】

打开用量面板

在 Agent 对话页执行任务后，找到模型/用量入口，打开当前会话的用量详情。一次完整任务可能包含多轮模型调用，所以建议同时观察“单次调用”和“整段任务”的统计。

重点看这些指标：

指标	说明	看到异常时怎么处理
Total Input	本次调用送入模型的 token。	过高时缩小任务范围、减少挂载资料、拆分任务。
Total Output	模型生成的 token。	过高时要求输出表格、摘要或固定模板。
Cache	被模型缓存复用的输入 token。	命中低时检查上下文是否频繁变化。
Pressure	当前上下文接近模型限制的程度。	压力高时删除无关上下文，或换更大上下文模型。
Speed	首 token、总耗时或吞吐速度。	抖动大时对比模型、网络、代理和上下文大小。
Tier Consumption	高质、轻量、视觉等模型层级的消耗。	判断调用模式是否把简单任务交给了过重模型。

如何理解缓存

缓存不是“结果缓存”，而是模型服务对重复输入片段的复用。它通常对稳定的系统提示词、长期上下文、重复的知识库片段更有效；如果你每一轮都大幅改变上下文，缓存命中会下降。

【配图：缓存命中对比图，左侧为稳定上下文高命中，右侧为频繁改上下文低命中】

缓存低时按这个顺序排查：

查看是否每轮都挂载了不同文件、不同知识库或大段临时文本。
检查是否在任务中反复要求 Agent 重写完整背景资料。
确认是否频繁切换模型供应商或模型层级。
把稳定规则放到全局上下文，把临时要求放到本轮消息。

适合缓存的内容：

团队代码规范、固定输出格式、安全审计边界、长期项目背景。

不适合缓存的内容：

每轮变化的日志、一次性粘贴的大文件、临时调试输出、不断重写的任务描述。

查看缓存排查优化图

在用量详情里查看缓存相关图表。如果图里 Input 很高但 Cache 很低，通常说明“送进去的东西很多，但可复用的部分少”。如果 Cache 高但 Total Input 仍然高，说明上下文可以复用，但上下文本身仍然过大。

【配图：缓存排查优化图，标注 Input、Cache Hit、Uncached Input、Pressure 的关系】

可以这样判断：

图表表现	可能原因	优化动作
Input 高、Cache 低	临时文本太多，或上下文变化太频繁。	精简本轮输入，把长期规则移到全局上下文。
Input 高、Cache 高、Pressure 高	上下文稳定但体积太大。	拆任务、减少知识库挂载、只保留必要文件。
Output 高	输出要求过宽，模型在写长解释。	规定输出字段、长度和格式。
Tier Consumption 偏高	调用模式过重或高质模型参与太多。	回到基础配置调整高质/轻量模型和调用模式。

如何分析抖动

抖动指同类任务的耗时或输出质量忽高忽低。分析时不要只看一次调用，至少比较 3 次相似任务。

【配图：模型速度抖动分析图，展示首 token 耗时、总耗时、Pressure、Input 的多次对比】

常见抖动来源：

现象	判断方法	处理方式
首 token 慢，但后续生成正常	首 token 时间升高，总输出速度正常。	检查模型供应商、网络代理、服务排队。
总耗时慢，Output 很高	输出 token 明显变多。	限制输出长度，要求先给结论再给证据。
Pressure 高时更慢	压力升高和耗时升高同时出现。	缩小上下文，减少知识库或文件挂载。
同一任务结果风格飘	输入约束不稳定，或 Review 中多次改方向。	固定输出模板，把长期规则放进全局上下文。
简单任务也调用高质模型	Tier Consumption 中高质模型占比异常。	检查调用模式，简单任务改用轻量模型。

降低成本的操作方法

从最有效的动作开始：

明确目录、文件、知识库范围，例如“只分析 src/auth”。
要求固定输出格式，例如“输出表格，不写背景介绍”。
把大任务拆成多次小任务，不要一次要求“分析整个项目并修复所有问题”。
对简单问答使用轻量模型，对高风险推理保留高质模型。
保留 Review，让你能在工具调用前发现无关操作。

示例提示词：

只分析 src/auth 目录。输出一个表格：风险、证据文件、原因、修复建议。
不要输出与认证无关的内容，不要生成背景介绍。

什么时候回到基础配置

如果你已经确认问题来自模型层级、压力阈值或 Review 策略，回到基础配置与自定义 AI 配置调整：

想优化什么	回到基础配置调整什么
简单任务太贵	轻量模型、调用模式
复杂任务质量不稳	高质模型、Review 规则
上下文经常接近上限	压力 token 阈值、模型上下文大小
工具调用太激进	Review 规则、风险阈值、禁用工具运行时 AI 审查

下一步

如果指标显示 Agent 不是“慢”或“贵”，而是执行方向不对，继续阅读人工干预与上下文修改。

打开用量面板
如何理解缓存
查看缓存排查优化图
如何分析抖动
降低成本的操作方法
什么时候回到基础配置
下一步