关于 & 数据服务说明

解析大模型“代码能力雷达”底层的评测原理、降智预测依据及数据机制。

1. 评测指标与异常扣分机制

本系统是一项专业的针对大语言模型在软件开发与 I/O 交互中的编码质量评测基准。系统通过设定沙盒任务(当前评测场景为 go_process_documents),监控大语言模型的行为合规度,并在此基础上对分值进行扣减或额外奖励:

  • 异常扣分前缀 (H/S)H前缀(如 H13/H16/H24)代表严重的硬件级或实现性架构错误(例如:文件流未关闭锁死、非标准序列化错误、死循环、OOM等),单项重扣 10 至 15 分;S前缀(如 S1)代表效率及风格缺陷(例如:缩进冗长、Token 使用率低、并发过载等),单项扣 5 分。
  • 高阶加分前缀 (B)B前缀(如 B1/B2)代表杰出的软件范式与工程预判(例如:预读覆盖率达到 100%、并发通道自动熔断保护等),单项奖励 10 至 15 分。
  • 分数标准化 (Normalized Score): 由于原始分包含正负附加奖励,最终数值被标准化为百分制,能真实客观地反映模型的稳定性。

2. Codex 降智阈值与重置预测

系统内置了一套高频监控 Codex(及主流闭源 API)每日额度轮询释放、并发挤占的监控机制:

  • 降智周期 (Limit Tightening): 在高频自动化智能体(如 TIBO 机器人)或并发请求过载的黄金时段,闭源 API 会静默收紧单个连接的 Token 窗口和推理深度,表征为逻辑短路、代码重复或严重降智。
  • 额度重置 (Limit Reset): 一旦时区轮转或服务器释放出冗余资源,系统会全面重置限制,恢复其正常的高阶 IQ 水准。