AI 代码能力雷达v1.0

综合仪表盘编码排行榜排行榜回放模型 PK 对比 Codex 状态关于

关于 & 数据服务说明

解析大模型“代码能力雷达”底层的评测原理、降智预测依据及数据机制。

1. 评测指标与异常扣分机制

本系统是一项专业的针对大语言模型在软件开发与 I/O 交互中的编码质量评测基准。系统通过设定沙盒任务（当前评测场景为 go_process_documents），监控大语言模型的行为合规度，并在此基础上对分值进行扣减或额外奖励：

异常扣分前缀 (H/S)：H前缀（如 H13/H16/H24）代表严重的硬件级或实现性架构错误（例如：文件流未关闭锁死、非标准序列化错误、死循环、OOM等），单项重扣 10 至 15 分；S前缀（如 S1）代表效率及风格缺陷（例如：缩进冗长、Token 使用率低、并发过载等），单项扣 5 分。
高阶加分前缀 (B)：B前缀（如 B1/B2）代表杰出的软件范式与工程预判（例如：预读覆盖率达到 100%、并发通道自动熔断保护等），单项奖励 10 至 15 分。
分数标准化 (Normalized Score)：由于原始分包含正负附加奖励，最终数值被标准化为百分制，能真实客观地反映模型的稳定性。

2. Codex 降智阈值与重置预测

系统内置了一套高频监控 Codex（及主流闭源 API）每日额度轮询释放、并发挤占的监控机制：

降智周期 (Limit Tightening)：在高频自动化智能体（如 TIBO 机器人）或并发请求过载的黄金时段，闭源 API 会静默收紧单个连接的 Token 窗口和推理深度，表征为逻辑短路、代码重复或严重降智。
额度重置 (Limit Reset)：一旦时区轮转或服务器释放出冗余资源，系统会全面重置限制，恢复其正常的高阶 IQ 水准。