跳转至

模型对比-提纲工作流

这是什么

记录一下我的写提纲工作流在各模型下的对比,今天是 2026 年 6 月 23 日,正好上架了 Doubao 2.1,就来对比下。

我个人认为,我工作中最重要的两个工作流就是这个写提纲的工作流和产生分镜的工作流。但产生分镜的工作流约束条件极多,只要模型指令遵循能力强,差别都不大。而这个根据提供的材料列出提纲的工作流才是最需要大模型文科能力的。

为了简洁表示,直接给出最后的最终排名,评价时使用 DeepSeek v4 Pro 进行。

PS:解释一下 Opus 为什么用 4.6,因为 4.7 和 4.8 的效果均不如 4.6。另外测试过 Fable 5,总评能到 94 分,但现在用不了了。

最终排名

Tier 1(可胜任)
  Opus 4.6              92分  🥇
  GLM 5.2               88分  🥈

Tier 2(差一口气)
  Doubao 2.1 Pro        83分  🥉

Tier 3(不适合)
  GPT 5.5               79分  ④
  DeepSeek v4 Pro       78分  ⑤
  Kimi 2.7 code         68分  ⑥
维度 Opus 4.6 GLM 5.2 Doubao 2.1 Pro GPT 5.5 DeepSeek v4 Pro Kimi 2.7 code
叙事逻辑 (×2) 100 92 82 85 75 65
比喻质量 (×2) 90 95 78 75 78 75
收尾质量 (×1.5) 88 92 86 80 82 80
安全策略 (×1) 95 75 85 78 72 82
参谋价值 (×1) 95 80 90 72 80 82
风格贴合 (×1.5) 88 90 83 80 82 85
AI 味控制 (×1) 90 85 82 78 80 90

六模型能力画像

Opus 4.6        叙事编织者    逻辑最清、节奏最准、安全最周到
GLM 5.2         比喻爆发手    金句最多、人味最浓、收尾最有回味
Doubao 2.1      最会当参谋    实操建议最强、彩蛋灵活、讲故事偏赶
GPT 5.5         安全答卷人    四平八稳、正确但不出彩、AI味偏重
DeepSeek v4 Pro 结构工程师    格式规范、规则遵循强、创意编织是短板
Kimi 2.7 code   评分裁判员    客观敢打低分、叙事编织有明显硬伤
📖 本文阅读量 加载中... | 🌐 全站访问 加载中...

评论