让 AI 来玩我自己的游戏:构建 agentic 测试夹具辅助 playtesting

查看原文 HN 讨论

文章摘要

作者(HN 上 ID 为 fishtoaster)独立开发的游戏叫 Crossword Dungeon,是一款把字谜跟 RPG 地下城结合的回合制文字冒险——纵横字谜的每个字母对应一个房间,房间里可能藏着宝藏、陷阱或怪物,解开字谜则会”升级”相邻房间的难度,把”填字”和”练级”这两种机制变成相互制约的设计。

问题:他用 AI 辅助开发的工作流已经很顺,但每次迭代都要花大量时间手动 playtest——单元测试通过 ≠ 手感对、状态机正确、边界条件不出 bug。他决定把”playtest”本身也交给 AI agent。

Agent 架构(关键工程决策):

模型与成本:使用 Claude Code v2.1.119 + Sonnet 4.6(Claude Pro 订阅),最长一次 playtest 会话约 120k–135k tokens(200k 上限)。一次完整的”5 个新敌人 + 完整 playtest”里程碑用时 12 分 34 秒。

找到的真实 bug 案例(这是最有说服力的部分):

AI vs 人类测试的边界

踩过的坑

升级路径

最初:让 AI 自由探索游戏(信号弱)
→ 中期:AI 自己设计 fixture(开始对路)
→ 终态:分配 milestone,要求每个 feature 完成前自我 playtest 验证(自主质量守护)

核心结论:对回合制 + 文字密集的游戏,agentic playtest 是当下立即可落地的辅助手段;对实时游戏、大状态空间游戏,路径还不清楚(评论里也有相关讨论)。

HN 评论精华