2026年3月10日 · 00:07 · 已编辑 · 37 条回复 ·

arXiv 论文披露 CC-BOS 框架，利用文言文实现大模型自动化越狱攻击

近日发表于 arXiv 的研究论文披露，文言文因其简洁与晦涩的特性，能有效绕过大语言模型（LLM）的现有安全约束。研究团队据此提出 CC-BOS 框架，利用生物启发式搜索算法自动生成文言文对抗性提示词，在黑盒环境下实现了高效的越狱攻击。

该框架基于多维果蝇优化算法，从角色、隐喻等 8 个维度对提示词进行迭代优化。实验数据表明，CC-BOS 的攻击效果优于现有主流方法，进一步揭示了跨语言语境下大模型安全防护的潜在漏洞。

Telegram 评论区

37 条回复，可以前往 Telegram 继续讨论。