在花
返回时间线
· 00:07 · 已编辑 · 37 条回复 ·

arXiv 论文披露 CC-BOS 框架,利用文言文实现大模型自动化越狱攻击

近日发表于 arXiv 的研究论文披露,文言文因其简洁与晦涩的特性,能有效绕过大语言模型(LLM)的现有安全约束。研究团队据此提出 CC-BOS 框架,利用生物启发式搜索算法自动生成文言文对抗性提示词,在黑盒环境下实现了高效的越狱攻击。

该框架基于多维果蝇优化算法,从角色、隐喻等 8 个维度对提示词进行迭代优化。实验数据表明,CC-BOS 的攻击效果优于现有主流方法,进一步揭示了跨语言语境下大模型安全防护的潜在漏洞。

arXiv.org

🍀在花频道 🍵茶馆聊天 📮投稿

Telegram 评论区

37 条回复,可以前往 Telegram 继续讨论。

去评论区