感谢分享,非常实用!这里提一些勘误建议: - 第2页,remote拼写错误。 - 第4页,有个图??的reference错误。 - 第46页,Attack Success Rate (ASR)的公式,显示为N/N,两个N都没有下标。 另外,很好奇jailbreaking为什么翻译为“拒绝抑制”而不是“越狱”。之前没有见过这种翻译方式,不知道是不是引用其他文献里面的翻译。 你们的b站视频有一个额外的章节关于“提示词自动化生成与优化”,pdf里却没有相关章节。不知你们是否有计划加入相关章节?特别是关于github和huggingface上的相关数据集的介绍。