虚假信息、偏见歧视....如何提升AIGC合规水平?(技术篇)

随着人工智能(AI)大模型技术的飞速发展,人工智能生成内容(AIGC)技术已被广泛应用于多个领域,其生成效率与准确性随着算力、数据、算法等基础设施的不断完善而日益提高。人们在工作和生活中,可以利用AIGC技术更高效、便捷地生成文本、图像、音频和视频等内容。
然而,由于AIGC技术自身的黑盒属性和幻觉问题,有时会输出不实、不良信息,可能引发一些内容合规风险,包括:色情、毒品制造与贩卖、犯罪方法描写等违法内容;暴恐、血腥、恶心、仇恨等不良价值观内容;对国家、民族、性别、职业等的歧视与侮辱,以及错误的知识、虚假的历史、虚假新闻等虚假错误内容。这些问题不仅损害社会风气,还可能对国家安全和利益造成威胁。
我国对大模型的内容安全已有明确的法规和行业标准要求,但现有的内容审核与安全技术,在文本、图像、音频等方面的审核上还难以满足当前的需求,企业可尝试从技术手段和管理措施2个方面入手构建AIGC合规水平提升方案。
本期将为您介绍如何在大模型全生命周期采取技术手段以保障AIGC合规安全。
总的来说,可从两个方面采取技术手段来提升AIGC内容合规水平。一方面,在模型建设的全生命周期通过数据训练,完成对内容安全的多环节干预和管控;另一方面,建设基于AI的智能识别、内容过滤技术、实时预警与处理机制,提升业务内容安全性。这些技术手段既可以及时发现潜在的安全威胁,也要能够有效识别并过滤不良信息,为业务内容安全水平提升提供有效支撑。
大模型全生命周期一般包括数据准备与模型训练、模型评测、上线运营3个主要阶段。下面分阶段为大家介绍提升AIGC合规水平的技术措施。
1.样本清理与风险识别。在数据准备阶段,需对各种样本进行标注与清理,识别并剔除潜在的违规信息,包括预训练样本和人工标注样本中的敏感、违法、违规等不良内容。针对敏感问题的识别,既需专业知识库通过检索增强生成(RAG)技术构建的标注模型,也需要专业人员进行高比例抽检,确保敏感问题的准确标注与处理。
2.安全对齐与增强。引入安全对齐机制,通过正向激励模型生成无害内容,减少有害信息的产生。此外,还需重视安全知识的增强,通过引入安全知识库、安全大模型等手段,提升模型的安全性能。
1.大模型安全能力评测。对大模型的安全能力进行全面评测,包括越狱攻击风险、提示词注入攻击风险、数据投毒攻击风险等。通过构建全面的评测数据集,如毒性识别数据集等,对大模型的安全性能进行精准评估。
2.评测报告与整改方案。根据评测结果,生成详细的评测报告,包括风险指数、风险详情报告、风险问题召回/准确率等关键指标。同时,根据评测报告中发现的问题,制定针对性的整改方案,如训练语料清洗方案、敏感知识代答方案等,确保模型的安全性能得到有效提升。
1.用户输入与模型输出的风险审核。在上线运营阶段,需对用户输入与模型输出进行严格的风险审核。对于敏感问题与需正向引导问题,引入安全大模型实现精准代答,确保输出的内容合法、合规。
2.场景级策略优化。针对不同场景,制定针对性的策略优化方案。对于必须准确回答的问题,如未成年人及种族问题等,需确保输出的内容准确无误;对于需要纠错回答的问题,如不正确的知识或不规范的表述等,需进行及时纠正;对于需要正向引导回答的问题,如负面、极端或涉及人身攻击等问题,需进行积极的正向引导。
3.流式长文本审核。针对模型输出的流式长文本,需进行实时的审核与检测。通过构建高效的审核引擎,对输出的文本进行切片审核,确保每一段文本都符合合规要求。同时,根据审核结果,对文本进行相应的处理,如删除违规内容、停止送审等。
4.建立应急处置预案。针对突发的内容安全事件,可通过实时跟进网络舆情态势,及时发现并处理敏感信息,确保生成内容的合规性与安全性。针对重大专项行动(如人事任免、重大灾害、重要会议等),可制定专门应急预案,通过提前准备相关敏感词库、构建快速响应机制等手段,确保生成内容能够迅速、准确地响应相关要求。