第一卷:绪论
序言 - 炼丹道术之说
本文旨在追溯 AI 大模型发展,探究其缘起、设计构想、运行机制和安全演进。目标是"道"(机制)与"术"(应用)融会贯通,理解模型边界和技术奥秘。
当前 Prompt 工程实践常侧重表层技巧,忽略模型底层机制。Prompt 最初旨在通过指令微调提升模型指令理解力。Prompt 工程关键在于 Prompt 如何契合模型逻辑,精准命中模板,激发模型能力(MoE)。理解模型机制是 Prompt 应用的核心。
Prompt 与 AI 模型类比"炼丹术":
Prompt(灵药)
指引模型输出的关键信息,质量决定输出优劣。
算法框架(控火)
选择和调控算法,如 GPT/BERT、GNN、T5,精细调控参数。
模型架构(炉鼎)
决定模型处理数据类型和复杂度,如RNN/LSTM、CNN、Transformer。
AI 输出依赖 Prompt、算法机制和模型架构协同。炼丹术需灵药、火候、炉鼎结合,AI 成功亦仰赖三者平衡与协同。训练 AI 乃至越狱,亦是如此。
AI安全学习路径
扎实的网络安全基础和对 AI 数学、概念的理解是 AI 安全学习的基石。
一、基础知识
传统网络安全基础
- 理解常见网络威胁(恶意软件、入侵等)。
- 认识传统网络安全与 AI 安全的区别(威胁复杂性、攻击面、威胁适应性、可解释性、数据隐私、监管合规、伦理考量)。
AI 数学概念
掌握 AI 安全相关的数学基础,例如:
- 概率论(贝叶斯网络)
- 线性代数(矩阵分解、特征值)
- 优化方法(梯度下降)
- 统计学(假设检验)
(无需逐一深入,重点关注与安全相关的部分)
AI 关键概念
了解 AI 主要领域和技术,如:
- 机器学习基础(监督学习、无监督学习、评估指标、过拟合)
- 深度学习基础(神经网络、CNN、RNN、Transformer)
- 大语言模型(LLM)
- 生成对抗网络(GAN)
- 自然语言处理(NLP)
- 强化学习(概念即可)
(重点关注安全相关的概念:对抗样本、数据/模型投毒、成员推理攻击)
AI 硬件基础
了解 AI 计算硬件平台:
- GPU(主流训练/推理硬件)
- TPU(Google 专用加速器)
- FPGA(可定制加速)
- ASIC(专用芯片)
- 边缘计算硬件
二、学习路径
法律法规与标准
重点: 数据隐私保护、模型安全、算法公平性相关法规。关注法规更新。
关键法规/标准:
- 欧盟: 《欧盟人工智能法案》(EU AI Act)(高风险 AI 严格监管),GDPR(数据隐私)。
- 美国: 拜登 AI 行政命令(安全、可靠、负责任),FTC 真实性声明,FAA(无人机),NHTSA(自动驾驶)。
- 中国: 《网络安全法》,《生成式人工智能服务管理暂行办法》。
- 国际标准: ISO/IEC 42001(AI 管理体系,重要),ISO/IEC 22989(术语),ISO/IEC TR 23894(风险管理),ANSI/UL 4600(自动驾驶安全评估)。
经典 AI 学习
掌握经典机器学习模型(原理、优缺点、应用场景):
- 线性模型(线性/逻辑回归、正则化)
- 树模型(决策树、随机森林、GBDT)
- SVM
- 朴素贝叶斯
- KNN
- 聚类、降维(了解)
安全角度: 理解经典模型的弱点,例如 SVM 易受对抗样本攻击。
探索 AI 漏洞与攻击
理解 AI 系统特有漏洞和攻击类型:
- 对抗样本攻击: 微小扰动输入导致模型错误。(攻击方法:FGSM、PGD 等;防御:对抗训练等)
- 数据/模型投毒攻击: 恶意数据影响模型性能。(供应链攻击,成员推断也属投毒;防御:数据清洗等)
- 后门攻击: 植入触发器,模型输出受控结果。
- 模型反演攻击: 从输出反推训练数据信息(隐私泄露)。
- 成员推理攻击: 推断数据是否在训练集中。
- 提示注入/越狱攻击: 诱导 LLM 产生不安全内容,绕过安全机制。(越狱技巧:肯定后缀、失忆、幻觉)
探索 AI 保护方法
学习防御 AI 攻击,提高模型鲁棒性:
- 对抗训练(增强鲁棒性)
- 梯度掩蔽/输入预处理(降低对抗扰动)
- 防御蒸馏(知识蒸馏提高鲁棒性)
- 鲁棒性优化(更鲁棒的模型架构)
- 偏差与公平性审计(AIF360、Fairlearn 等工具)
- 同态加密(加密计算,保护隐私,效率待提升)
- 隐私保护机器学习(PPML,多种技术综合)
- 联邦学习(本地训练,保护隐私,安全聚合)
- 零知识证明(验证模型属性)
- 模型水印(版权保护)
三、AI 安全技能等级
等级 0 - 初学者:使用 AI
- 了解 AI 局限性,基本使用 AI。
- 强调:认识到 AI 非万能
等级 1 - 应用专家:应用感知
- 有效使用 AI 方案,识别潜在风险。
- 关注点:安全使用 AI
等级 2 - 开发专家:精进与扩展
- 改进/扩展 AI 系统,理解架构/算法原理,基本 AI 安全防御。
- 关键技能:模型原理, 复现简单攻击, 基本防御
等级 3 - 创新专家:系统视野
- 系统性思考 AI 安全,提出新方法,开发创新方案。
- 关键技能:深入安全原理, 设计/实现新防御方法
第二卷:大模型概览
大模型的前世今生
人工智能定义可分为三类:
弱人工智能 (Narrow AI)
专注特定领域,高效执行预设任务,但缺乏自主学习和通用智能。当前应用最广泛,如推荐系统、AlphaGo、机器人客服。
强人工智能 (AGI)
通用人工智能,具备人类水平认知能力,可理解、学习和运用知识。目前尚处研究阶段,被视为终极目标,潜力巨大,如医疗诊断、法律咨询、科学研究。
超强人工智能 (ASI)
在所有方面超越人类智能的假设形态,认知能力和创新能力远超人类,或将带来社会最大变革与挑战。
人工智能发展脉络(关键里程碑):
时期 | 事件 | 意义 |
---|---|---|
1940s | 电子大脑概念提出 | AI 探索开端 |
1950s | 感知器发明 | 神经网络研究起点 |
1980s | 多层感知机和反向传播算法突破 | 深度学习理论基础 |
1997年 | 深蓝战胜国际象棋冠军 | AI 特定领域决策能力展现 |
2012年 | AlexNet 在 ImageNet 竞赛获胜 | 深度学习视觉领域里程碑 |
2016年 | AlphaGo 击败围棋冠军 | AI 复杂策略决策能力证明 |
2017年 | Transformer 模型提出 | 自然语言处理新纪元 |
2018年 | BERT 模型发布 | 预训练语言模型性能提升 |
2020年 | 大模型时代来临 | AlphaFold 蛋白质结构预测革命性突破 |
总结: 人工智能历经数学统计、机器学习、深度学习,最终进入大模型时代。模型从感知理解世界到生成创造内容跃迁。当前大模型分为公有和私有,AI 内容生成(AiGC)以 GPT 为代表。
大模型关键技术栈
1. 机器学习
赋予计算机学习能力,从数据中学习模式与规律,进行决策和预测。
分类:
- 监督学习(带标签数据)
- 无监督学习(无标签数据)
- 半监督学习(少量标签 + 大量无标签)
- 强化学习(与环境交互学习策略)
传统机器学习过度依赖人工特征工程,表达能力有限。
2. 深度学习
机器学习的延伸,基于神经网络构建模型,多层节点学习数据深层复杂表征。擅长挖掘复杂模式和特征。
网络结构:
- CNN(卷积神经网络)
- RNN(循环神经网络)
深度学习在计算机视觉、语音识别、自然语言处理(NLP)领域取得巨大成就,但模型可解释性差,被视为"黑盒"。
3. 基础设施
算力、数据、算法是 AI 发展的核心要素。
- 数据: AI 的燃料,质量和规模决定性能上限。
- 算法: AI 的引擎,包括机器学习和深度学习算法。
- 算力: AI 的基础设施,芯片技术决定发展速度。
4. 训练与推理
AI 模型生命周期的关键环节。
- 训练: 使用标注数据调整模型参数,学习数据模式和规律。
- 推理: 应用训练好的模型到新数据,完成预测等任务。
训练如"寒窗苦读",推理如"金榜题名"。
LLM 核心概念与常识
大型语言模型概述
基于 Transformer 架构,参数庞大(千亿级),通过自监督学习预测下一个词。
核心概念
-
Prompt(提示词): 语言编程,弥补人机认知差异。
-
CoT(思维链): 模仿人类逻辑,增加思考 Token。
-
工具调用: 需训练数据支持。
运作原理与局限
-
概率模型: 模式匹配生成文本,无意识生成,依赖训练数据质量。
-
语言任务能力强: 翻译、摘要、问答。
-
逻辑算术弱: 逻辑推理、算术、因果关系理解弱。
-
知识截止日期: 不适合实时信息。
-
幻觉与偏见: 可能错误陈述,反映数据偏见。
微调与上下文长度
-
微调: 预训练模型在特定数据集上再训练,适应任务/领域。
-
上下文长度: 模型一次处理的最大令牌数,限制信息量。
提示工程与训练过程
-
清晰指令: 提供明确指令。
-
少样本学习: 示例引导。
-
提示结构: 顺序结构影响输出。
-
温度参数: 控制随机性。
-
训练数据: 大规模文本语料库。
Transformer 模型核心概念
-
注意力机制: 关注输入序列的不同部分,捕捉长距离依赖。
-
嵌入: 文本标记映射到高维向量,理解词关系。
-
位置编码: 提供标记位置信息。
第四卷:AI 安全工程实践
AI 安全在网络安全领域日益重要,但其独特性带来新的安全挑战。AI 安全不仅关乎传统网络安全,也涉及隐私、伦理等更广泛层面。AI 红队测试是评估和提升 AI 系统安全性的关键实践。
AI 安全工具:赋能安全分析
AI 技术正被应用于安全工具的开发,以提升代码审计、网络侦察、渗透测试及安全防御的效率和精度。
代码审计与漏洞分析
- 工具: AutoAudit、SourceGPT
- 功能: 利用 LLM 辅助代码审查,提升漏洞检测和合规性检查效率
- 局限: 准确性依赖于模型能力,可能存在误报漏报,复杂漏洞识别仍受限
网络侦察与威胁情报
- 工具: CensysGPT、ZoomEyeGPT
- 功能: 结合 GPT 模型与数据源,增强威胁情报收集与资产发现能力
- 局限: 效果受限于数据覆盖范围及 GPT 分析能力
渗透测试与漏洞利用
- 工具: PentestGPT、burpgpt
- 功能: 利用 GPT 模型辅助渗透测试,自动化生成攻击脚本和漏洞分析报告
- 局限: 需警惕脚本风险和误报漏报
安全检测与防御
- 工具: k8sgpt、cloudgpt
- 功能: 利用 LLM 分析 Kubernetes 集群和 AWS 云环境,辅助故障排除和安全审计
- 局限: 效果依赖于 LLM 对特定领域知识的掌握程度
第五卷:AI安全体系与红队测试
AI 安全体系:独特的挑战与多层防护
AI 安全的独特性在于其学习能力和决策过程的非确定性,使得传统安全方法难以完全适用。AI 危害不仅涉及网络安全风险,更扩展到隐私和伦理层面。
AI 核心危害
- 安全相关危害:模型盗窃、模型完整性受损、训练数据中毒、对抗性攻击、过度依赖 AI
- 伦理与策略相关危害:隐私冲突、违规内容生成、危险功能滥用、破坏决策系统、负面公共影响、知识产权侵权
AI 安全面临的挑战
AI 技术的快速迭代带来安全风险,安全措施难以跟进。负责任 AI (RAI) 强调在 AI 系统全生命周期中融入伦理、公平、透明等原则,构建可信赖的 AI 系统。
AI 安全三层架构及应对策略
为有效应对 AI 攻击,可将 AI 体系结构分为三层,并采取分层安全策略:
AI 使用情况层
安全挑战: 用户行为和责任至关重要,安全护栏和用户教育是关键
应对策略: 强化用户安全意识,更新策略,警惕 AI 欺骗
AI 应用程序层
安全挑战: 恶意请求风险及 AI 资源协调安全
应对策略: 构建应用安全系统,深度检查请求内容和资源协调过程
AI 平台层
安全挑战: 防范有害指令输入、有害内容输出和内容分类复杂性
应对策略: 构建输入输出安全系统,内容安全检测及动态内容分类机制
常见 AI 对齐对抗手法:越狱攻击及防御框架
越狱攻击核心
打破常规限制,利用 Prompt 操控 AI 模型输出有害内容。利用 AI 对文本指令的高度依赖性及安全规则的局限性。
主要越狱技巧
- 多轮对话越狱:利用"登门效应",通过渐进诱导、语义迷惑和上下文连贯性利用,逐步突破模型安全防线
- 角色扮演:结合 CO-STAR 框架,构造更具迷惑性和攻击性的 Prompt
- 反向诱导、逆向思维:运用逆向思维方式,诱导模型输出期望的有害内容
- 其他技巧:绕过 WAF、前置抑制、PUA 道德绑架、小语种、代码形式绕过、虚拟化与虚构背景越狱、基于 Token 的越狱等
自动化越狱探索引擎
遗传算法:模拟生物进化
通过构建初始种群、适应度评估、选择与变异、迭代进化等步骤,逐步演化出更有效的越狱提示,实现自动化越狱。
梯度下降法:迭代优化对抗性后缀
通过构建损失函数、梯度计算和迭代修改对抗性后缀,逐步优化 Prompt,最终生成可绕过安全防线的"魔法后缀"。
AI 红队测试:实战化安全评估
AI 红队测试是模拟真实攻击,评估 AI 系统安全性的关键方法,旨在发现漏洞、提升防御能力、保障 RAI。
AI 红队与传统红队的区别
AI 红队在漏洞类型、测试方法、团队构成和测试目标上均与传统红队测试存在差异,需要关注模型安全、AI 特有漏洞及 RAI 风险,测试方法更强调迭代、自动化与人工结合,团队构成需多元化。
AI 红队流程
包括项目方案、组建多元红队、设计多层测试、迭代执行测试、结构化报告结果五个关键步骤,形成持续循环迭代的安全评估和改进机制。
第六卷:AI备案与法律
一、备案概述:大模型服务的"通行证"
备案定义:
AI大模型备案是根据中国《生成式人工智能服务管理暂行办法》(2023年8月15日施行)要求,面向公众提供服务的大模型需向国家互联网信息办公室(网信办)进行备案,以规范技术发展,保障国家安全、社会公共利益和个人信息权益。
备案必要性:
- 保障公众利益,防范AI风险: 防范个人信息泄露、虚假信息传播、算法歧视和国家安全风险。
- 维护社会安全,强化风险管控: 构建风险预警机制,源头治理不良信息,提升网络安全防护,明确责任主体。
- 促进技术健康发展: 建立行业信任,引导技术创新方向,营造公平竞争环境。
总结: 备案旨在为AI技术发展保驾护航,确保其在安全合规的轨道上发展。
二、备案材料:六大核心"零件"
大模型上线备案表
展示模型基本信息、技术能力及安全保障措施,是备案申请的核心。
安全评估报告
由第三方机构出具,评估模型的安全性、合规性及潜在风险。
模型服务协议
明确服务方与用户权利义务的法律契约。
语料标注规则
指导数据标注工作的操作手册,确保数据质量和合规性。
拦截关键词列表
内容安全的"黑名单",阻止模型生成有害信息。
评估测试题集
用于测试模型安全性、合规性及可靠性的"考卷"。
三、备案流程:"闯关游戏"六步走
第一步:当地网信办登记
确定备案地点,提交初步申请材料,领取备案表与办理指南,填写并提交备案表,跟进审核进度。
第二步:准备材料
技术团队、法务团队、数据团队、安全团队协同合作,准备技术、合规、数据安全、安全评估等材料。
第三步:企业内部评估
进行内部全面评估,编写材料说明,准备测试账号,模拟网信办审核流程。
第四步:提交材料
正式提交备案材料和测试账号至网信办,等待审查,保持沟通,跟踪审核结果。
第五步:当地网信办初步审核
审核通过后上报省级网信办;未通过则调整策略,重新提交材料。
第六步:中央网信办复审
省级网信办审核后,中央网信办进行最终复审,通过后获取备案号与证书。
四、填报注意事项:"锦囊妙计"
材料真实全面
信息必须真实准确,材料全面完整。
评估报告明确结论
报告需有明确肯定的结论,避免模棱两可。
测试题符合国家标准
测试题设计需对标国家标准,确保模型测试结果达标。
寻求专业机构协助
专业机构可提供全方位服务,提升备案成功率。
强调: 备案之路道阻且长,但行则将至。备案成功后,持续合规运营至关重要。