AI迷思录

应用与安全指南

本指南旨在帮助零基础读者成为实战型 AI 安全专家。内容涵盖基础知识、法规、AI 模型、安全漏洞与防御、开发运维、框架工具及技能等级,为各层级学习者提供资源和建议。

开始学习

基础知识

掌握网络安全基础和AI数学概念,了解AI关键技术和硬件平台

查看详情 →

安全挑战

探索AI漏洞与攻击,掌握有效防御技术,应对越狱和数据投毒

查看详情 →

实践应用

学习安全开发与MLOps,掌握Prompt工程与AI安全框架工具

查看详情 →

第一卷:绪论

序言 - 炼丹道术之说

本文旨在追溯 AI 大模型发展,探究其缘起、设计构想、运行机制和安全演进。目标是"道"(机制)与"术"(应用)融会贯通,理解模型边界和技术奥秘。

当前 Prompt 工程实践常侧重表层技巧,忽略模型底层机制。Prompt 最初旨在通过指令微调提升模型指令理解力。Prompt 工程关键在于 Prompt 如何契合模型逻辑,精准命中模板,激发模型能力(MoE)。理解模型机制是 Prompt 应用的核心。

Prompt 与 AI 模型类比"炼丹术":

Prompt(灵药)

指引模型输出的关键信息,质量决定输出优劣。

算法框架(控火)

选择和调控算法,如 GPT/BERT、GNN、T5,精细调控参数。

模型架构(炉鼎)

决定模型处理数据类型和复杂度,如RNN/LSTM、CNN、Transformer。

AI 输出依赖 Prompt、算法机制和模型架构协同。炼丹术需灵药、火候、炉鼎结合,AI 成功亦仰赖三者平衡与协同。训练 AI 乃至越狱,亦是如此。

AI安全学习路径

扎实的网络安全基础和对 AI 数学、概念的理解是 AI 安全学习的基石。

一、基础知识

传统网络安全基础

  • 理解常见网络威胁(恶意软件、入侵等)。
  • 认识传统网络安全与 AI 安全的区别(威胁复杂性、攻击面、威胁适应性、可解释性、数据隐私、监管合规、伦理考量)。

AI 数学概念

掌握 AI 安全相关的数学基础,例如:

  • 概率论(贝叶斯网络)
  • 线性代数(矩阵分解、特征值)
  • 优化方法(梯度下降)
  • 统计学(假设检验)

(无需逐一深入,重点关注与安全相关的部分)

AI 关键概念

了解 AI 主要领域和技术,如:

  • 机器学习基础(监督学习、无监督学习、评估指标、过拟合)
  • 深度学习基础(神经网络、CNN、RNN、Transformer)
  • 大语言模型(LLM)
  • 生成对抗网络(GAN)
  • 自然语言处理(NLP)
  • 强化学习(概念即可)

(重点关注安全相关的概念:对抗样本、数据/模型投毒、成员推理攻击)

AI 硬件基础

了解 AI 计算硬件平台:

  • GPU(主流训练/推理硬件)
  • TPU(Google 专用加速器)
  • FPGA(可定制加速)
  • ASIC(专用芯片)
  • 边缘计算硬件

二、学习路径

法律法规与标准

重点: 数据隐私保护、模型安全、算法公平性相关法规。关注法规更新。

关键法规/标准:

  • 欧盟: 《欧盟人工智能法案》(EU AI Act)(高风险 AI 严格监管),GDPR(数据隐私)。
  • 美国: 拜登 AI 行政命令(安全、可靠、负责任),FTC 真实性声明,FAA(无人机),NHTSA(自动驾驶)。
  • 中国: 《网络安全法》,《生成式人工智能服务管理暂行办法》。
  • 国际标准: ISO/IEC 42001(AI 管理体系,重要),ISO/IEC 22989(术语),ISO/IEC TR 23894(风险管理),ANSI/UL 4600(自动驾驶安全评估)。

经典 AI 学习

掌握经典机器学习模型(原理、优缺点、应用场景):

  • 线性模型(线性/逻辑回归、正则化)
  • 树模型(决策树、随机森林、GBDT)
  • SVM
  • 朴素贝叶斯
  • KNN
  • 聚类、降维(了解)

安全角度: 理解经典模型的弱点,例如 SVM 易受对抗样本攻击。

探索 AI 漏洞与攻击

理解 AI 系统特有漏洞和攻击类型:

  • 对抗样本攻击: 微小扰动输入导致模型错误。(攻击方法:FGSM、PGD 等;防御:对抗训练等)
  • 数据/模型投毒攻击: 恶意数据影响模型性能。(供应链攻击,成员推断也属投毒;防御:数据清洗等)
  • 后门攻击: 植入触发器,模型输出受控结果。
  • 模型反演攻击: 从输出反推训练数据信息(隐私泄露)。
  • 成员推理攻击: 推断数据是否在训练集中。
  • 提示注入/越狱攻击: 诱导 LLM 产生不安全内容,绕过安全机制。(越狱技巧:肯定后缀、失忆、幻觉)

探索 AI 保护方法

学习防御 AI 攻击,提高模型鲁棒性:

  • 对抗训练(增强鲁棒性)
  • 梯度掩蔽/输入预处理(降低对抗扰动)
  • 防御蒸馏(知识蒸馏提高鲁棒性)
  • 鲁棒性优化(更鲁棒的模型架构)
  • 偏差与公平性审计(AIF360、Fairlearn 等工具)
  • 同态加密(加密计算,保护隐私,效率待提升)
  • 隐私保护机器学习(PPML,多种技术综合)
  • 联邦学习(本地训练,保护隐私,安全聚合)
  • 零知识证明(验证模型属性)
  • 模型水印(版权保护)

三、AI 安全技能等级

等级 0 - 初学者:使用 AI

  • 了解 AI 局限性,基本使用 AI。
  • 强调:认识到 AI 非万能

等级 1 - 应用专家:应用感知

  • 有效使用 AI 方案,识别潜在风险。
  • 关注点:安全使用 AI

等级 2 - 开发专家:精进与扩展

  • 改进/扩展 AI 系统,理解架构/算法原理,基本 AI 安全防御。
  • 关键技能:模型原理, 复现简单攻击, 基本防御

等级 3 - 创新专家:系统视野

  • 系统性思考 AI 安全,提出新方法,开发创新方案。
  • 关键技能:深入安全原理, 设计/实现新防御方法

第二卷:大模型概览

大模型的前世今生

人工智能定义可分为三类:

弱人工智能 (Narrow AI)

专注特定领域,高效执行预设任务,但缺乏自主学习和通用智能。当前应用最广泛,如推荐系统、AlphaGo、机器人客服。

强人工智能 (AGI)

通用人工智能,具备人类水平认知能力,可理解、学习和运用知识。目前尚处研究阶段,被视为终极目标,潜力巨大,如医疗诊断、法律咨询、科学研究。

超强人工智能 (ASI)

在所有方面超越人类智能的假设形态,认知能力和创新能力远超人类,或将带来社会最大变革与挑战。

人工智能发展脉络(关键里程碑):

时期 事件 意义
1940s 电子大脑概念提出 AI 探索开端
1950s 感知器发明 神经网络研究起点
1980s 多层感知机和反向传播算法突破 深度学习理论基础
1997年 深蓝战胜国际象棋冠军 AI 特定领域决策能力展现
2012年 AlexNet 在 ImageNet 竞赛获胜 深度学习视觉领域里程碑
2016年 AlphaGo 击败围棋冠军 AI 复杂策略决策能力证明
2017年 Transformer 模型提出 自然语言处理新纪元
2018年 BERT 模型发布 预训练语言模型性能提升
2020年 大模型时代来临 AlphaFold 蛋白质结构预测革命性突破

总结: 人工智能历经数学统计、机器学习、深度学习,最终进入大模型时代。模型从感知理解世界到生成创造内容跃迁。当前大模型分为公有和私有,AI 内容生成(AiGC)以 GPT 为代表。

大模型关键技术栈

1. 机器学习

赋予计算机学习能力,从数据中学习模式与规律,进行决策和预测。

分类:

  • 监督学习(带标签数据)
  • 无监督学习(无标签数据)
  • 半监督学习(少量标签 + 大量无标签)
  • 强化学习(与环境交互学习策略)

传统机器学习过度依赖人工特征工程,表达能力有限。

2. 深度学习

机器学习的延伸,基于神经网络构建模型,多层节点学习数据深层复杂表征。擅长挖掘复杂模式和特征。

网络结构:

  • CNN(卷积神经网络)
  • RNN(循环神经网络)

深度学习在计算机视觉、语音识别、自然语言处理(NLP)领域取得巨大成就,但模型可解释性差,被视为"黑盒"。

3. 基础设施

算力、数据、算法是 AI 发展的核心要素。

  • 数据: AI 的燃料,质量和规模决定性能上限。
  • 算法: AI 的引擎,包括机器学习和深度学习算法。
  • 算力: AI 的基础设施,芯片技术决定发展速度。
4. 训练与推理

AI 模型生命周期的关键环节。

  • 训练: 使用标注数据调整模型参数,学习数据模式和规律。
  • 推理: 应用训练好的模型到新数据,完成预测等任务。

训练如"寒窗苦读",推理如"金榜题名"。

LLM 核心概念与常识

大型语言模型概述

基于 Transformer 架构,参数庞大(千亿级),通过自监督学习预测下一个词。

核心概念

  • Prompt(提示词): 语言编程,弥补人机认知差异。
  • CoT(思维链): 模仿人类逻辑,增加思考 Token。
  • 工具调用: 需训练数据支持。

运作原理与局限

  • 概率模型: 模式匹配生成文本,无意识生成,依赖训练数据质量。
  • 语言任务能力强: 翻译、摘要、问答。
  • 逻辑算术弱: 逻辑推理、算术、因果关系理解弱。
  • 知识截止日期: 不适合实时信息。
  • 幻觉与偏见: 可能错误陈述,反映数据偏见。

微调与上下文长度

  • 微调: 预训练模型在特定数据集上再训练,适应任务/领域。
  • 上下文长度: 模型一次处理的最大令牌数,限制信息量。

提示工程与训练过程

  • 清晰指令: 提供明确指令。
  • 少样本学习: 示例引导。
  • 提示结构: 顺序结构影响输出。
  • 温度参数: 控制随机性。
  • 训练数据: 大规模文本语料库。

Transformer 模型核心概念

  • 注意力机制: 关注输入序列的不同部分,捕捉长距离依赖。
  • 嵌入: 文本标记映射到高维向量,理解词关系。
  • 位置编码: 提供标记位置信息。

第四卷:AI 安全工程实践

AI 安全在网络安全领域日益重要,但其独特性带来新的安全挑战。AI 安全不仅关乎传统网络安全,也涉及隐私、伦理等更广泛层面。AI 红队测试是评估和提升 AI 系统安全性的关键实践。

AI 安全工具:赋能安全分析

AI 技术正被应用于安全工具的开发,以提升代码审计、网络侦察、渗透测试及安全防御的效率和精度。

代码审计与漏洞分析

  • 工具: AutoAudit、SourceGPT
  • 功能: 利用 LLM 辅助代码审查,提升漏洞检测和合规性检查效率
  • 局限: 准确性依赖于模型能力,可能存在误报漏报,复杂漏洞识别仍受限

网络侦察与威胁情报

  • 工具: CensysGPT、ZoomEyeGPT
  • 功能: 结合 GPT 模型与数据源,增强威胁情报收集与资产发现能力
  • 局限: 效果受限于数据覆盖范围及 GPT 分析能力

渗透测试与漏洞利用

  • 工具: PentestGPT、burpgpt
  • 功能: 利用 GPT 模型辅助渗透测试,自动化生成攻击脚本和漏洞分析报告
  • 局限: 需警惕脚本风险和误报漏报

安全检测与防御

  • 工具: k8sgpt、cloudgpt
  • 功能: 利用 LLM 分析 Kubernetes 集群和 AWS 云环境,辅助故障排除和安全审计
  • 局限: 效果依赖于 LLM 对特定领域知识的掌握程度

第五卷:AI安全体系与红队测试

AI 安全体系:独特的挑战与多层防护

AI 安全的独特性在于其学习能力和决策过程的非确定性,使得传统安全方法难以完全适用。AI 危害不仅涉及网络安全风险,更扩展到隐私和伦理层面。

AI 核心危害
  • 安全相关危害:模型盗窃、模型完整性受损、训练数据中毒、对抗性攻击、过度依赖 AI
  • 伦理与策略相关危害:隐私冲突、违规内容生成、危险功能滥用、破坏决策系统、负面公共影响、知识产权侵权
AI 安全面临的挑战

AI 技术的快速迭代带来安全风险,安全措施难以跟进。负责任 AI (RAI) 强调在 AI 系统全生命周期中融入伦理、公平、透明等原则,构建可信赖的 AI 系统。

AI 安全三层架构及应对策略

为有效应对 AI 攻击,可将 AI 体系结构分为三层,并采取分层安全策略:

AI 使用情况层

安全挑战: 用户行为和责任至关重要,安全护栏和用户教育是关键

应对策略: 强化用户安全意识,更新策略,警惕 AI 欺骗

AI 应用程序层

安全挑战: 恶意请求风险及 AI 资源协调安全

应对策略: 构建应用安全系统,深度检查请求内容和资源协调过程

AI 平台层

安全挑战: 防范有害指令输入、有害内容输出和内容分类复杂性

应对策略: 构建输入输出安全系统,内容安全检测及动态内容分类机制

常见 AI 对齐对抗手法:越狱攻击及防御框架

越狱攻击核心

打破常规限制,利用 Prompt 操控 AI 模型输出有害内容。利用 AI 对文本指令的高度依赖性及安全规则的局限性。

主要越狱技巧
  • 多轮对话越狱:利用"登门效应",通过渐进诱导、语义迷惑和上下文连贯性利用,逐步突破模型安全防线
  • 角色扮演:结合 CO-STAR 框架,构造更具迷惑性和攻击性的 Prompt
  • 反向诱导、逆向思维:运用逆向思维方式,诱导模型输出期望的有害内容
  • 其他技巧:绕过 WAF、前置抑制、PUA 道德绑架、小语种、代码形式绕过、虚拟化与虚构背景越狱、基于 Token 的越狱等
自动化越狱探索引擎
遗传算法:模拟生物进化

通过构建初始种群、适应度评估、选择与变异、迭代进化等步骤,逐步演化出更有效的越狱提示,实现自动化越狱。

梯度下降法:迭代优化对抗性后缀

通过构建损失函数、梯度计算和迭代修改对抗性后缀,逐步优化 Prompt,最终生成可绕过安全防线的"魔法后缀"。

AI 红队测试:实战化安全评估

AI 红队测试是模拟真实攻击,评估 AI 系统安全性的关键方法,旨在发现漏洞、提升防御能力、保障 RAI。

AI 红队与传统红队的区别

AI 红队在漏洞类型、测试方法、团队构成和测试目标上均与传统红队测试存在差异,需要关注模型安全、AI 特有漏洞及 RAI 风险,测试方法更强调迭代、自动化与人工结合,团队构成需多元化。

AI 红队流程

包括项目方案、组建多元红队、设计多层测试、迭代执行测试、结构化报告结果五个关键步骤,形成持续循环迭代的安全评估和改进机制。

准备好成为 AI 安全专家了吗?

深入学习 AI 安全知识,掌握关键技能,应对不断演变的 AI 安全挑战。