工业从业者对对抗性机器学习的心理模型：一项质性研究

1. Introduction & Overview
2. Methodology & Study Design
2.1. Participant Selection & Demographics
2.2. Data Collection & Analysis
3. 核心发现：心智模型的两个层面
3.1. 层面一：AML与非AML安全之间的界限模糊
3.2. 层面二：整体流程视角与孤立模型关注点
4. Key Insights & Implications
5. Technical Framework & Attack Taxonomy
5.1. 威胁的数学表述
5.2. ML流程的攻击面
6. Analysis Framework & Case Study
7. Future Directions & Application Outlook
8. 参考文献
9. Original Analysis & Expert Commentary

1. Introduction & Overview

对抗性机器学习（AML）是一个至关重要的子领域，专注于研究基于学习的系统在对抗性条件下的安全性与可靠性。尽管学术研究已发展出复杂的攻击（例如，规避攻击、投毒攻击、后门攻击）和防御方法，但在理解那些在现实工业环境中部署ML的从业者如何认知和管理这些威胁方面，仍存在显著差距。这项在USENIX SOUPS 2022上发表的研究，率先探索了 心智模型 在这些从业者中，心智模型是对系统运作方式的内部表征；在安全领域，准确的模型对于有效的风险评估和缓解至关重要。研究揭示了一个根本性的脱节：从业者常常将机器学习特有的安全问题与一般的网络安全问题混为一谈，并且从整个集成工作流程的视角来看待安全，而不仅仅是孤立的模型——这一视角在主流的对抗性机器学习文献中基本缺失。

2. Methodology & Study Design

本研究采用基于访谈的定性方法，以获取定量调查可能遗漏的深层、情境化的见解。

2.1. Participant Selection & Demographics

研究人员进行了 15次半结构化访谈 访谈对象为来自欧洲初创公司的机器学习从业者。参与者的职位包括机器学习工程师、数据科学家和开发人员，确保了样本具有构建和部署机器学习系统的实际经验。聚焦于初创公司具有战略意义，因为它们通常代表了应用机器学习的前沿，但可能缺乏成熟的安全协议。

2.2. Data Collection & Analysis

每次访谈都包含一项 绘图任务，参与者被要求描绘他们对机器学习流程的理解，并指出可能存在的漏洞。这种可视化方法有助于将内在心智模型外化。随后，使用定性编码技术对访谈记录和绘图进行分析，以识别反复出现的主题、模式和概念差距。

研究概览

访谈： 15

方法： 定性、半结构化+绘图任务

关键产出： 心智模型的主题分析

3. 核心发现：心智模型的两个层面

分析明确了表征从业者对机器学习安全理解的两个主要层面。

3.1. 层面一：AML与非AML安全之间的界限模糊

从业者常常不区分针对 统计特性 机器学习模型（核心对抗性机器学习）和一般系统安全威胁。例如，关于对抗性规避攻击的讨论可能会转向对API身份验证或加密密钥管理的担忧。这种混淆表明，对于从业者而言， “机器学习系统安全”是一个整体性的挑战，而非一个具有不同攻击面的分层挑战。这种模糊性可能导致防御资源分配不当，即针对对抗性机器学习问题过度优先考虑传统的IT安全措施，反之亦然。

3.2. 层面二：整体流程视角与孤立模型关注点

学术界的对抗性机器学习研究通常侧重于攻击或防御单个已训练模型（例如，为图像分类器制作对抗样本）。与此形成鲜明对比的是，从业者在 整个机器学习流程的背景下描述安全性——从数据收集和标注，经过多个训练和验证阶段，到部署、监控和反馈循环。他们的心智模型包含多个相互关联的组件（数据库、预处理代码、服务基础设施），每个都被视为一个潜在的漏洞点。这种整体视角更为现实，但也更为复杂，使得应用聚焦的学术防御措施更加困难。

4. Key Insights & Implications

沟通鸿沟： 反洗钱研究人员与从业者之间存在明显的术语和概念鸿沟。研究论文往往未能将攻击置于端到端的工作流程中进行情境化分析。
Uncertainty & Risk: 从业者报告称，在如何优先处理和应对机器学习安全风险方面存在显著的不确定性，部分原因在于之前所识别的模糊心智模型。
Regulatory & Standardization Need: 研究结果强调了需要针对整个机器学习流程（而不仅仅是模型鲁棒性）的安全框架和标准（例如来自NIST或MITRE ATLAS的框架）。
工具缺陷： 缺乏实用且与流水线集成的安全工具加剧了这一问题。大多数对抗性机器学习工具（例如 CleverHans、Adversarial Robustness Toolbox）是为研究人员设计的，而非面向 DevOps 流水线。

5. Technical Framework & Attack Taxonomy

为了使讨论有据可依，必须理解从业者正在（通常并不完美地）应对的对抗性机器学习技术格局。

5.1. 威胁的数学表述

一个典型的规避攻击可以被表述为一个优化问题。对于一个分类器 $f(x)$ 和具有真实标签 $y$ 的原始输入 $x$，攻击者寻求一个扰动 $\delta$，使得：

$\min_{\delta} \|\delta\|_p \quad \text{subject to} \quad f(x + \delta) \neq y$

其中 $\|\cdot\|_p$ 是 $p$-范数（例如 $L_2$、$L_\infty$），用于约束扰动的可感知性。这种形式化的、以模型为中心的视角在 Goodfellow 等人的论文 "Explaining and Harnessing Adversarial Examples" (ICLR 2015) 中很典型，但它抽象掉了周围的流水线环境。

5.2. ML流程的攻击面

该论文引用了一个将攻击映射到流程阶段的分类法（在图中可视化），这更符合从业者的整体视角：

数据/设计阶段： 投毒攻击，后门攻击。
训练阶段： 对抗性初始化，权重扰动。
模型阶段： 模型窃取，逆向工程，成员推理。
部署阶段： 规避攻击，对抗性重编程，海绵攻击。

该框架明确指出每个阶段都存在威胁，证实了从业者更广泛的担忧。

6. Analysis Framework & Case Study

场景： 一家金融科技初创公司部署了一个信用评分模型。从业者可能会担心：
1. 数据投毒（对抗性机器学习）： 攻击者微妙地篡改历史贷款还款数据，以使模型产生偏差。
2. API安全（非对抗性机器学习）： 攻击者利用模型服务端点的漏洞获取未授权访问。
3. 流水线完整性（整体视图）： 数据验证步骤的失效导致投毒数据进入训练流程，而模型监控的缺失未能检测到由此产生的预测漂移。

分析： 思维模型模糊的从业者可能会用类似的网络安全工具处理（1）和（2）。而具有全局视野的从业者会在整个流程中实施控制措施：数据溯源检查、对抗性训练、鲁棒的部署API以及持续的输出监控。研究表明，大多数从业者直觉上倾向于全局视野，但缺乏系统化实施的结构化框架。

7. Future Directions & Application Outlook

集成安全平台： 未来在于面向机器学习的DevSecOps（MLSecOps）。工具需要将针对数据的漏洞扫描、模型加固和运行时攻击检测直接集成到CI/CD流水线中（例如，借鉴持续安全验证的理念）。
Education & Training: 数据科学家和机器学习工程师的课程必须扩展，包含针对机器学习系统的威胁建模，并区分对抗性机器学习和传统安全。像Google的“机器学习安全”课程等资源正是朝着这个方向迈出的一步。
Standardized Benchmarks & Audits: 社区需要能够评估整个机器学习系统安全性的基准，而不仅仅是模型在遭受攻击时的准确性。这将推动工具开发，并为关键机器学习应用实现第三方安全审计。
监管演进： 正如欧盟《人工智能法案》所示，法规将越来越多地要求对“高风险”人工智能系统进行风险管理。本研究的结果强调，此类法规必须基于以流程为中心而非以模型为中心的风险视角。

8. 参考文献

Biggio, B., & Roli, F. (2018). Wild patterns: Ten years after the rise of adversarial machine learning. Pattern Recognition.
Goodfellow, I. J., Shlens, J., & Szegedy, C. (2015). Explaining 又 harnessing adversarial examples. International Conference on Learning Representations (ICLR).
Papernot, N., McDaniel, P., Sinha, A., & Wellman, M. P. (2016). Towards the science of security 又 privacy in machine learning. arXiv预印本 arXiv:1611.03814.
MITRE ATLAS (人工智能系统对抗性威胁图谱)。 https://atlas.mitre.org/.
NIST人工智能风险管理框架 (AI RMF)。 https://www.nist.gov/itl/ai-risk-management-framework.
Carlini, N., & Wagner, D. (2017). Towards evaluating the robustness of neural networks. IEEE Symposium on Security 又 Privacy (S&P).

9. Original Analysis & Expert Commentary

核心见解： 这篇论文为反洗钱研究领域提供了一次至关重要、且坦率地说迟来的现实检验。它揭示了一种危险的 “象牙塔”综合征：当学术界还在为CIFAR-10上对抗鲁棒性的边际改进而争论不休时，那些真正构建着影响贷款、医疗和自动驾驶系统的实践者们，其思维模型却既 更广泛 又 更为模糊的 比我们论文中那些纯粹的攻击定义更为模糊。核心的矛盾不仅在于技术效力；更在于 概念对齐。该研究揭示，从业者将“机器学习安全”视为一个无差别的整体——将加密密钥泄露与基于梯度的规避攻击混为一谈——这无疑是对我们未能有效传达和情境化自身工作的严厉控诉。这不仅仅是一个知识缺口；它是一种 框架构建的失败。正如NIST人工智能风险管理框架所强调的，管理风险需要系统性的视角，这一原则清晰地体现在从业者整体的流程视角中，但在狭隘的、以模型为中心的反机器学习文献中却常常缺失。

逻辑脉络： 研究逻辑是合理且具有揭示性的。通过使用定性访谈和绘图练习——这些方法在Dourish和Anderson等人开创性的人机交互-安全研究中已被证实有效——作者绕过了表面的调查反馈，触及了深层的认知结构。从数据收集（访谈）到分析（编码）再到综合（两个关键方面）的流程清晰地支持了“存在脱节”这一结论。与工具、监管和教育影响的联系合乎逻辑且令人信服。然而，该研究聚焦于欧洲初创公司，虽有其价值，但限制了普适性。若后续能对受严格监管的大型企业（例如金融或医疗领域）进行研究，可能会揭示出更为显著的、以流程为导向的思维模式与监管关切。

Strengths & Flaws: 本文的主要优势在于其 基础性。它是首个系统性地探索这一领域的论文，为未来的研究提供了术语和框架。其方法论的选择是一个优势，产生了丰富的数据。作者也承认的一个显著缺陷是 样本规模与范围 （n=15，仅限初创公司）。这并非一次代表性调查，而是一次探索性的深度研究。此外，虽然它诊断了心智模型模糊的问题，但对于为何这些模型会模糊，则着墨较少。是由于缺乏教育、集成系统固有的复杂性，还是由于将不同威胁捆绑销售的“AI安全”解决方案的营销所致？本文也未能充分探讨一个关键的讽刺现象：从业者的整体观点是 更准确 从系统安全的角度来看（与MITRE ATLAS等框架保持一致），但学术界以模型为中心的聚焦研究推动了算法方面的大部分进展。弥合这一差距才是真正的挑战。

可操作的见解： 对于 研究人员，要求很明确：停止在真空中发表攻击方法。将每一种新威胁都置于现实世界的流程图中进行阐述。与软件工程和安全团队协作。为 端到端系统安全制定基准，而不仅仅是模型的鲁棒性。对于 行业领袖与工具开发者，投资于集成化的MLSecOps平台。不要仅仅销售一个“对抗性训练”模块；要销售一个能够识别从数据摄取到预测记录全流程漏洞的管道扫描器。对于 从业者与教育者，利用这项研究来倡导并开发区分威胁格局的培训：解释成员推理攻击如何利用模型过拟合（一种统计缺陷），而如何植入后门则是一种供应链/数据完整性缺陷。这种概念上的清晰度是迈向有效防御的第一步。最终，该领域必须从发表针对孤立模型的巧妙攻击，走向工程化的安全机器学习系统。这篇论文是一个鲜明的警钟，提醒我们尚未达到这一目标。

目录