以数据为中心和模型为中心的AI是贝叶斯论和频率论的另一种变体吗？

时间：2023-07-17 17:07:00 13d1压式传感器

五年前，所有的深入研究都是关于如何建立一个新的、更优化的模型，以便更好地从非结构化数据中学习。这些努力带来了许多研究突破和神经网络的可能性。但慢慢地，越来越多的人批评了这种方法，并建议首先关注数据的质量和一致性。这些批评通常来自于在关键业务环境中长期大规模运营模型的行业和专业人士。

在本文中，我将为这两种方法提供一个新的视角。我将从统计的角度看它们，看看它们是否能解释哪种方法更好，在什么情况下更好。

统计学有两个学派——频率派和贝叶斯派——它们有趣地与我们的主题相似。

在频率派中寻找概率 p(data|model)，这意味着我们假设数据和知道模型。换句话说，模型是确定的（至少在工作目的上），但我们不确定的测量，即数据，可能或不完美地反映模型（甚至现实）。
在贝叶斯方法中，我们寻找的概率是p(model|data)，也就是说，我们假设模型，知道数据。我们的模型是不确定的，数据是我们的基本事实——我们唯一知道的是手头的数据。

这些假设也导致了两种方法的不同重点。频繁主义者的方法涉及大量异常值、匹配方差和样本大小的概念，即以数据为中心，不太关心模型。另一方面，贝叶斯的方法是先验、可信度和抽样，这意味着它们以模型为中心。为了理解如何帮助我们更好地描述以模型为中心，以数据为中心的模型AI让我们考虑一下统计学中最重要的方程：贝叶斯定理：

这意味着通过了解我们对模型(即 p(model) ）和数据（即 p(data) ）我们可以合并这两种看似相反的观点。还有细节决定成败。这些无条件的概率在实践中会造成很多问题。让我们继续讨论

以模型为中心的归纳偏差和归纳偏差AI

我们取p(model)，这是一个特定模型拟合未来数据点的可能性。如果它很高，这意味着我们相信有一个很好的数据模型。最大化这一概率的策略之一是在模型中添加一些归纳偏差。归纳偏差基本上是研究人员对问题空间的先验知识的升华。这就是为什么它以模型为中心AI我们喜欢：

引入受生物启发的架构(如卷积滤波器)
定义复杂/复合损失函数(如感知损失)
尝试网格/随机搜索超参数的可行范围

这些实际上是非常强大的方法。但这里有一个大问题：归纳偏差（无论它是否有用）仍然是一种偏差。

在选择特定的架构时，也限制了从数据中学到的东西。但有时我们喜欢这样做，因为：

(1)我们知道数据中有噪音(即任务无关方差)和/或/

(2)我们没有足够的数据来学习任何函数。

因此，我们提出了两种主要的缓解措施：

(1)添加更多数据，以训练更复杂的模型。

(2)将问题分解成步骤，并为其训练单独的模型。

研究人员观察到的一件重要事是，添加的数据越多，归纳偏差就越小。例如，对试图学习的领域，transformer只需要很小的归纳偏差，但需要更大的数据(记住VIT吗）。事实上，我们总是希望尽可能少地使用归纳偏差，因为我们希望AI系统解决的大部分任务都不容易创建先验模型(想象围棋或蛋白质折叠)。当我们没有正确的模型架构来完成任务时，无论如何有效地寻找超参数，它都将以低于标准的性能结束。

贝叶斯模型也有同样的问题。有些模型有更好的超参数和数据拟合，但只要正确模型不包含在初始集中，更好的拟合客观上可能仍然非常糟糕。

以数据为中心AI

以数据为中心的人工智能不仅得到了那些能够访问大量数据的人的支持，而且还认为训练数据越多越好。为了理解为什么，让我们回到贝叶斯定理。我们在方程中得到的除数p(data)又称证据概率

先简单解释几个主要概念:

在上式中，P(model|data)是后验概率(Posterior)

P(data|model)是似然(Likelihood)

P(model)是先验概率(Prior)

P(data)是证据(Evidence)

为什么要给这些概率取这样的名字？

在贝叶斯方法中，我们知道数据，假设模型

先验概率(Prior)：在观测到data后，model这是未知的。我们的目标是计算它是什么model我们在观察之前已经知道了概率data是model所以概率P(model)叫做先验概率。

后验概率(Posterior)：在观测到data后，知道data的信息后，model概率发生了变化。因为这个概率P(model|data)观察后才知道，所以叫后验概率

证据(Evidence)：因为我们已经知道了data，这个事实已经被观察到了，所以这对我们来说是一个证据，我们观察到这个证据的概率P(data)就叫证据

似然(Likelihood)：字典意味着事情发生的可能性或概率。在这个例子中，它表示data是model时，它是data的概率。

这些名字的根本原因是事件的顺序(发生在观察前或之后)不同。

这听起来有点晦涩难懂，在现实场景中，你应该知道潜在的分布p(data)这是非常困难的，因为我们愿意相信我们得到的数据是从潜在的分布中采样的，但实际上是在测量异常值和/或通过噪声的设备中采样的。

因此，在以模型为中心的方法中，我们试图完全避免这个问题。在典型的拟合优度测量（贝叶斯因子、似乎等）中，我们只提出了证据概率。这就是为什么这些测量标准总是比率，也就是说，它们只能判断一个模型是否比另一个模型好。

然而，对于现实生活中的任何应用（例如，客户损失预测），我们对最佳模型的相对质量不感兴趣，而是对其泛化（例如，避免客户损失）感兴趣。因此，在以数据为中心的人工智能方法中，我们希望致力于改进p(data)总结和总结知识。因此，我想出了许多可用的方法：

监控数据质量，控制数据中的噪声和倾斜
进行更多的预处理，以减少训练和在线推理中异常值的影响
不同的数据子集采用不同的模型处理，提高了系统的整体性能

这些方法非常重要，尤其是在开发人工智能产品之初。我们最终得到的是一个训练有素的模型，模型架构和超参数可以建模和获取收集到的数据。

我参与了许多新开发的深度学习项目，我看到的每一个最大的改进都来自于数据清理。但清理数据不仅意味着处理异常值、缺失值和重复值，还意味着验证标记的一致性。有了更干净的数据，你就可以了p(data)更好的抽样，即可以利用不同的数据增强技术对潜在的例子进行更彻底的抽样。

一般·结尾的文章会告诉你:成年人不做选择题，我想：使用归纳偏见和清理数据。但我想说的是，同时以这两个为中心是不可能的，因为两者兼顾的问题是，如果你不选择一个为中心，另一个为辅助，你最终什么都得不到。在实践中，同时改进数据和模型会导致不明确的结果。例如，经过一周的变更，一个项目终于看到了改进效果。但是你应该把它归因于什么呢？是因为清理数据吗？还是因为在模型架构上工作？是两者的结合吗？你还是只能猜。而且，当看不到改进时，情况甚至更加困难:应该放弃这个架构吗？更换数据处理方法还是不应该同时把它们放在一起使用？

虽然这个例子有些夸张，但这是一个很好的实践：保持一切不变，只修改一个自变量，看看它对结果的影响。因此，修改不是从各个方面进行并行改变，而是以更结构化的方式解决问题：迭代。首先，以数据为中心是肯定的据达到良好的一致性质量，然后专注于增加模型的复杂性（无论是纯参数数量还是归纳偏差类型）。在进行项目时，要坚持对比。不仅需要管理超参数和模型，还需要使用不同版本的清晰名称标记数据集，以便更清楚地检查哪些变化导致了哪些改进，因此使用git进行版本管理是一个非常好方法。

https://avoid.overfit.cn/post/3f2c082d54544a2a8aca693206ca13d9

作者：ágoston T?r?k

锐单商城拥有海量元器件数据手册、IC替代型号，打造电子元器件IC百科大全！

以数据为中心和模型为中心的AI是贝叶斯论和频率论的另一种变体吗？

相关文章