若特征过多，则采用归一化、标准化等处理。
学习sklearn这个库里有很多函数，直接调用fit可以拟合。
一般都是为了好的拟合而寻找凸优化方案是呈现成本函数碗状，找到最低点很方便。
分类问题是监督学习主要类型。
有些公式中取平均时，分母会多一个2，这是为了在寻求偏导时抵消，使系数=1。
决策边界是模型函数绘制的曲线。
采用上采样、下采样场景：(分类时)正负样本分布不平衡。
在代码中，在前面添加此行，以避免莫名其妙的红字显示。
```
import warnings warnings.filterwarnings('ignore') 
```
dense表示全连接层。
LRN：局部响应归一化。
变形卷积核，可分离卷积？卷积神经网络十大拍案惊艳。
在相同的网络下，pre-training fine-tuning work最好的。论文阅读笔记:Object Detection Networks on Convolutional Feature Maps

※ 积累

※.1 数据集

工业缺陷

链接1 ??链接2

文物数据集

可到全国数字博物馆集群-博物中国去爬虫

※.2 数据增强模式

YOLOv5中的马赛克增强模式
生成高斯混合模型对抗网络数据增强算法
利用Albumentations数据增强工具。Pytorch使用albumentations实现数据增强
预处理
- 原始数据图像分割，然后将图像尺寸归一化，通过平移、翻转等数据操作扩展数据集
- 原始数据集的尺寸直接归一化，不同角度的数据增强翻转
Keras图像数据增强工具提供Image Data Generator

1 一些基本概念

1.0 监督员的定义

参考博客：有监督、半监督、无监督、弱监督、自监督的定义和区别

简单比喻全监督、半监督、无监督学习

监督:用标签数据进行培训；(平时做的题目有答案，参考答案全对；)
无监督:无标签数据培训；(平时做的题目没有答案；)
半监督：同时使用标签和无标签数据进行培训。最近很热，这个领域发展很快。以前通常是两个阶段的训练，先用标签数据训练(小规模)Teacher模型，然后用这个模型预测伪标签(大规模)无标签数据，作为Student模型训练数据；目前直接有很多end-to-end地面训练，大大减少半监督训练工作；(平时做的题目，一半有答案；)
自我监督：训练无标记数据，让模型通过一些方法学习数据inner representation，再接下游任务，比如加一个mlp作为分类器等。但在接受下游任务后，您仍然需要在特定的标签数据上finetune，只是有时候可以选择完全固定前层，只是finetune网络连接的网络参数。(域适应:在平时做的题目中，总结训练，将经验转移到高考中，做出答案。）
弱监督：用包含噪声的有标签数据训练。(平时做的题有答案，但答案不一定正确；)

上述概念的分类并不严格相互排斥。

1.1 性能评价指标

1.1.0 baseline,backbone和benchmark

一般用benchmark data 做实验，测试A B C D四个模型，然后结果最差假设是的模型C，作为baseline，看看其他模型比C增加了多少。

直接用别人的模型baseline，然后在别人的模型上添加各种模型components。那这个时候可以把baseline看成benchmark。我的理解是benchmark在不同的语境下，它是每个人都认可的标准benchmark指令可能不同。例如，有人得到了一个非常好的数据集，它对应于某个数据集task，那么作者肯定会提出解决方案task模型，然后很多人follow这个task，这个数据集自然是benchmark data，这种方法是benchmark method（model）。baseline和benchmark有什么区别？

baseline(基线):模型能达到的最差的效果；
benchmark：现在的模型能达到更好的效果；再往上就是state of art（SOTA）行业顶尖。
backbone(核心、支柱):骨干网络。在神经网络中，尤其是CV一般先领域提取图像的特征（常见的有vggnet，resnet，谷歌的inception），这部分是整个CV任务的基础，因为后续的下游任务是基于提取的图像特征（如分类、生成等）。backbone是什么意思

1.1.1 模型评价指标AUC（area under the curve）

AUC是机器学习领域的模型评价指标。根据维基百科的定义，AUC(area under the curve)是ROC曲线下的面积。

参考博客：模型评价指标：AUC（area under the curve）

评价指标要好好的去设计一下，因为正负样本可能不均衡。

1.1.2 二分类问题

正样本（positive）、负样本（negative）

1.正确肯定（true positive，TP）：预测为真，实际为真

2.正确否定（true negative，TN）：预测为假，实际为假

3.错误否定（false negative，FN）：预测为假，实际为真。

4.错误肯定（false positive，FP）：预测为真，实际为假。

混淆矩阵Confusion matrix

召回率（recall），也称真阳性率（true positive rate,TPR），灵敏度，查全率。（实际正样本中被预测为正的概率，横着看）
$\operatorname{Recall}(T P R)=\frac{T P}{T P+F N}$
精确度(precision)也称精度，查准率，阳性预测值(positive predictive value, PPV)。（预测为正样本中被预测为正的概率，竖着看）
$\operatorname{Precision}(PPV)=\frac{TP}{TP+FP}$
Dice 相似系数也称 F1 分数(F1-Score)，描述的是召回率与精确度之间的关系，公式为：
$\operatorname{Dice}=\frac{2TP}{2TP+FP+FN}$
或
$\operatorname{F_1}=\frac{2×PPV×TPR}{PPV+TPR}$
F1 是一个特殊值，其更一般的表示为 F-Score或 F-Measure：
$F-Score=(α^2+1)\frac{PPV×TPR}{α^2PPV+TPR}$
其中α为对TPR与PPV的加权求和。召回率与精确度一样重要时，令α=1，即为 $F_1$ ；当认为精确度重要时，令α<1；反之认为召回率重要些时，则令α>1。

特效度（specificity）也称 TNR（true negativerate），表示负样本被准确预测，公式为：
$Specificity(TNR)=\frac{TN}{TN+FP}$
特效度与误判率成反比，在检测中特效度低，则说明部分样本原本是负样本被模型误判成了缺陷。

假阳性率（false positive rate, FPR），又称误检率，虚警率：
$FPR=\frac{FP}{TN+FP}$
假阴性率（false negative rate, FNR），又称漏检率，漏警率：
$FNR=\frac{FN}{TN+TP}$
准确率（accuracy, ACC），一般情况下，ACC 越高模型越好，但样本不平衡时，ACC 不能很好地评估模型性能。
$C=\frac{T P+T N}{T P+F P+T N+F N}$
平衡准确率(balanced accuracy,BA)：
$BA=\frac{FN}{TN+TP}$
马修斯相关系数 （ Matthews correlation coefficient, MCC）综合了 TPR、TNR、FPR、FNR，是一种比较全面的指标，可以评估样本不平衡下的缺陷检测模型性能。
$C=\frac{T P \times T N-F P \times F N}{\sqrt{(T P+F P)(T P+F N)(T N+F P)(T N+F N)}}$
mAP(mean average precision)是指各个类别预测正确的样本数占总样本数的平均值，越大越好。mAP 中的“AP(average precision)”是指平均精确度。当n=2时，则为二分类问题。当遇到多分类问题时n=类别数+1，因为需要加上背景。
$mAP=\frac{\sum PPV}{n}$
像素准确率(pixel accuracy, PA)，常用于语义分割判断分对的像素数量占总像素数量的比率：
$A=\frac{\sum_{i=0}^{k} p_{i i}}{\sum_{i=0}^{k} \sum_{j=0}^{k} p_{i j}}$
平均像素准确率（mean pixel accuracy, mPA），是对 PA 求平均。
$A=\frac{1}{k+1} \sum_{i=0}^{k} \frac{p_{i i}}{\sum_{i=0}^{k} p_{i j}}$
平均交并比（mean intersection over union, mIoU）表示标注的准确性。
$U=\frac{1}{k+1} \sum_{i=0}^{k} \frac{p_{i i}}{\sum_{i=0}^{k} p_{i j}+\sum_{j=0}^{k} p_{j i}-p_{i i}}$
PA、mPA、mIoU 都为判断语义分割准确率的指标，其中 k 为总类别数， k+1 为加上背景， $P_{ij}$ 为第 $i$ 类像素被判为 $j$ 类的数量， $元器件数据手册$ 、IC替代型号，打造电子元器件IC百科大全！

【积累】机器学习知识

相关文章