异常检测(Anomaly Detection)
异常检测是一个非监督学习算法,用于发现可能不应该属于一个已定义的组中的数据。
评价一个异常检测系统
由于是非监督学习,无法根据结果变量y的值来判定数据是否真有异常。因此开发异常检测系统时,我们从带标记(异常或正常)的数据着手,我们从其中选择一部分正常数据用于构建训
练集,然后用剩下的正常数据和异常数据混合的数据构成交叉检验集和测试集。
例如:我们有 10000 台正常引擎的数据,有 20台异常引擎的数据。
我们这样分配数据:
1、6000台正常引擎的数据作为训练集
2、2000台正常引擎和10台异常引擎的数据作为交叉检验集
3、2000台正常引擎和10台异常引擎的数据作为测试集
具体的评价方法如下:
根据测试集数据,我们估计特征的平均值和方差并构建 p(x)函数
对交叉检验集,我们尝试使用不同的ε值作为阀值,并预测数据是否异常,根据F1值或者查准率与查全率的比例来选择ε
选出ε后,针对测试集进行预测,计算异常检验系统的 F1值或者查准率与查全率之比 。
异常检测 vs 监督学习
异常检测 | 监督学习 |
---|---|
非常少量的正向类(异常数据 y=1), 大量的负向类(y=0) | 同时有大量的正向类和负向类 |
许多不同种类的异常,非常难根据少量正向类数据训练算法;未来遇到的异常可能与已掌握的异常非常不同 | 有足够多的正向类实例,未来遇到的正向类实例与训练集中的非常近似 |
例如 | 例如 |
1、欺诈行为检测 | 1、邮件过滤器 |
2、生产(例如飞机引擎) | 2、天气预报 |
3、检测数据中心的计算机运行状态 | 3、肿瘤分类 |
选择特征
通常使用高斯分布模型或多元高斯分布模型