异常事件检测小论文

3个回答默认排序

默认排序

按时间排序

casa1363007

已采纳

奶粉营销如何走好“健康”渠道？阜阳“毒奶粉”事件在近期被广大媒体曝光后，已经引起党和国家的高度重视。众多奶粉企业也陷入了一场企业或者说是行业的危机之中。而现在,北京的大部分家长青睐洋奶粉,然而洋奶粉的质量就一定让人放心吗?批号为1s192的惠氏“学儿乐”配方奶粉检出亚硝酸盐含量为毫克/公斤，超过国家规定标准（≤2毫克/公斤）三倍多，共1200罐，计480公斤。 2002年5月16日，惠氏公司开始检测各种批号的“学儿乐”配方奶粉（含已进入销售渠道的），发现大批产品的亚硝酸盐含量不符合中国标准。同时，中国国家卫生部对“学儿乐”奶粉的抽检结果表明，有些奶粉亚硝酸盐含量达到毫克/公斤。……洋奶粉的销售策略也存在严重违规的地方：2002年5月23日，江南南昌省一附院住院部儿科。医生开出的正规处方单上，惠氏“爱儿素”配方奶粉赫然其中，经媒体报道后，洋奶粉的“中国策略”秘笈公诸于众，一片哗然。惠氏、多美滋、雀巢等几乎所有洋奶粉都在医院大行销售和推广。多美滋浙江省的营销机构中，10名营养代表，而销售代表只有3名，营养代表的工作对象就是医院。各区域的营养代表，也各司其职。雅培在福建某市的一些大医院里，医生每卖出一罐雅培奶粉将获利30元；还另享受“卖两件赠一件”的“奖励”。……在城市市场，大多是名牌奶粉的天下，而在广大的农村就是杂牌奶粉的天下。过去杂牌奶粉夹杂在名牌奶粉中鱼目混珠，以低劣的质量形成的低廉的价格铸成了杀手锏，这一点必须想法击破。而在大量假货被清除出市场的同时，农村市场暂时出现了“真空”地带，这也成为不可多得的营销机会。如果一线品牌抓住此机会很有可能让自己的品牌形象得到进一步的提升，而二线品牌则很可能跃为一线品牌。企业如何从危机中寻找营销机会？招术一：公益活动通过公益活动树立一个良好的社会形象，令公众对企业产生更高的认同度。“问题奶粉”事件是一个提升企业品牌形象、开展公益活动的最佳机会。企业可以联系有关媒体，对贫困者赠送奶粉，关爱婴儿健康成长，使企业成为传媒宣传的焦点。奶粉企业还可以适当组织医疗部门，为婴儿做健康检查。因二三流品牌的主要消费群体是乡镇市场，可先在主要市场与工商部门配合做奶粉知识、打假知识和婴儿吸收与健康知识的宣传，然后不定时地免费赠送。招术二：政府行业公关在危机到来之时，开展良好的政府和行业公关，可以为企业争取更多的社会资源和政治资源，在行业内树立权威地位。积极和政府相关职能部门沟通，如有必要可以提供赞助检测费用等方式来让政府部门对公司产生好的印象，与此同步的是为在医院治疗的幼儿提供免费奶粉，为因食用劣质奶粉而死亡的婴儿家庭捐赠财物，以建立良好的社会形象。主动协同行业协会一起开展类似行业发展、诚信经营、安全生产、打假治劣的研讨会，制订行业和企业发展自律宣言等。招术三：提炼概念利用“问题奶粉”事件，企业可以从产品概念和产品定位上进行良好的营销策略组合。截止到目前，很多企业都采取了一定的营销策略，但还很少发现有从奶源上做概念、从产品本身做概念的企业。目前国内的奶源资源非常有限，如果有企业能从企业奶源上找到比较好的营销卖点和产品卖点，再结合到对孩子成长有利无害角度上去做，效果一定不错。招术四：“放心奶粉工程”二、三线的奶制品企业可以抓住时机进行品牌推广和突破。可以在媒体上征询部分有一定社会影响力和代表性的消费者到厂部参观放心奶粉的生产过程。在企业内部成立品牌推广活动小组，开展“放心奶粉工程”品牌推广活动。同时，企业可以选择一些媒体发布关于奶粉知识和对此事件看法的文章，观点一定要独到，最终把话题引入到自己的品牌上面。与此同时应积极地和主流媒体保持较顺畅的沟通。招术五：组合投放广告针对广大消费者和农村三、四级市场推出组合式的广告，达到快速和有效传播的目的。针对终端和一级市场以最快的速度出来一份主题为“放心奶粉工程”创意简报，然后设计好POP、售点广告、平面广告、电视广告片。当奶粉事件最终定性的时候，媒体肯定会把注意力都放在上面，此时公司如果适时推出准备充分的工作，在卖场通过主题活动提升品牌形象，在一般的零售点通过售点广告、POP等传递放心奶粉信息。加之电视、平面广告的同期推出，必然反响空前。招术六：重整渠道奶粉企业可以适当增加乡镇奶粉经销商的经营利润，开发针对农村市场的专供奶粉，以利益驱动使经销商愿意卖、愿意主动推荐，消费者愿意买。此外，也可到各个重要的乡镇巡回搞些活动（比如免费赠送+免费咨询+亲情服务等等），使得品牌、企业贴近那里的顾客，建立感情，让人们认牌销售，达到终端推动的目的。还可以适当考虑从乡镇、农村中选出几位相对有文化，素质，又有一定号召力的人，适当培训，配上符合当地实际的管理方法，让他们把宣传活动长期做下去。

154 评论 2小时前发布

king独秀

异常检测（Anomaly Detection）是机器学习算法的一个常见应用。它主要用于非监督学习，但又类似一些监督学习问题。

异常检测常用在对网站异常用户的检测；还有在工程上一些零件，设备异常的检查；还有机房异常机器的监控等等

假设有数据集，当又有一个新的测试样本；想要知道这个新样本是否是异常的；首先对x的分布概率建模p(x) ，用来说明这个例子不是异常的概率；然后定一个阈值，当时说明是异常的。

当出现在高概率分布的区域时，说明该例子时正常的；当出现在低概率的区域时，说明是异常的。

高斯分布又被称之为正态分布，曲线呈钟型，两头低，中间高，左右对称因其曲线呈钟形，因此人们又经常称之为钟形曲线

假设x是一个实数随机变量，如果它的概率分布为高斯分布，定义几个变量： =平均值 =标准差 =方差那么x的概率分布可以用公式来表示：

其平均值决定了其位置，其标准差决定了分布的幅度

完整的高斯分布的概率公式为：

当参数平均值和标准差变化时：

关于平均值和方差的求解：

在一个异常检测的例子中，有m个训练样本，每个样本的特征值数量有n个，那么某个样本的分布概率模型p(x)就可以用样本的每个特征值的概率分布来计算：上面的式子可以用更简洁的方式来表达

总计一下，异常检测的过程：

如何评估一个异常检测算法，以及如何开发一个关于异常检测的应用：

首先，在获取到的一堆数据中，取一大部分正常的（可能包含少部分异常）的数据用于训练集来训练分布概率公式p(x)。

然后，在交叉验证和测试集中使用包含正常和一定比例异常的数据，来通过查准率和召回率，以及F值公式来评价一个算法。

举个例子

假设有：

下面分割一下训练集，交叉验证集和测试集：

在训练集上训练出概率分布函数p(x) 在交叉验证集上，预测y：

下面通过和真实标签的比较，可以计算出查准率（Precision）和召回率（Recall），然后通过F值公式来得到一个数值。

总结一下，我们将正常的数据分成60:20:20,分别给训练集，交叉验证集，测试集，然后将异常的数据分成两半，交叉验证集和测试集各一半。我们可以通过改变不同的阈值从而得到不同的评价系数来选取一个最佳的阈值。当得到的评价系数不佳时，也可以通过改变特征值的种类和数量来获取理想的评价系数

在使用异常检测时，对性能影响最大的因素是特征值的选择。

首先要对特征向量使用高斯分布来建模，通常情况下，我们得到的原始数据并没有呈现高斯分布，例如这种：

有几种方法可以实现：

通过上述办法，可以将数据转换成高斯分布的形式。

异常检测有点类似监督学习中的二元分类问题。我们的目标是使得p(x)对于正常的数据来说是大的，而对于异常的数据来说是很小的，而在异常检测中一个常见的问题是最终我们的到的p(x)对于正常和异常的都很大。在这种情况下需要观察一下交叉验证集中的异常示例，尝试找出能更好区分数据的新特性。

例子

例如，有一个关于机房机器的样本示例，开始收集的样本示例中包含的特征值有关于cpu负载和网络流量的。

cpu负载和网络流量是呈线性关系的，当网络流量变大时，cpu也会相应增大。

现在有一个异常的示例是网络流量不大，cpu确负载很大。假如在只有这两个特征值的情况下运行异常检测算法得出的p(x)，可能就效果不佳。这时可以添加一个特征值，是流量和cpu的比例关系，这样就约束来上述的异常示例，通过这三个特征值得到的异常检测算法可能就会好一点。

异常检测一般用于：样本中的数量非常少（0-50个），而的非常多。这样由于样本数量的过少，达不到良好的训练效果，而在异常检测中确能够表现良好。还有就是导致的情况非常多，且有不可预见性。

监督学习一般用于：样本中和的数量都非常多。这样就有足够的样本数量去训练算法。

多元高斯分布是异常检测的一种推广，它可能会检测到更多的异常。

在原始高斯分布中，模型p(x)的搭建是通过分别计算来完成的，而多元高斯分布则是一步到位，直接计算出模型： PS：是一个协方差矩阵。

通过改变和可以得到不同的多元高斯分布图：

原始高斯分布模型，它的多个特征值之间的关系是轴对齐的（axis-aligned），两个或多个高斯分布之间没有相关性。而多元高斯分布能够自动捕获x的不同特征之间的相关性。因此它在图像上会现实椭圆或有斜率的椭圆。

在平常的使用中，一般是使用原始高斯分布模型的，因为它的计算成本比较低。在多元高斯分布中，因为要计算多个特征值之间的相关性，导致计算会慢很多，而且当特征值很多是，协方差矩阵就会很大，计算它的逆矩阵就会花费很多时间。

要保证样本数量m大于特征值数量n，否则协方差矩阵会不可逆；根据经验法则，当时，多元高斯分布会表现良好。

在原始高斯分布模型中可以手动添加相关性高的特征值之间的关系，可以避免了使用多元高斯分布，减小计算成本。

219 评论 6小时前发布

猫熊奶奶

统计学方法有效性高度依赖于给定数据所做的统计的模型假设是否成立。

异常检测的统计学方法的一般思想是：学习一个拟合给定数据集的生成模型，然后识别该模型低概率区域中的对象，把他们作为异常点例如：正态分布的3个之外的点为异常点，箱线图中超过2个Q的点为异常点

根据如何指定和学习模型，异常检测的统计学方法可以划分为两个主要的类型：参数方法和非参数方法

参数方法假定正常的数据对象被一个以为参数的参数分布产生。该参数分布的概率密度函数给出对象被该分布产生的概率。该值越小, 越可能成为异常点。

非参数方法并不假定先验统计模型，而是试图从输入数据确定模型。非参数方法通常假定参数的个数和性质都是灵活的，不预先确定（所以非参数方法并不是说模型是完全无参的，完全无参的情况下从数据学习模型是不可能的）。

仅涉及一个属性或变量的数据称为一元数据。我们假定数据由正态分布产生，然后可以由输入数据学习正态分布的参数，并把低概率的点识别为异常点。

假定输入数据集为，数据集中的样本服从正态分布，即，我们可以根据样本求出参数和。

求出参数之后，我们就可以根据概率密度函数计算数据点服从该分布的概率。正态分布的概率密度函数为

如果计算出来的概率低于阈值，就可以认为该数据点为异常点。

阈值是个经验值，可以选择在验证集上使得评估指标值最大（也就是效果最好）的阈值取值作为最终阈值。

例如常用的3sigma原则中，如果数据点超过范围，那么这些点很有可能是异常点。

这个方法还可以用于可视化。箱线图对数据分布做了一个简单的统计可视化，利用数据集的上下四分位数（Q1和Q3）、中点等形成。异常点常被定义为小于Q1－或大于Q3+的那些数据。

用Python画一个简单的箱线图：

涉及两个或多个属性或变量的数据称为多元数据。许多一元异常点检测方法都可以扩充，用来处理多元数据。其核心思想是把多元异常点检测任务转换成一元异常点检测问题。例如基于正态分布的一元异常点检测扩充到多元情形时，可以求出每一维度的均值和标准差。对于第维：

计算概率时的概率密度函数为

这是在各个维度的特征之间相互独立的情况下。如果特征之间有相关性，就要用到多元高斯分布了。

在许多情况下假定数据是由正态分布产生的。当实际数据很复杂时，这种假定过于简单，可以假定数据是被混合参数分布产生的。

在异常检测的非参数方法中，“正常数据”的模型从输入数据学习，而不是假定一个先验。通常，非参数方法对数据做较少假定，因而在更多情况下都可以使用。

例子：使用直方图检测异常点。

直方图是一种频繁使用的非参数统计模型，可以用来检测异常点。该过程包括如下两步：

步骤1：构造直方图。使用输入数据（训练数据）构造一个直方图。该直方图可以是一元的，或者多元的（如果输入数据是多维的）。

尽管非参数方法并不假定任何先验统计模型，但是通常确实要求用户提供参数，以便由数据学习。例如，用户必须指定直方图的类型（等宽的或等深的）和其他参数（直方图中的箱数或每个箱的大小等）。与参数方法不同，这些参数并不指定数据分布的类型。

步骤2：检测异常点。为了确定一个对象是否是异常点，可以对照直方图检查它。在最简单的方法中，如果该对象落入直方图的一个箱中，则该对象被看作正常的，否则被认为是异常点。

对于更复杂的方法，可以使用直方图赋予每个对象一个异常点得分。例如令对象的异常点得分为该对象落入的箱的容积的倒数。

使用直方图作为异常点检测的非参数模型的一个缺点是，很难选择一个合适的箱尺寸。一方面，如果箱尺寸太小，则许多正常对象都会落入空的或稀疏的箱中，因而被误识别为异常点。另一方面，如果箱尺寸太大，则异常点对象可能渗入某些频繁的箱中，因而“假扮”成正常的。

BOS全名为：Histogram-based Outlier Score。它是一种单变量方法的组合，不能对特征之间的依赖关系进行建模，但是计算速度较快，对大数据集友好。其基本假设是数据集的每个维度相互独立。然后对每个维度进行区间(bin)划分，区间的密度越高，异常评分越低。

HBOS算法流程：

1.为每个数据维度做出数据直方图。对分类数据统计每个值的频数并计算相对频率。对数值数据根据分布的不同采用以下两种方法：

静态宽度直方图：标准的直方图构建方法，在值范围内使用k个等宽箱。样本落入每个桶的频率（相对数量）作为密度（箱子高度）的估计。时间复杂度：

2.动态宽度直方图：首先对所有值进行排序，然后固定数量的个连续值装进一个箱里，其中N是总实例数，k是箱个数；直方图中的箱面积表示实例数。因为箱的宽度是由箱中第一个值和最后一个值决定的，所有箱的面积都一样，因此每一个箱的高度都是可计算的。这意味着跨度大的箱的高度低，即密度小，只有一种情况例外，超过k个数相等，此时允许在同一个箱里超过值。

时间复杂度：

2.对每个维度都计算了一个独立的直方图，其中每个箱子的高度表示密度的估计。然后为了使得最大高度为1（确保了每个特征与异常值得分的权重相等），对直方图进行归一化处理。最后，每一个实例的HBOS值由以下公式计算：

推导过程：

假设样本p第 i 个特征的概率密度为，则p的概率密度可以计算为：两边取对数：概率密度越大，异常评分越小，为了方便评分，两边乘以“-1”：最后可得：

1.异常检测的统计学方法由数据学习模型，以区别正常的数据对象和异常点。使用统计学方法的一个优点是，异常检测可以是统计上无可非议的。当然，仅当对数据所做的统计假定满足实际约束时才为真。

在全局异常检测问题上表现良好，但不能检测局部异常值。但是HBOS比标准算法快得多，尤其是在大数据集上。

295 评论 9小时前发布

异常事件检测小论文

3个回答 默认排序 默认排序 按时间排序

相关问答

期刊论文

向你推荐

热门问题

3个回答默认排序

默认排序

按时间排序