文本聚类论文发表外刊推荐

2个回答默认排序

默认排序

按时间排序

JACK赵俊

已采纳

聚类分析算法论文

聚类分析又称群分析，它是研究（样品或指标）分类问题的一种统计分析方法，同时也是数据挖掘的一个重要算法。下面是我分享给大家的聚类分析算法论文，欢迎阅读。

一、引言

聚类分析算法是给定m维空间R中的n个向量，把每个向量归属到k个聚类中的某一个，使得每一个向量与其聚类中心的距离最小。聚类可以理解为：类内的相关性尽量大，类间相关性尽量小。聚类问题作为一种无指导的学习问题，目的在于通过把原来的对象集合分成相似的组或簇，来获得某种内在的数据规律。聚类分析的基本思想是：采用多变量的统计值，定量地确定相互之间的亲疏关系，考虑对象多因素的联系和主导作用，按它们亲疏差异程度，归入不同的分类中一元，使分类更具客观实际并能反映事物的内在必然联系。也就是说，聚类分析是把研究对象视作多维空间中的许多点，并合理地分成若干类，因此它是一种根据变量域之间的相似性而逐步归群成类的方法，它能客观地反映这些变量或区域之间的内在组合关系。盐矿区系统是一个多层次、复杂的大系统,涉及诸多模糊、不确定的因素。平顶山市盐矿区的经济分类是以整个平顶山市的所有盐矿区为研究对象,以各盐矿区为基本单元,以经济为中心,以发展战略和合理布局为目标进行经济类型区划。其基本原则是：平顶山市的盐矿区资源开发、利用的相对一致性；自然、经济、社会条件的一致性；保持一定行政地域单元的相对稳定性。现行的平顶山市盐矿区行政划分不能反映出各个盐矿区的共同点,有必要通过模糊聚类分析将那些经济实际状况相似的铁矿区归类，剖析、发现各况矿区的差异,对症下药，为制定发展对策提供依据。

二、建立指标体系

1、确定分类指标进行经济区划分，应考虑的指标因素是多种多样的。既要以岩盐矿资源储量为主，又要适当考虑岩盐质量和勘察阶段和开发利用状况；既要有直接指标，又要有间接指标；既要考虑矿区发展的现状，又要考虑矿区发展的过程和矿区发展的未来方向。参考有关资料，结合专家意见，我们确定了对平顶山市盐矿区进行经济区划分的指标。如表1所示。表中列举了具体指标及各指标的原始数据（数据来源于河南省2006年矿产资源储量简表）。表1盐矿区经济划分指标体系及指标数据注：表中N表示缺失数据，勘察阶段1、2、3分别表示：初步勘探、详细普查、详细勘探，利用状况1~7分别表示：近期不宜进一步工作、可供进一步工作、近期难以利用、推荐近期利用、计划近期利用、基建矿区、开采矿区。

2、转换指标数据由于不同变量之间存在不同量纲由于不同变量之间存在不同量纲、不同数量级，为使各个变量更具有可比性，有必要对数据进行转换。目前进行数据处理的方法大致有三种，即标准化、极差标准化和正规化。为便于更直观的比较各市之间同一指标的数值大小，我们采用了正规化转换方式。其计算公式为:为了方便叙述，做如下设定：设Xi(i=1，2，3，…，21)为具体指标层中第i个评价指标的值，Pi(i=1，2，3，…，21)为第i个指标正规化后的值，0≤Pi≤1，Xs,i(Xs,i=Xmax-Xmin)，为第i个评价指标的标准值，Xmax为最大值，Xmin为最小值。（1）对于越高越好的`指标①Xi≥Xmax，则Pi=1；②Xi≤Xmin，则Pi=0；③Xmin

三、聚类分析

1、聚类步骤(Stage).从1~3表示聚类的先后顺序。

2、个案合并(ClusterCombined)。表示在某步中合并的个案，如第一步中个案1叶县田庄盐矿段和个案2叶县马庄盐矿段合并，合并以后用第一项的个案号表示生成的新类。

3、相似系数(Coefficients).据聚类分析的基本原理，个案之间亲密程度最高即相似系数最接近于1的，最先合并。因此该列中的系数与第一列的聚类步骤相对应，系数值从小到大排列。

4、新类首次出现的步骤(StageClusterFirstAppears)。对应于各聚类步骤参与合并的两项中，如果有一个是新生成的类(即由两个或两个以上个案合并成的类)，则在对应列中显示出该新类在哪一步第一次生成。如第三步中该栏第一列显示值为1，表示进行合并的两项中第一项是在第一步第一次生成的新类。如果值为O，则表示对应项还是个案(不是新类)。

5、新类下次出现步骤(NextStage)。表示对应步骤生成的新类将在第几步与其他个案或新类合并。如第一行的值是11，表示第一步聚类生成的新类将在第11步与其他个案或新类合并。

6、解析图DendrogramusingAverageLinkage(BetweenGroups)RescaledDistanceClusterCombine聚类树状图（方法：组间平均连接法）图清晰的显示了聚类的全过程。他将实际距离按比例调整到0~25之间，用逐级连线的方式连接性质相近的个案或新类，直至并未一类。在该图上部的距离标尺上根据需要(粗分或细分)选定一个划分类的距离值，然后垂直标尺划线，该垂线将与水平连线相交，则相交的交点数即为分类的类别数，相交水平连线所对应的个案聚成一类。例如，选标尺值为5，则聚为3类：叶县田庄盐段、叶县马庄盐矿段为一类，叶县娄庄盐矿、叶县五里堡盐矿段为一类，叶县姚寨盐矿为一类。若选标尺值为10，则聚为2类：叶县田庄盐段、叶县马庄盐矿段为一类，叶县娄庄盐矿、叶县五里堡盐矿段、叶县姚寨盐矿为一类。

四、结论

对平顶山市5个盐矿区进行经济区划分，究竟划分为几个区合适，既不是越多越好，也不是越少越好。划分经济区的目的，就是要根据各盐矿经济区资源特点、勘察、开发的不同，分类指导经济活动，使人们的经济活动更加符合当地的实际，使各经济区能充分发挥各自的优势，做到扬长避短，趋利避害，达到投人少、产出多，创造良好的经济效益和社会效益之目的。分区太多，就失去了分区的意义，分区太少，则分类指导很难做到有的放矢。综合以上聚类分析结果，我们可以得出三个方案。其中两个方案比较合适,可供选择。方案一：（当比例尺为5时，分为3类）叶县田庄盐段、叶县马庄盐矿段为一类，叶县娄庄盐矿、叶县五里堡盐矿段为一类，叶县姚寨盐矿为一类。从聚类分析中看出平顶山市盐矿区分类图方案一。方案二：(当比例尺为10时，分为2类）叶县田庄盐段、叶县马庄盐矿段为一类，叶县娄庄盐矿、叶县五里堡盐矿段、叶县姚寨盐矿为一类。从聚类分析中看出平顶山市盐矿区分类图方案二。平顶山市盐矿区分类图方案2聚类分析的原理就是将矿石质量、资源储量、勘查阶段、利用状况相近或相类似的矿区聚合在一起，其分析结果也是直观易见的。在此结合平顶山市实际行政区划以及矿山企业特征我们对铁矿区划分做一个调整使其理论与实际能够结合的更紧密使其更好的指导实践。

1、叶县田庄盐段、叶县马庄盐矿段为一类，这一类属于矿床规模相当，资源储量接近，勘查开发阶段接近，利用程度相当，故，可以分为一类。

2、叶县娄庄盐矿、叶县五里堡盐矿段为一类，这一类属于勘查开发阶段处于同一阶段。

3、叶县姚寨盐矿为一类，这一类属于储量较高，盐矿品位较高，故其勘察开采规划有别于其它两类。总的说来，运用聚类分析是基本成功的，大部分的分类是符合实际的。综合以上论述盐矿区划分如下表所示：当然聚类分析有其优点也有其缺点：(1)优点：聚类分析模型的优点就是直观，结论形式简明。(2)缺点：在样本量较大时，要获得聚类结论有一定困难。由于相似系数是根据被试的反映来建立反映被试问内在联系的指标，而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密的关系，但事物之间却无任何内在联系，此时，如果根据距离或相似系数得出聚类分析的结果，显然是不适当的，但是，聚类分析模型本身却无法识别这类错误。

145 评论 2小时前发布

母婴家居学院

按照处理的对象和处理的方法不同，可将常见文本分类/聚类任务分为以下几种：

① 文档聚类：把一组未知类别的文档划分为若干类别，例如将介绍奥运会的新闻都归到某一类；

② 文档分类：给定一个文档，将其划分到预定义好的某一个类别中，例如将所有介绍奥运会的新闻都标记为“体育”；

③ 词汇聚类：把一组未知类别的词汇划分为若干类别，例如将各种运动的项目名称（词汇）都归为一类；

④ 词汇分类：给定一个词汇，将其划分到预定义好的某一个类别中，例如将篮球、足球等都比较为球类，将打猎、射箭等都标记为射击。

要实现上述目的，通常有以下几个核心问题要解决：

1. 特征选择

1.1 用什么作为特征项

用于表示文本的基本单位通常称为文本的特征或特征项。特征项必须满足：能够标识文本内容、能够将目标文本与其他文本相区分、个数不能太多、特征项分离要比较容易实现。在中文文本中可以采用字、词或短语作为表示文本的特征项。

相比较而言，词比字具有更强的表达能力，而词和短语相比，词的切分难度比短语的切分难度小得多。因此，目前大多数中文文本分类系统都采用词作为特征项，称作特征词。这些特征词作为文档的中间表示形式，用来实现文档与文档、文档与用户目标之间的相似度计算。

1.2 选取哪些作为特征项

如果把所有的词都作为特征项，那么特征向量的维数将过于巨大，从而导致计算量太大，在这样的情况下，要完成文本分类几乎是不可能的。特征提取的主要功能是在不损伤文本核心信息的情况下尽量减少要处理的单词数，以此来降低向量空间维数，从而简化计算，提高文本处理的速度和效率。

特征选取的方式有2种：用映射或变换的方法把原始特征变换为较少的新特征（将原始特征用新特征表示）；从原始特征中挑选出一些最具代表性的特征（只保留部分原始特征，不产生新特征），即根据某个特征评估函数计算各个特征的评分值，然后按评分值对这些特征进行排序，选取若干个评分值最高的作为特征词，常见的特征评估函数包括TF-IDF、信息增益、互信息等。

2. 文本表示

2.1 如何表示文档

为了让计算机能够“计算”文本，就需要我们将文本数据转换成计算机可以处理的结构化数据。常见的文本表示模型有布尔模型、向量空间模型、统计主题模型等。其中，向量空间模型概念简单，把对文本内容的处理简化为向量空间中的向量运算，并且它以空间上的相似度表达语义的相似度，直观易懂，目前应用最广。

2.2 如何确立权重

一篇文档有很多词，有些词表达的语义很重要，有些相对次要，那么如何确定哪些重要？哪些次要呢？因此，需要进一步对每个词的重要性进行度量。常见的确立词汇权重的算法有TF-IDF、词频法等。

3. 相似性计算

要实现文本的分类和聚类，需要设计一种算法计算出文档与文档、词汇与词汇之间的相似性。

3.1 文档相似性

设定我们要比较X和Y间的差异，它们都包含了N个维的特征，即X=（x1, x2, x3, … xn），Y=（y1, y2, y3, … yn）。下面来看看主要可以用哪些方法来衡量两者的差异，主要分为距离度量和相似度度量。

a. 距离度量

距离度量（Distance）用于衡量个体在空间上存在的距离，距离越远说明个体间的差异越大。常见的距离有欧几里得距离(Euclidean Distance)、明可夫斯基距离(Minkowski Distance)、曼哈顿距离(Manhattan Distance)、切比雪夫距离(Chebyshev Distance)、马哈拉诺比斯距离(Mahalanobis Distance)。

b. 相似性度量

相似度度量（Similarity），即计算个体间的相似程度，与距离度量相反，相似度度量的值越小，说明个体间相似度越小，差异越大。常见的相似性度量有向量空间余弦相似度(Cosine Similarity)、皮尔森相关系数(Pearson Correlation Coefficient)、Jaccard相似系数(Jaccard Coefficient)、调整余弦相似度(Adjusted Cosine Similarity)。

欧氏距离是最常见的距离度量，而余弦相似度则是最常见的相似度度量，很多的距离度量和相似度度量都是基于这两者的变形和衍生，所以下面重点比较下两者在衡量个体差异时实现方式和应用环境上的区别。下面借助三维坐标系来看下欧氏距离和余弦相似度的区别：

从图上可以看出距离度量衡量的是空间各点间的绝对距离，跟各个点所在的位置坐标（即个体特征维度的数值）直接相关；而余弦相似度衡量的是空间向量的夹角，更加的是体现在方向上的差异，而不是位置。如果保持A点的位置不变，B点朝原方向远离坐标轴原点，那么这个时候余弦相似度cosθ是保持不变的，因为夹角不变，而A、B两点的距离显然在发生改变，这就是欧氏距离和余弦相似度的不同之处。

根据欧氏距离和余弦相似度各自的计算方式和衡量特征，分别适用于不同的数据分析模型：欧氏距离能够体现个体数值特征的绝对差异，所以更多的用于需要从维度的数值大小中体现差异的分析，如使用用户行为指标分析用户价值的相似度或差异；而余弦相似度更多的是从方向上区分差异，而对绝对的数值不敏感，更多的用于使用用户对内容评分来区分用户兴趣的相似度和差异，同时修正了用户间可能存在的度量标准不统一的问题（因为余弦相似度对绝对数值不敏感）。

3.2 词汇相似性

目前我接触的常见词汇相似性的方法有：

a. 传统图情领域：基于共现频次这一基本统计量衍生出来的，如association strength、inclusion index、Jaccard’s coefficient、Salton’s cosine（Ochiia系数）等；

b. 计算机领域：一是基于语义词典的方法，即依据词典分类体系挖掘所包含的词义知识，常用的词典包括Wordnet、Hownet等；二是基于语料库的方法，这里的语料库较为多元，例如百科预料、唐诗宋词预料等；；三是进行词向量化，如Word2vec。

4. 文本分类/聚类算法

有了文本表示方法，又有了计算相似性的公式，下一步就可以在此基础上讨论文本分类/聚类的算法了。

4.1 文本分类

医生对病人进行诊断就是一个典型的分类过程，任何一个医生都无法直接看到病人的病情，只能观察病人表现出的症状和各种化验检测数据来推断病情，这时医生就好比一个分类器，而这个医生诊断的准确率，与他当初受到的教育方式（构造方法）、病人的症状是否突出（待分类数据的特性）以及医生的经验多少（训练样本数量）都有密切关系。

分类器是对样本进行分类的方法的统称，包含决策树、逻辑回归、朴素贝叶斯、神经网络等算法。举个例子：假如你想区分小明是好学生还是坏学生，那么区分“好学生”和“坏学生”就是一个分类任务。

4.1.1 K最邻近

“别和其他坏学生在一起，否则你也会和他们一样。” —— 家长

主要思想是通过离待预测样本最近的K个样本的类别来判断当前样本的类别。从K最近邻算法的角度来看，就是让目标样本与其他正样本距离更近、与其他负样本距离更远，从而使得其近邻中的正样本比例更高，更大概率被判断成正样本。

4.1.2 朴素贝叶斯

“根据以往抓获的情况来看，十个坏学生有九个爱打架。” —— 教导主任

“十个坏学生有九个爱打架”就意味着“坏学生”打架的概率P(打架|坏学生)=0.9，假设根据训导处历史记录坏学生占学生总数P(坏学生)=0.1、打架发生的概率是P(打架)=0.09，那么这时如果发生打架事件，就可以通过贝叶斯公式判断出当事学生是“坏学生”的概率P(坏学生|打架)=P(打架|坏学生)×P(坏学生)÷P(打架)=1.0，即该学生100%是“坏学生”。

4.1.3 决策树

“先看抽不抽烟，再看染不染头发，最后看讲不讲脏话。” ——社区大妈

假设“抽烟”、“染发”和“讲脏话”是社区大妈认为的区分“好坏”学生的三项关键特征，那么这样一个有先后次序的判断逻辑就构成一个决策树模型。在决策树中，最能区分类别的特征将作为最先判断的条件，然后依次向下判断各个次优特征。决策树的核心就在于如何选取每个节点的最优判断条件，也即特征选择的过程。

而在每一个判断节点，决策树都会遵循一套IF-THEN的规则：

IF “抽烟” THEN -> “坏学生” ELSE IF “染发” THEN -> “坏学生” ELSE IF “讲脏话” THEN -> “坏学生” ELSE -> “好学生”

4.1.4 逻辑回归

“上课讲话扣1分，不交作业扣2分，比赛得奖加5分。” ——纪律委员

我们称逻辑回归为一种线性分类器，其特征就在于自变量x和因变量y之间存在类似y=ax+b的一阶的、线性的关系。假设“上课讲话”、“不交作业”和“比赛得奖”的次数分别表示为x1、x2、和x3，且每个学生的基础分为0，那么最终得分y=-1 x1-2 x2+5*x3+0。其中-1、-2和5分别就对应于每种行为在“表现好”这一类别下的权重。

对于最终得分y，逻辑回归还通过Sigmoid函数将其变换到0-1之间，其含义可以认为是当前样本属于正样本的概率，即得分y越高，属于“表现好”的概率就越大。也就是说，假如纪律委员记录了某位同学分别“上课讲话”、“不交作业”和“比赛得奖”各一次，那么最终得分y=-2-1+5=2，而对2进行Sigmoid变换后约等于0.88，即可知该同学有88%的概率为“好学生”。

4.1.5 支持向量机

“我想个办法把表现差的学生都调到最后一排。” ——班主任

支持向量机致力于在正负样本的边界上找到一条分割界线（超平面），使得它能完全区分两类样本的同时，保证划分出的间隔尽量的大。如果一条分割界线无法完全区分（线性不可分），要么加上松弛变量进行适当的容忍，要么通过核函数对样本进行空间上的映射后再进行划分。对于班主任来讲，调换学生们的座位就相当于使用了核函数，让原本散落在教室里的“好”、“坏”学生从线性不可分变得线性可分了。

4.2 文本聚类

4.2.1 基于分层的聚类

hierarchical methods：对数据集进行逐层分解，直到满足某种条件为止。可分为“自底向上”和“自顶向下”两种。例如“自底向上”指初始时每个数据点组成一个单独的组，在接下来的迭代中，按一定的距离度量将相互邻近的组合并成一个组，直至所有的记录组成一个分组或者满足某个条件为止。代表算法有：BIRCH，CURE，CHAMELEON等。自底向上的凝聚层次聚类如下图所示。

4.2.2 基于划分的聚类

partitioning methods：给定包含N个点的数据集，划分法将构造K个分组，每个分组代表一个聚类，这里每个分组至少包含一个数据点，每个数据点属于且仅属于一个分组。对于给定的K值，算法先给出一个初始的分组方法，然后通过反复迭代的方法改变分组，使得每一次改进之后的分组方案较前一次好，这里好的标准在于同一组中的点越近越好，不同组中的点越远越好。代表算法有：K-means，K-medoids，CLARANS。K-means聚类过程图解如下：

4.2.3 基于密度的聚类

density-based methods：基于密度的方法的特点是不依赖于距离，而是依赖于密度，从而克服基于距离的算法只能发现“球形”聚簇的缺点。其核心思想在于只要一个区域中点的密度大于某个阈值，就把它加到与之相近的聚类中去。代表算法有：DBSCAN，OPTICS，DENCLUE，WaveCluster。DBSCAN的聚簇生成过程的简单理解如下图。

4.2.3 基于网格的聚类

gird-based methods：这种方法通常将数据空间划分成有限个单元的网格结构，所有的处理都是以单个的单元为对象。这样做起来处理速度很快，因为这与数据点的个数无关，而只与单元个数有关。代表算法有：STING，CLIQUE，WaveCluster。基于Clique的聚类过程可直观如下图进行理解。

4.2.4 基于模型的聚类

model-based methods：基于模型的方法给每一个聚类假定一个模型，然后去寻找能很好的拟合模型的数据集。模型可能是数据点在空间中的密度分布函数或者其它。这样的方法通常包含的潜在假设是：数据集是由一系列的潜在概率分布生成的。通常有两种尝试思路：统计学方法和神经网络方法。其中，统计学方法有COBWEB算法、GMM(Gaussian Mixture Model)，神经网络算法有SOM(Self Organized Maps)算法。下图是GMM过程的一个简单直观地理解。

4.2.5 基于图论的聚类

图论聚类方法解决的第一步是建立与问题相适应的图，图的节点对应于被分析数据的最小单元，图的边（或弧）对应于最小处理单元数据之间的相似性度量。因此，每一个最小处理单元数据之间都会有一个度量表达，这就确保了数据的局部特性比较易于处理。图论聚类法是以样本数据的局域连接特征作为聚类的主要信息源，因而其主要优点是易于处理局部数据的特性。典型算法有谱聚类。

聚类问题的研究不仅仅局限于上述的硬聚类，即每一个数据只能被归为一类，模糊聚类也是聚类分析中研究较为广泛的一个分支。模糊聚类通过隶属函数来确定每个数据隶属于各个簇的程度，而不是将一个数据对象硬性地归类到某一簇中。目前已有很多关于模糊聚类的算法被提出，如著名的FCM算法等。

233 评论 6小时前发布

文本聚类论文发表外刊推荐

2个回答 默认排序 默认排序 按时间排序

相关问答

论文发表

向你推荐

热门问题

2个回答默认排序

默认排序

按时间排序