2.4 粗糙集理论

粗糙集理论(Rough Set Theory)是一种研究模糊、不确定性数据和知识并进行分析、推理,发现数据间的关系,提取有用数据、剔除冗余特征的一种理论方法。这种表达、学习、归纳的理论方法是于1982年由波兰华沙理工大学Pawlak教授[114]提出的,用于数据分析,是基于符号的机器学习,本质是划分样本空间,首先定义一个不可分关系(等价关系),然后将样本空间划分为等价类。在此基础上,1991年Skowron[115]提出了差别矩阵方法,提供了将reduct、core和边缘区域定义在一类距离上的方法,使属性约简易于计算。目前,粗糙集理论已经被成功应用于机器学习、决策分析、过程控制、模式识别与数据挖掘等领域。

2.4.1 粗糙集理论概述

粗糙集理论的创建目的就是直接对数据进行分析和推理,通过知识约简,从中发现隐含的规律,导出问题的决策或分类规则,揭示潜在的知识。它的特点是不需要提供问题所需处理的数据集合之外的任何先验知识,而是从指定问题的集合出发,与处理其他不确定性问题的理论有很强的互补性,最终找出事情的内在规律。所以,对问题的不确定性的描述或处理可以说是比较客观的。因此该理论与概率论、模糊数学经常结合运用。

目前,粗糙集理论作为一种处理不完整、不一致、不精确等不完备的信息的工具被应用到各个领域并取得了突飞猛进的发展,包括知识获取、知识发现、机器学习、模式识别、决策分析和决策支持等。证据理论、神经网络、模糊集和粗糙集理论一起组成了不确定性计算的重要分支。其数理解释如下:

设信息系统S为一个四元组,即

S=<U, A, V, f>

其中,U是对象集合,即论域;A是属性集合;V是属性值的集合;f是一个信息函数,它指定U中每一个对象的属性值。若属性集可分为条件属性集C和决策属性集D,即有A=CDCD=∅,则该信息表称为一个决策表L。XUU的任意子集,BA,称(U, RB)为近似空间。由(U, RB)产生的等价类划分为U/RB={[ui]B|uiU}。当集合X能表示成属性子集B等价类的并集时,称集合X是可以精确定义的,否则就只能通过逼近的方式刻画。

粗糙集理论引入了上近似和下近似的概念以描述知识的确定程度,并以这些概念来定义粗糙度,即U中的一个子集X与被关系R划分之后的U的相合程度。

定义2.1:集合X关于RB的上近似为

其中,B¯(X)是由所有与X相交非空的等价类[ui]B的并集,是那些可能属于X的对象组成的最小集合。

定义2.2:集合X关于RB的下近似为

其中,B_(X)是由那些根据已有知识判断肯定属于X的对象组成的最大集合,也称为XRB正域,记为POSBX)。

定义2.3:集合X关于RB的边界定义为

BNBX)=X)-B_(X

NEGBX)=U-X

依据以上定义可知,当且仅当BNBX)=∅, XRB可定义集;当且仅当BNBX)≠∅, XRB不可定义集,也称X为粗糙集。

下图2-6为粗糙近似图表达了B_(X), X)和BNBX)之间的关系。

图2-6 粗糙近似[133]

根据以上理论,粗糙集本质是不能用分类精确表示的对象集,集合的不精确是由于边界域的存在而引起的,由属性B形成的等价关系定义XU的近似精度可定义为

式中显然有0≤αB(X)≤1。当αB(X)=1时,表明BNBX)=∅, X是可定义的;当αB(X)<1时,表明BNBX)≠∅, X是不可定义粗糙集。对于由属性子集B的等价类[u]B,所描述的X信息程度可定义为

2.4.2 粗糙集应用于综合评价的研究

虽然粗糙集理论与综合评价相结合的研究越来越受到重视,但是到目前为止,还处于比较初级的阶段[116]

在国际上,日本的Tsumoto[118]应用了粗糙集理论,并在临床医学诊断中得到了理想的结果;Nick[117]将成功的粗糙集方法运用在水资源调度系统评价及预测中;Dimitras[119]将粗糙集方法运用到预测公司并购;Jia[120]则首次将粗糙集的方法运用到决策树的节点的选择,其多属性综合评价方法的使用得到推广;Zaras[122]提出了带偏好关系的粗糙集近似方法,并用于多属性随机优势评估问题;Ramanna.S[121]提出基于粗糙集近似空间的软件质量测评方法;Alam S.S[123]提出基于粗糙集的AHP排序方法;Salvatore Greco[124]提出多属性多准则分类问题的粗糙集方法。

国内的相关研究也很多,蒋朝哲[130]将基于DNA计算机的约简算法机理运用到粗糙集属性构想;李红启[127]在铁路货运量预测中运用了粗糙集;张梅[125]将粗糙集理论用于国际竞争力因素分析;蒙祖强[129]在个性化的设计决策规则挖掘算法中运用了粗糙集理论;何亚群[126]运用粗糙集方法解决信息,有针对性但是不完全的多属性决策问题;黄定轩等[128]在多属性客观权重的分配方法上运用粗糙集理论进行了研究。相继召开的以粗糙集理论为主题的学术会议发表了大量有价值的论文也推动了粗糙集在各个领域的应用。

从上述研究成果中可以发现,粗糙集能处理评估数据间的依赖关系、不精确和不确定知识的表达、不损失信息的前提下进行数据简化[131]、从经验中获取知识、推理不完整的知识、分析不一致信息的、近似模式分类。粗糙集仅根据数据本身进行,并分析数据间的依赖关系,总结数据间的规律,生成分类规则。粗糙集与模糊集等一些传统分析工具相比的优势在于对不准确和不确定信息的处理分析。其不需要先验知识,从而可以完全客观地用近似的概念来表达[132]。粗糙集可以在保持不损失完整性的前提下,依靠其间的关系来消减冗余信息。

约简功能主要被粗糙集用于评价指标的筛选。运用粗糙集的约简算法,能够在不改变评价结果和保持指标集能力不变的基础上,消减重叠或冗余的指标。例如,通过更少的条件得出精度不变的相同评价结果,用最小子集Cs来代替原来的指标集,即

Cs=optC

式中,optC)是指通过初选指标集合建模,得到指标集约简的内在知识,这也就是属性集的核(属性约简交集),表示为CoreC), C的所有约简是REDC)。CoreC)=∩REDC)。从核中去掉任何一个本质部分属性都将对属性集对论域中对象产生影响。寻找到理想最小约简,是一件很难的事情。人们也开发了很多的方法,例如考虑属性关联的启发式算法等。

2.4.3 粗糙集理论的利弊

粗糙集是一种研究信息不完全、不精确问题的数学工具。其优点如下[133]

(1)基于粗糙集的计算方法非常适合并行处理,约简数据,研究数据中的关系和模式,对数据的重要性进行评价,这样在数据中产生的规则更易于理解。

(2)提高收集数据的效率,经过粗糙集约简后的评价指标所要求的数据量大大减少,提高了评价效率。

(3)当数据是不确定、不完整和不精确的时候,利用粗糙集处理数据分类问题的数学方法,使得问题的解决在数学上非常严密。

(4)粗糙集理论有很强的实用性,无须提供除问题所需处理的数据集合之外的任何先验信息。它通过应用驱动了研究,目的是为开发自动生成规则系统,因而它的研究完全是应用驱动的。

(5)粗糙集理论对知识明确了数学含义,将其作为分辨关系的族,用各种数学方法进行分析处理,这样也避免了人为因素的干扰,精确的表示增强了评估结果的可信性和客观性。

(6)粗糙集理论的兼容性很强,可以和模糊逻辑、遗传算法、神经网络等一起作为组合运用,提供了鲁棒性强和成本较低的解决方案。

粗糙集理论是近期智能科学和知识发现中新的研究热点,它已经在机器学习、股票数据分析、模式识别、地震预报、冲突分析、知识发现、粗糙控制、医疗诊断、专家系统等领域得到了广泛应用。粗糙集理论的有效性已得到计算机基础研究人员的验证。它能有效处理不确定性知识的表达、推理,模式分类,知识发现和分析,数据中因果关系的发现,决策算法通过数据归纳形成,数据简化,模式识别,识别、评价数据间的依赖性。

本书就是运用粗糙集来约简文中研究的众多影响因素,从而找到最重要的影响因素以降低评价计算难度。在评价指标的筛选过程中,粗糙集的属性约简能够发挥巨大的作用。通常指标体系中都存在性质相似或冗余的属性,运用粗糙集属性约简算法,能在保持指标集的分类能力不变的条件下,即不改变最终评价结果的基础上,删除其中冗余或重叠的指标。