kdd相似度多少合适

发布时间: 2022-09-21 09:01:53

‘壹’ 数据挖掘与数据分析的区别是什么

1.数据挖掘
数据挖掘是指从大量的数据中，通过统计学、人工智能、机器学习等方法，挖掘出未知的、且有价值的信息和知识的过程。数据挖掘主要侧重解决四类问题：分类、聚类、关联和预测，就是定量、定性，数据挖掘的重点在寻找未知的模式与规律。输出模型或规则，并且可相应得到模型得分或标签，模型得分如流失概率值、总和得分、相似度、预测值等，标签如高中低价值用户、流失与非流失、信用优良中差等。主要采用决策树、神经网络、关联规则、聚类分析等统计学、人工智能、机器学习等方法进行挖掘。综合起来，数据分析（狭义）与数据挖掘的本质都是一样的，都是从数据里面发现关于业务的知识（有价值的信息），从而帮助业务运营、改进产品以及帮助企业做更好的决策，所以数据分析（狭义）与数据挖掘构成广义的数据分析。这些内容与数据分析都是不一样的。
2.数据分析
其实我们可以这样说，数据分析是对数据的一种操作手段，或者算法。目标是针对先验的约束，对数据进行整理、筛选、加工，由此得到信息。数据挖掘，是对数据分析手段后的信息，进行价值化的分析。而数据分析和数据挖掘，又是甚至是递归的。就是数据分析的结果是信息，这些信息作为数据，由数据去挖掘。而数据挖掘，又使用了数据分析的手段，周而复始。由此可见，数据分析与数据挖掘的区别还是很明显的。
而两者的具体区别在于：
（其实数据分析的范围广，包含了数据挖掘，在这里区别主要是指统计分析）
数据量上：数据分析的数据量可能并不大，而数据挖掘的数据量极大。
约束上：数据分析是从一个假设出发，需要自行建立方程或模型来与假设吻合，而数据挖掘不需要假设，可以自动建立方程。
对象上：数据分析往往是针对数字化的数据，而数据挖掘能够采用不同类型的数据，比如声音，文本等。
结果上：数据分析对结果进行解释，呈现出有效信息，数据挖掘的结果不容易解释，对信息进行价值评估，着眼于预测未来，并提出决策性建议。
数据分析是把数据变成信息的工具，数据挖掘是把信息变成认知的工具，如果我们想要从数据中提取一定的规律（即认知）往往需要数据分析和数据挖掘结合使用。
举个例子说明：你揣着50元去菜市场买菜，对于琳琅满目的鸡鸭鱼猪肉以及各类蔬菜，想荤素搭配，你逐一询问价格，不断进行统计分析，能各自买到多少肉，多少菜，大概能吃多久，心里得出一组信息，这就是数据分析。而关系到你做出选择的时候就需要对这些信息进行价值评估，根据自己的偏好，营养价值，科学的搭配，用餐时间计划，最有性价比的组合等等，对这些信息进行价值化分析，最终确定一个购买方案，这就是数据挖掘。
数据分析与数据挖掘的结合最终才能落地，将数据的有用性发挥到极致。

‘贰’ 什么是粗糙集

在自然科学,社会科学与工程技术的很多领域中,都不同程度地涉及到对不确定因素和不完备信息的处理.从实际系统中采集到的数据常常包含着噪声,不精确甚至不完整,采用纯数学上的假设来消除或回避这种不确定性,效果往往不理想,反之,如果正视它,对这种信息进行适当地处理,常常有助于实际系统问题的解决.多年来,研究人员们一直在努力寻找科学地处理不完整性和不确定性的有效途径,实践证明,1965年Zadeh创立的模糊集理论与1982年Z.Pawlak倡导的粗糙集理论是处理不确定性的两种很好的方法.事实上,除了上述两种方法外,基于概率统计方法的证据理论也是处理不确定性的一种有效方法.这些众多的方法都属于软计算(Soft Computing)的范畴.软计算(Soft Computing)的概念是由模糊集理论的创始人Zadeh提出的,软计算(Soft Computing)的主要工具包括粗糙集(Rough sets),模糊逻辑(Fuzzy Logic),神经网络(Nerve Network),概率推理(Probability Reasoning),信度网络(Belief Network),遗传算法(Genetic Arithmetic)与其它进化优化算法,混沌理论(Chaos)等.传统的计算方法即所谓的硬计算(Hard Computing),使用精确,固定和不变的算法来表达和解决问题,而软计算(Soft Computing)的指导原则是利用所允许的不精确性,不确定性和部分真实性得到易于处理,鲁棒性强和成本较低的解决方案,以便更好地与现实系统相协调.与其它方法相比,粗糙集方法的最大优点是不需要附加信息或先验知识,这一点是其它方法无法做到的,如模糊集方法与概率统计或证据理论方法中,往往需要模糊隶属函数,基本概率指派函数(Basic Probability Assignment,BPA)和有关统计概率分布等,而这些信息有时并不容易得到.正是基于这一优点,粗糙集理论得以迅速兴起,并逐渐成为人工智能界以及其它处理不确定性领域的研究热点.
众所周知,粗糙集与模糊集是两种主要的,应用最为广泛的处理不确定性的方法,它们各有优,缺点,如何有效地将它们结合,使它们优势互补,同时克服它们各自的缺点,将是很有兴趣的研究课题.它们的结合涉及到许多问题,如它们的关系问题,它们是互相独立的还是互为从属,对这一问题的回答众说不一,有的作者认为粗糙集是泛化的模糊集,如Z.Pawlak,有的作者持否定态度甚至相反观点,如M.Wygralak.对此,本人在借鉴了他们的方法之后,提出了属于自己的观点.两种方法的结合产生了粗糙模糊集(Rough Fuzzy Sets)与模糊粗糙集(Fuzzy Rough sets),这是两种不同的结合观.前者是从粗糙集的角度研究模糊集,而后者侧重于从模糊集的角度去刻画粗糙集.
本文的安排如下,第一章与第二章分别简单介绍粗糙集与模糊集,第三,四章分别介绍粗糙模糊集(Rough Fuzzy Sets)与模糊粗糙集(Fuzzy Rough sets),第五章介绍粗糙集模糊化的一种新方法,试图理清粗糙集与模糊集的关系.
第一章粗糙集理论简介
第一节粗糙集理论的产生与应用背景
在20世纪70年代,波兰学者Z.Pawlak和一些波兰科学院,波兰华沙大学的逻辑学家们,一起从事关于信息系统逻辑特性的研究,粗糙集理论就是在这种研究的基础上产生的.1982年,Z.Pawlak发表了经典论文Rough Sets [2],宣告了粗糙集理论的诞生,此后,粗糙集理论引起了许多数学家,逻辑学家和计算机研究人员的兴趣,他们在粗糙集的理论和应用方面做了大量的研究工作.1991年Z.Pawlak的专着[3]和1992年的应用专着[4]的出版,对这一段时期理论和实践的成果做了较好的总结,同时促进了粗糙集在各个领域的应用.此后召开的与粗糙集有关的国际会议进一步推动了粗糙集的发展,越来越多的科技人员开始了解并准备从事该领域的研究.目前,粗糙集已成为人工智能领域中一个较新的学术热点,在机器学习,知识获取,决策分析,过程控制等许多领域中得到了广泛的应用.
一,粗糙集理论处理的问题
粗糙集以其独到的方法能有效地处理许多涉及不确定性的问题,这些问题包括:
(1),不确定或不精确知识的表达,
(2),经验学习并从经验中获取知识,
(3),不一致信息的分析,
(4),根据不确定,不完整的知识进行推理,
(5),在保留信息的前提下进行约简,
(6),近似决策分类,
(7),识别并评估数据之间的依赖关系.
特别应该提到的是约简,决策分类以及识别并评估数据之间的依赖关系,粗糙集理论在不需要任何附加信息或先验知识的前提下可以非常有效地处理这些问题.
二,粗糙集理论与数学的关系
前面已经提到,粗糙集属于软计算的范畴,从这个角度来看,粗糙集是继模糊集之后经典集合论的又一发展分支.但由于粗糙集是在近似空间上进行推理与分析问题,这一特点使它失去了作为经典数学的许多有关确定性的特征.关于粗糙集理论的数学特征的研究已有许多,其中很多着眼于粗糙集的代数特征的研究,也有作者用公理化方法与结构化方法来刻画粗糙集理论.但本人认为,这众多的粗糙集理论的数学特性的研究尚未使人们真正认识清楚粗糙集的数学结构面目.关于这一方面的研究尚有许多课题,如怎样将约简过程数学化等等.
==========================================================
枫舞叶飞:这是一本书的前言部分,应该可以解决你的概念问题以及模糊集和粗糙级的区别联系问题..另外,问一下您是不是研究生?是不是开学有课题项目啊?好多问研究问题的哦~~~

‘叁’ 紧急求助：考研生物化学题

乳糖操纵子
定义lactose operon

参与乳糖分解的一个基因群，由乳糖系统的阻遏物和操纵基因受负的控制，而同
时又同步地受支配。1961 年雅各布（F．Jacob）和莫诺德（J．Mon－od）根据该系
统的研究而提出了着名的操纵子学说。关于大肠杆菌的乳糖系统操纵子，¦Â-半乳糖苷
酶，半乳糖苷渗透酶，半乳糖苷转酰酶的结构基因以LacZ（z）， Lac Y（y），La
c A（a）的顺序分别排列在染色体上，与z 相邻，与y 相对的一侧有操纵基因Lac
O（o），更前面有启动基因Lac P（p），操纵子（乳糖操纵子）就是这样构成的。
决定乳酸系统阻遏物结构的调节基因Lac I（i）处于和p 相邻的位置上。
一、结构和功能
细菌相关功能的结构基因常连在一起，形成一个基因簇。它们编码同一个代谢途
径中的不同的酶。一个基因簇受到同一的调控，一开俱开，一闭俱闭。也就是说它们
形成了一个被调控的单位，其它的相关功能的基因也包括在这个调控单位中，例如编
码透过酶的基因，虽它的产物不直接参与催化代谢，但它可以使小分子底物转运到细
胞中。
乳糖分解代谢相关的三个基因，lacZ、Y、A 就是很典型的是上述基因簇。它们
的产物可催化乳糖的分解，产生葡萄糖和半乳糖。它们具有顺式作用调节元件和反式
作用调节基因。三个结构基因图的功能是：
lacZ 编码¦Â-半乳糖苷酶，此酶由500kd 的四聚体构成，它可以切断乳糖的半乳
糖苷键，而产生半乳糖和葡萄糖
lacY 编码¦Â一半乳糖苷透性酶，这种酶是一种分子量为30kDd 膜结合蛋白，它
构成转运系统，将半乳糖苷运入到细胞中。
lacA 编码¦Â-半乳糖苷乙酰转移酶，其功能只将乙酰-辅酶A 上的乙酰基转移到¦Â-
半乳糖苷上。
无论是lacZ 发生突变还是lacY 发生突变却可以产生lac-型表型，这种lac—表型
的细胞不能利用乳糖。lacZ-突变体中半乳糖苷酶失去活性，直接阻止了乳糖的代谢。
lacY-突变体不能从膜上吸取乳糖。
这一个完整的调节系统包括结构基因和控制这些基因表达的元件，形成了一个共
同的调节单位，这种调节单位就称为操纵子（opron）。操纵子的活性是由调节基因
控制的，调节基因的产物可以和操纵子上的顺式作用控制元件相互作用。
lacZ、Y、A 基因的转录是由lacI 基因指令合成的阻遏蛋白所控制。lacI 一般和
结构基因相毗连，但它本身具有自己的启动子和终止子，成为独立的转录单位。由于
lacI 的产物是可溶性蛋白，按照理说是无需位于结构基因的附近。它是能够分散到各
处或结合到分散的DNA 位点上（这是典型的反式-作用调节物。）
通过突变的效应是可以将结构基因和调节基因相区别的，结构基因发生突变，细
胞中就失去这些基因合成的蛋白。但是调节基因发生突变会影响到它所控制的所有结
构基因的表达。调节蛋白的突变的结果可以显示调节的类型。
lac 基因簇是受到负调节（negative regulation）。它们的转录可被调节蛋白所
关闭。若调节蛋白因突变而失活就会导致结构基因组成型表达。表明调节蛋白的功能
是阻止结构基因的表达，因此称这些蛋白为“阻遏”蛋白。
乳糖操纵子的阻遏蛋白是由4 个亚基（38kDa）组成的四聚体。一个野生型细胞
中大约有10 个四聚体。调节基因转录成单顺反子的mRNA，它和操纵子的比率与R
NA 聚合酶和启动子之比是相似的。
lacI 的产物称为lac 阻遏物（lac repressor），其功能是和lacZ、Y、A 基因簇5
¡ä端的操纵基因（Olac）,操纵基因位于启动子(Plac)和结构基因（lac2yA）之间。当阻
遏物结合在操纵基因上时就阻碍了启动子上的转录起始。Olac 从mRNA 转录起始点
的上游-5 处延伸到转录单位+21 处。这样它和启动子的末端发生重叠。新近的观点认
为阻遏物影响了RNA 聚合酶，从操纵基因和启动子二者相关位置来看阻遏物结合在
DNA 上会阻碍RNA 聚合酶转录结构基因。但我们必须注意其它一些操纵子上的操纵
基因其位置和乳糖操纵子并不相同，因而阻遏蛋白可以通过多种方式与操纵操纵基因
结合阻断转录。
二、阻遏蛋白的活性受到小分子诱导的控制
细菌对环境的改变必需作出迅速的反应。营养供给随时都可能发生变化，反复反
常。要能得以幸存必需具有可以变换不同代谢底物的能力。单细胞真核生物也同样生
活在不断变化环境中；而更为复杂的多细胞生物都具有一套恒定的代谢途径，而无需
对外部环境作出反应。
在细菌中是很需要灵活性，也需要很经济，因为细菌遇到合适的环境就大量消耗
营养对其本身也是不利的。在缺乏底物时就不必要合成大量相关的酶类，因此细菌产
生了一种调节机制，即在缺乏底物时就阻断酶的合成途径，但同时又作好了准备，一
旦有底物存在就立即合成这些酶。
特殊底物的存在导致了酶的合成，此现象称为诱导（inction）。这种类型的调
控广泛存在于细菌中，在较低等的真核生物（如酶母）也有这种情况。E.coli 的乳糖
操纵子提供了这种调控机制的典型范例。
当E.coli 生长在缺乏¦Â一半乳糖苷的条件下是不需要¦Â-半乳糖苷酶的，因此细胞
中含量很低，大约每个细胞不高于5 个分子，当加入底物后细菌中十分迅速地合成了
这种酶，仅在2-3 分钟之内酶就可以产生并很快增长到5000 个分子/每个细胞。如在
酶的浓度将达到细胞总蛋白的5-10%。如在培养基中除去底物，那么酶的合成也就迅
速停止，恢复到原来的状态。
如果原来培养基中无乳糖，也无葡萄糖，那么细胞只在很低的基本水平合成¦Â-
半乳苷酶和透性酶。当加入Lac 后，Ecoli 的lac+ 细胞很快大量合成以上两种酶。进
一步用32P 标记mRNA 作杂交实验（用¦Ëlac 中的取得的DNA，与加入乳糖后不同时
间内产生的32P-mRNA 进行分子杂交）结果表明加入的乳糖能激发lac 的mRNA 的
合成。lac mRNA 极不稳定，其半衰期仅有3 分钟，这个特点随着诱导很快的恢复。
当诱导物一除去转录立即停止，在很短的时间内所有的lac mRNA 即被降解掉，细胞
内的含量恢复到基础水平。
¦Â-半乳糖苷酶和透性酶合成是和lac mRNA 同时被诱导的，但当除去诱导物时在
细胞中¦Â-半乳糖苷酶和透性酶要比lac mRNA 稳定，因此酶的活性在一段较长的时
间内保持被诱导水平。这种对营养供给发生改变作出迅速反应的调控类型，不仅提供
了代谢新底物的能力，而且习惯于关闭在培养基中实然加入的一些成份的内部合成。
比如E.coli 的Trp 的合成是通过Trp 合成酶的作用。如果在细菌生长的培养基中加入
Trp 的话，那么立即停止Trp 合成酶的生产。这种作用称为阻遏（repression）效应。
它使细菌避免合成多余的物质。
在细菌中同时存在着诱导和阻遏的现象。诱导是细菌调节其分解底物供给生长的
能力。阻遏是细菌调节其合成代谢产物的能力。无论是酶作用的小分子底物的调节，
还是酶活性的产生，它们的启动是独自的，小分子底物称为诱导物（incers）某些
物质能阻止酶合成它们本身，此物质就称辅阻遏物（corepressors）。
诱导和酶阻遏是高度特异的，只有底物/产物或紧密相关的分子才能起作用，但
小分子的活性并不依赖于和靶酶的相互作用。某些诱导物与自然的¦Â-半乳糖苷酶相
似，但并不能被酶分解，比如异丙基-¦Â-D-硫代半乳糖苷（isopropylthiogalactoside,I
PTG）。其半乳糖苷键中用硫代替了氧，失去了水解活性，但硫代半乳糖苷和同源的
氧代化合物与酶位点的亲和力相同，IPTG 虽不为¦Â-半乳糖苷酶所识别，但它是lac
基因簇十分有效的诱导物。
能诱导酶的合成，但又不被分解的分子,称为安慰诱导物（gratuitous incer）。
由于乳糖虽可诱导酶的合成，但又随之分解，产生很多复杂的动力学问题，因此人们
常用安慰诱导物来进行各种实验。它的存在表明一个重要的问题，就是这个控制系统
必须具有某种成份，它不同于靶酶，能识别合适的底物；而它的这种识别相关底物的
能力也不同于酶。
对诱导物作出反应的这种成份就是阻遏蛋白，它由lacI 编码，其作用是控制lacI
YA 结构基同的转录，对环境作出反应。三个结构基因转录成单个的多顺反子mRNA。
阻遏蛋白的活性状态决定了此启动子是否打开或关闭。在缺乏诱导物时，这些基因不
能转录，因为阻遏蛋白是活性状态结合在操纵基因上。当诱导物存在时，阻遏物与之
结合，变成为失活状态，离开操纵基因，启动子开始转录，起始于lacZ 5¢端，
终止于lacA 的3¢端。
诱导物如何控制阻遏蛋白的活性呢？阻遏物对于操纵基因有很高的亲和性，在缺
乏诱导物时，阻遏物总是结合在操纵基因上，使得邻近的结构基因不能转录。但当诱
导物存在时，它和阻遏物结合形成了一个阻遏物复合体，不再和操纵基因结合。
右图为Lac 操纵子（Lac operon）的结构以及负调控图：
（a）Lac 操纵子的结构图
（b）无诱导物存在时，阻遏物与操作基因（operator）结合使得结构基因不能
正常转录
（c）诱导物（乳糖或IPTG）存在，与阻遏物结合时阻遏物从操纵基因上头里下
来，RNA 聚合酶可通过启动子和操作基因正常转录出一条多顺反子mRNA 从可翻译
得到三种梅
操纵子控制的重要特性是阻遏物的双重性：它既能阻止转录，又能识别小分子诱
导物。阻遏物有2 个结合位点：一个是结合诱导物的，另一个是结合操纵基因的。当
诱导物在相应位点结合时，它改变了阻遏蛋白的构象，干扰了另一位点的活性。这种
类型的调控叫变构调控。（allosteric control）
诱导完成一种协同调控（coordinate regulation）：所有的一组基因都一道表达
或一道关闭。mRNA 一般总是从5¢开始转录，所以诱导总是导致¦Â-半乳糖苷酶，
Lac 透性酶和Lac 乙酰转移酶按一定顺序出现。此多顺反子mRNA 的共同转录解释
了为什么在诱导物的不同条件下，lacZ、Y、A 三个基因的产物总保持同样的当量关
系。
诱导触动了“开关”使基因簇表达。诱导物交替变换它们的效应，其它的因子影响
了转录和翻译的绝对水平，但三个基因之间的关系事先已被它们的结构所决定了。
我们要注意操纵子的潜在特点。Lac 操纵子含有lacZ，它编码糖代谢所必须的¦Â
-半乳糖苷酶；含有的lac 编码透性酶，此酶是负责将底物转达运到细胞中。但操纵子
在非诱导状态时，基因尚未表达，也就不存在透性酶。那么诱导物开始怎样进入细胞
呢？
其实在细胞中透过酶等总是以最低量存在的，足以供给底物开始进入之需。操纵
子有一个本底水平（basal level）的表达，即使没有诱导物的存在，它也保持此表达
水平（诱导水平的0.1%），而有的诱导物是通过其它的吸收系统进入细胞的。
三、操纵基因和调节基因的鉴别
野生型的操纵子以被调节的方式进行表达，调节系统若发生突变可能使表达停止
或者在没有诱导物存在时仍然表达。前者称为不可诱导性（unincible）突变；后者
对调节没有反应能力，无论诱导物是否存在都进行表达，故称为组成型突变（consti
tutive mutants）。
操纵子调节系统的成份通过突变已被鉴别出来，它们作用于结构基因的表达以及
编码区的外侧序列。这些成份分为二类：以启动子和操纵子，作为调节蛋白（RAN
聚合酶，阻遏物）靶顺序的通过顺式作用突变而被鉴定出来。lac 位点通过反式作用
突变被鉴定是为编码阻遏蛋白的基因。
操纵基因是原来通过组成型突变鉴别出的，称为“Oc”，其分布特点提供了第一个
顺式元件的证据，它是有功能的，但本身不编码。与OC 突变相邻接的结构基因以组
成型表达，这是由于突变改变了操纵基因，使阻遏蛋白不能与之结合。这样阻遏蛋白
就不能阻止RNA 聚合酶起始转录。从而使操纵子持续转录。
操纵基因只控制与它相邻接的一些lac 基因。若将第二个Lac 操纵子导入细菌的
质粒上，它有自己特有的操纵基因。操纵基因互不干扰。因此如果一个操纵子有一个
野生型的操纵基因，在通常条件下，它将被阻遏。当第二个操纵子带有OC 突变时，
它将持续表达。
这些特点表明操纵基因是一个典型的顺式作用位点。操纵基因只控制与其相邻接
的基因而不影响存在于细胞中的其它DNA 上的等位座位。像OC 这样的突变称为顺
式-显性（cis-dominant）。顺式作用位点中发生突变就不能和相关蛋白相结合，当两
个顺式作用位点彼此靠得很近时（如启动子和操纵基因），我们通过互补测验是不能
分别突变发生在那一个位点上，而只有通过它们对表型的影响来加以区别。顺式显性
是控制邻接顺序的那些DNA 位点的特性。如果一个控制位点其功能是作为多顺反子
mRNA 的一部分。它将表现出顺式显性的特点。特别表现在控制位点不能和被它调节
的基因相分离。从遗传学的观点来看这些位点和基因是在DNA 上还是在RNA 这并不
重要。
lacI-突变型也可导致持续转录。无论是点突变还是缺失都可产生这样的结果。后
者可能是丢失了和DNA 结合的功能区。因此与诱导物是否存在无关。这种现象是符
合负控制系统的。lac+基因编码一个阻遏蛋白，它可以关闭lacZYA 的转录。阻遏蛋
白失去和操纵基因结合能力时，则为组成型突变。转录能在启动子上自由地起始。同
时lacI- 突变由于阻遏蛋白的失活使lacZYA 呈组成型表达。
当lacI- 和lacI+二者同时存在于同一个细胞时，通过确定二者的关系可以帮助人
们得出正确的结论。这只能通过构建部分二倍体（partial diploid）来完成的。即一个
拷贝的操纵子位于细胞的主染色体上，而另一个放在质粒上，此质粒仅带少量基因，
可以独立复制。
在细胞中若既有lacI+又有lacI-，则可以正常调节。当除去诱导物时，结构基因
又重新被阻遏。这表明lacI+可以产正常的阻遏物，当诱导物不存在时它可以反式阻
遏lacI ZYA+基因，按遗传学的观点野生型的可诱导性对于组成型突变型是显性的。
这是负控制的重要标志。
操纵子非诱导性突变不能都得到表达，它们可以分成两种组成型突变：(1) 启动
子突变是顺式作用，若这种突变阻碍了RNA 聚合酶与Plac 的结合，也就不能阅读操
纵子，因为它不能转录。(2) lacI 突变若阻遏物失去和诱导物结合的能力也会导致和
前者相同的现象。这种突变称为lacIs。
这种反式作用对野生型来说是显性的。阻遏蛋白被保持在对操纵基因的识别和阻
碍转录的这种活性状态中。诱导物是否加入对其没有影响。这是由于细胞中突变的阻
遏物结合在所有的lac 操纵基因上并阻断转录，同时还不能取下，野生型阻遏物的存
对它也毫无影响。
lacI 突变的特点可以从阻遏蛋白结构的得以解释。在阻遏蛋白上具有两种不同类
型的结合位点。通过这些结合位点来控制基因的表达以对环境作为反应。DNA-结合
识别操纵基因。诱导结合位点与小分子诱导物结合。一旦与诱导物作用使其构象发生
改变而失去与操纵基因DNA 结合的能力。通过lacI 突变失去某些活性可以鉴别出阻
遏物亚基中的两个结合位点。DNA-结合位点的突变是组成型的（因为阻遏物不能和D
NA 结合来阻断转录）。诱导物结合位点的突变是不可诱导性的（由于诱导物不能减
少阻遏物和DNA 的亲和力）。
阻遏物功能的一个重要的特点是多聚体蛋白。在细胞中阻遏蛋白的亚基随机结合
成四聚体。当不同的lacI 等位基因存在时，它们的产物作为亚基结合成异聚四聚体，
其特性和同聚四聚体不同。这种亚基之间的作用类型是具有多聚体蛋白的性质，被称
为等位基因间的互补（interallelic complementation）。
负的互补（negative complementation）发生在某些阻遏蛋白突变体之间。正如
在lacI-d 与lacI+基因的重组中所见到的一样。此lacI-d 的突变仅导致阻遏蛋白不能
和操纵基因结合。因此它像lacI-等位基因一样，使操纵子呈组成型表达。由于lacI-
类型的突变产生的阻遏物没有活性，它相对于野生型基因是隐性的，而“-d”这个符号
表示负互补这种突变类型是显性的。这种突变称反式显性（trans-dominant），也称
为显性失活（dominant negatives）。
这种显性的原因是由于lacI-d 等位基因产生一个“坏”的亚基不仅它本身不能结合
操纵基因的DNA，而且它还通作为四聚体的一部分阻止四聚体中“好”的亚基与DNA
结合。这就意味着阻遏蛋白四聚体是作为一个总体，而不是单个单体的简单的集合。
这对完成阻遏来说是很必要的。在体外将“好”的亚基和“坏”的亚基混合起来也会产生
损坏的作用。
lacI-d 的突变是发生在阻遏蛋白的DNA 结合位点这就可以解释混合的四聚体可
以阻止与操纵基因的结合。结合位点数目的减少使四聚体和操纵基因的亲和力减少。
lacI 基因的左末端对于蛋白产物来说正好是在N-末端DNA-结合位点。lacI-隐性突变
发生在此位点以外的任何区域。但可以起到DNA 结合的间接作用。
lacIs 是不可诱导性突变，它是不能对诱导物作出反应。此可能由于阻遏蛋白失
去了诱导物结合位点，或者不能将它们的作用传递到DNA-结合位点。lacIS 突变位点
是很有规律的延着基因成束间隔排列。这些间隔可能存在着肽链的改变。

图片上不去……PDF的

‘肆’ 数据挖掘的六大主要功能

数据挖掘的六大主要功能
数据挖掘的历史虽然较短，但从20世纪90年代以来，它的发展速度很快，加之它是多学科综合的产物，目前还没有一个完整的定义，人们提出了多种数据挖掘的定义，例如：SAS研究所（1997）：“在大量相关数据基础之上进行数据探索和建立相关模型的先进方法”。Hand et al（2000）：“数据挖掘就是在大型数据库中寻找有意义、有价值信息的过程”确切地说，数据挖掘（Data Mining），又称数据库中的知识发现（Knowledge Discovery in Database，KDD），是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式，它是数据库研究中的一个很有应用价值的新领域，融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。

数据挖掘的主要功能
数据挖掘综合了各个学科技术，有很多的功能，当前的主要功能如下：
1、数据总结：继承于数据分析中的统计分析。数据总结目的是对数据进行浓缩，给出它的紧凑描述。传统统计方法如求和值、平均值、方差值等都是有效方法。另外还可以用直方图、饼状图等图形方式表示这些值。广义上讲，多维分析也可以归入这一类。
2、分类：目的是构造一个分类函数或分类模型（也常常称作分类器），该模型能把数据库中的数据项映射到给定类别中的某一个。要构造分类器，需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成，每个元组是一个由有关字段（又称属性或特征）值组成的特征向量，此外，训练样本还有一个类别标记。一个具体样本的形式可表示为：（v1，v2，…，vn；c），其中vi表示字段值，c表示类别。
例如：银行部门根据以前的数据将客户分成了不同的类别，现在就可以根据这些来区分新申请贷款的客户，以采取相应的贷款方案。
3、聚类：是把整个数据库分成不同的群组。它的目的是使群与群之间差别很明显，而同一个群之间的数据尽量相似。这种方法通常用于客户细分。在开始细分之前不知道要把用户分成几类，因此通过聚类分析可以找出客户特性相似的群体，如客户消费特性相似或年龄特性相似等。在此基础上可以制定一些针对不同客户群体的营销方案。
例如：将申请人分为高度风险申请者，中度风险申请者，低度风险申请者。
4、关联分析：是寻找数据库中值的相关性。两种常用的技术是关联规则和序列模式。关联规则是寻找在同一个事件中出现的不同项的相关性；序列模式与此类似，寻找的是事件之间时间上的相关性，例如：今天银行利率的调整，明天股市的变化。
5、预测：把握分析对象发展的规律，对未来的趋势做出预见。例如：对未来经济发展的判断。
6、偏差的检测：对分析对象的少数的、极端的特例的描述，揭示内在的原因。例如：在银行的100万笔交易中有500例的欺诈行为，银行为了稳健经营，就要发现这500例的内在因素，减小以后经营的风险。
以上数据挖掘的各项功能不是独立存在的，它们在数据挖掘中互相联系，发挥作用。

‘伍’ 数据分析和数据挖掘的区别是什么如何做好数据挖掘

1,数据分析可以分为广义的数据分析和狭义的数据分析，广义的数据分析就包括狭义的数据分析和数据挖掘，我们常说的数据分析就是指狭义的数据分析。

2,数据分析（狭义）：

定义：简单来说，数据分析就是对数据进行分析。专业的说法，数据分析是指根据分析目的，用适当的统计分析方法及工具，对收集来的数据进行处理与分析，提取有价值的信息，发挥数据的作用。

作用：它主要实现三大作用：现状分析、原因分析、预测分析（定量）。数据分析的目标明确，先做假设，然后通过数据分析来验证假设是否正确，从而得到相应的结论。

方法：主要采用对比分析、分组分析、交叉分析、回归分析等常用分析方法；

结果：数据分析一般都是得到一个指标统计量结果，如总和、平均值等，这些指标数据都需要与业务结合进行解读，才能发挥出数据的价值与作用；

互联网是个神奇的大网，大数据开发和软件定制也是一种模式，这里提供最详细的报价，如果你真的想做，可以来这里，这个手技的开始数字是一八七中间的是三儿零最后的是一四二五零，按照顺序组合起来就可以找到，我想说的是，除非你想做或者了解这方面的内容，如果只是凑热闹的话，就不要来了。

3,数据挖掘：

定义：数据挖掘是指从大量的数据中，通过统计学、人工智能、机器学习等方法，挖掘出未知的、且有价值的信息和知识的过程。

作用：数据挖掘主要侧重解决四类问题：分类、聚类、关联和预测（定量、定性），数据挖掘的重点在寻找未知的模式与规律；如我们常说的数据挖掘案例：啤酒与尿布、安全套与巧克力等，这就是事先未知的，但又是非常有价值的信息；

方法：主要采用决策树、神经网络、关联规则、聚类分析等统计学、人工智能、机器学习等方法进行挖掘；

结果：输出模型或规则，并且可相应得到模型得分或标签，模型得分如流失概率值、总和得分、相似度、预测值等，标签如高中低价值用户、流失与非流失、信用优良中差等；

4,综合起来，数据分析（狭义）与数据挖掘的本质都是一样的，都是从数据里面发现关于业务的知识（有价值的信息），从而帮助业务运营、改进产品以及帮助企业做更好的决策。所以数据分析（狭义）与数据挖掘构成广义的数据分析。

‘陆’ 乳糖操纵子

乳糖操纵子
一、结构和功能

细菌相关功能的结构基因常连在一起，形成一个基因簇。它们编码同一个代谢途径中的不同的酶。一个基因簇受到同一的调控，一开俱开，一闭俱闭。也就是说它们形成了一个被调控的单位，其它的相关功能的基因也包括在这个调控单位中，例如编码透过酶的基因，虽它的产物不直接参与催化代谢，但它可以使小分子底物转运到细胞中。

乳糖分解代谢相关的三个基因，lacZ、Y、A就是很典型的是上述基因簇。它们的产物可催化乳糖的分解，产生葡萄糖和半乳糖。它们具有顺式作用调节元件和反式作用调节基因。三个结构基因图的功能是：

lacZ编码β-半乳糖苷酶，此酶由500kd的四聚体构成，它可以切断乳糖的半乳糖苷键，而产生半乳糖和葡萄糖

lacY编码β一半乳糖苷透性酶，这种酶是一种分子量为30kDd膜结合蛋白，它构成转运系统，将半乳糖苷运入到细胞中。

lacA编码β-半乳糖苷乙酰转移酶，其功能只将乙酰-辅酶A上的乙酰基转移到β-半乳糖苷上。

无论是lacZ发生突变还是lacY发生突变却可以产生lac-型表型，这种lac—表型的细胞不能利用乳糖。 lacZ-突变体中半乳糖苷酶失去活性，直接阻止了乳糖的代谢。lacY-突变体不能从膜上吸取乳糖。

这一个完整的调节系统包括结构基因和控制这些基因表达的元件，形成了一个共同的调节单位，这种调节单位就称为操纵子（opron）。操纵子的活性是由调节基因控制的，调节基因的产物可以和操纵子上的顺式作用控制元件相互作用。

lacZ、Y、A基因的转录是由lacI基因指令合成的阻遏蛋白所控制。lacI一般和结构基因相毗连，但它本身具有自己的启动子和终止子，成为独立的转录单位。由于lacI的产物是可溶性蛋白，按照理说是无需位于结构基因的附近。它是能够分散到各处或结合到分散的DNA位点上（这是典型的反式-作用调节物。）

通过突变的效应是可以将结构基因和调节基因相区别的，结构基因发生突变，细胞中就失去这些基因合成的蛋白。但是调节基因发生突变会影响到它所控制的所有结构基因的表达。调节蛋白的突变的结果可以显示调节的类型。

lac基因簇是受到负调节（negative regulation）。它们的转录可被调节蛋白所关闭。若调节蛋白因突变而失活就会导致结构基因组成型表达。表明调节蛋白的功能是阻止结构基因的表达，因此称这些蛋白为“阻遏”蛋白。

乳糖操纵子的阻遏蛋白是由4个亚基（38kDa）组成的四聚体。一个野生型细胞中大约有10个四聚体。调节基因转录成单顺反子的mRNA，它和操纵子的比率与RNA聚合酶和启动子之比是相似的。

lacI的产物称为lac阻遏物（lac repressor），其功能是和lacZ、Y、A基因簇5′端的操纵基因（Olac）,操纵基因位于启动子(Plac)和结构基因（lac2yA）之间。当阻遏物结合在操纵基因上时就阻碍了启动子上的转录起始。Olac从mRNA转录起始点的上游-5处延伸到转录单位+21处。这样它和启动子的末端发生重叠。新近的观点认为阻遏物影响了RNA聚合酶，从操纵基因和启动子二者相关位置来看阻遏物结合在DNA上会阻碍RNA聚合酶转录结构基因。但我们必须注意其它一些操纵子上的操纵基因其位置和乳糖操纵子并不相同，因而阻遏蛋白可以通过多种方式与操纵操纵基因结合阻断转录。

二、阻遏蛋白的活性受到小分子诱导的控制

细菌对环境的改变必需作出迅速的反应。营养供给随时都可能发生变化，反复反常。要能得以幸存必需具有可以变换不同代谢底物的能力。单细胞真核生物也同样生活在不断变化环境中；而更为复杂的多细胞生物都具有一套恒定的代谢途径，而无需对外部环境作出反应。

在细菌中是很需要灵活性，也需要很经济，因为细菌遇到合适的环境就大量消耗营养对其本身也是不利的。在缺乏底物时就不必要合成大量相关的酶类，因此细菌产生了一种调节机制，即在缺乏底物时就阻断酶的合成途径，但同时又作好了准备，一旦有底物存在就立即合成这些酶。

特殊底物的存在导致了酶的合成，此现象称为诱导（inction）。这种类型的调控广泛存在于细菌中，在较低等的真核生物（如酶母）也有这种情况。E.coli的乳糖操纵子提供了这种调控机制的典型范例。

当E.coli生长在缺乏β一半乳糖苷的条件下是不需要β-半乳糖苷酶的，因此细胞中含量很低，大约每个细胞不高于5个分子，当加入底物后细菌中十分迅速地合成了这种酶，仅在2-3分钟之内酶就可以产生并很快增长到5000个分子/每个细胞。如在酶的浓度将达到细胞总蛋白的5-10%。如在培养基中除去底物，那么酶的合成也就迅速停止，恢复到原来的状态。

如果原来培养基中无乳糖，也无葡萄糖，那么细胞只在很低的基本水平合成β-半乳苷酶和透性酶。当加入Lac后，Ecoli的lac+ 细胞很快大量合成以上两种酶。进一步用32P标记mRNA作杂交实验（用λlac中的取得的DNA，与加入乳糖后不同时间内产生的32P-mRNA进行分子杂交）结果表明加入的乳糖能激发lac的mRNA的合成。lac mRNA极不稳定，其半衰期仅有3分钟，这个特点随着诱导很快的恢复。当诱导物一除去转录立即停止，在很短的时间内所有的lac mRNA即被降解掉，细胞内的含量恢复到基础水平。

β-半乳糖苷酶和透性酶合成是和lac mRNA同时被诱导的，但当除去诱导物时在细胞中β-半乳糖苷酶和透性酶要比lac mRNA稳定，因此酶的活性在一段较长的时间内保持被诱导水平。这种对营养供给发生改变作出迅速反应的调控类型，不仅提供了代谢新底物的能力，而且习惯于关闭在培养基中实然加入的一些成份的内部合成。比如E.coli的Trp的合成是通过Trp合成酶的作用。如果在细菌生长的培养基中加入Trp的话，那么立即停止Trp合成酶的生产。这种作用称为阻遏（repression）效应。它使细菌避免合成多余的物质。

在细菌中同时存在着诱导和阻遏的现象。诱导是细菌调节其分解底物供给生长的能力。阻遏是细菌调节其合成代谢产物的能力。无论是酶作用的小分子底物的调节，还是酶活性的产生，它们的启动是独自的，小分子底物称为诱导物（incers）某些物质能阻止酶合成它们本身，此物质就称辅阻遏物（corepressors）。

诱导和酶阻遏是高度特异的，只有底物/产物或紧密相关的分子才能起作用，但小分子的活性并不依赖于和靶酶的相互作用。某些诱导物与自然的β-半乳糖苷酶相似，但并不能被酶分解，比如异丙基-β-D-硫代半乳糖苷（isopropylthiogalactoside,IPTG）。其半乳糖苷键中用硫代替了氧，失去了水解活性，但硫代半乳糖苷和同源的氧代化合物与酶位点的亲和力相同，IPTG虽不为β-半乳糖苷酶所识别，但它是lac基因簇十分有效的诱导物。

能诱导酶的合成，但又不被分解的分子,称为安慰诱导物（gratuitous incer）。由于乳糖虽可诱导酶的合成，但又随之分解，产生很多复杂的动力学问题，因此人们常用安慰诱导物来进行各种实验。它的存在表明一个重要的问题，就是这个控制系统必须具有某种成份，它不同于靶酶，能识别合适的底物；而它的这种识别相关底物的能力也不同于酶。

对诱导物作出反应的这种成份就是阻遏蛋白，它由lacI编码，其作用是控制lacIYA结构基同的转录，对环境作出反应。三个结构基因转录成单个的多顺反子mRNA。阻遏蛋白的活性状态决定了此启动子是否打开或关闭。在缺乏诱导物时，这些基因不能转录，因为阻遏蛋白是活性状态结合在操纵基因上。当诱导物存在时，阻遏物与之结合，变成为失活状态，离开操纵基因，启动子开始转录，起始于lacZ 5¢端，终止于lacA的3¢端。

诱导物如何控制阻遏蛋白的活性呢？阻遏物对于操纵基因有很高的亲和性，在缺乏诱导物时，阻遏物总是结合在操纵基因上，使得邻近的结构基因不能转录。但当诱导物存在时，它和阻遏物结合形成了一个阻遏物复合体，不再和操纵基因结合。

操纵子控制的重要特性是阻遏物的双重性：它既能阻止转录，又能识别小分子诱导物。阻遏物有2个结合位点：一个是结合诱导物的，另一个是结合操纵基因的。当诱导物在相应位点结合时，它改变了阻遏蛋白的构象，干扰了另一位点的活性。这种类型的调控叫变构调控。（allosteric control）

诱导完成一种协同调控（coordinate regulation）：所有的一组基因都一道表达或一道关闭。mRNA一般总是从5¢开始转录，所以诱导总是导致β-半乳糖苷酶，Lac透性酶和Lac乙酰转移酶按一定顺序出现。此多顺反子mRNA的共同转录解释了为什么在诱导物的不同条件下，lacZ、Y、A三个基因的产物总保持同样的当量关系。

诱导触动了“开关”使基因簇表达。诱导物交替变换它们的效应，其它的因子影响了转录和翻译的绝对水平，但三个基因之间的关系事先已被它们的结构所决定了。

我们要注意操纵子的潜在特点。Lac操纵子含有lacZ，它编码糖代谢所必须的β-半乳糖苷酶；含有的lac编码透性酶，此酶是负责将底物转达运到细胞中。但操纵子在非诱导状态时，基因尚未表达，也就不存在透性酶。那么诱导物开始怎样进入细胞呢？

其实在细胞中透过酶等总是以最低量存在的，足以供给底物开始进入之需。操纵子有一个本底水平（basal level）的表达，即使没有诱导物的存在，它也保持此表达水平（诱导水平的0.1%），而有的诱导物是通过其它的吸收系统进入细胞的。

三、操纵基因和调节基因的鉴别

野生型的操纵子以被调节的方式进行表达，调节系统若发生突变可能使表达停止或者在没有诱导物存在时仍然表达。前者称为不可诱导性（unincible）突变；后者对调节没有反应能力，无论诱导物是否存在都进行表达，故称为组成型突变（constitutive mutants）。

操纵子调节系统的成份通过突变已被鉴别出来，它们作用于结构基因的表达以及编码区的外侧序列。这些成份分为二类：以启动子和操纵子，作为调节蛋白（RAN聚合酶，阻遏物）靶顺序的通过顺式作用突变而被鉴定出来。lac位点通过反式作用突变被鉴定是为编码阻遏蛋白的基因。

操纵基因是原来通过组成型突变鉴别出的，称为“Oc”，其分布特点提供了第一个顺式元件的证据，它是有功能的，但本身不编码。与OC突变相邻接的结构基因以组成型表达，这是由于突变改变了操纵基因，使阻遏蛋白不能与之结合。这样阻遏蛋白就不能阻止RNA聚合酶起始转录。从而使操纵子持续转录。

操纵基因只控制与它相邻接的一些lac基因。若将第二个Lac操纵子导入细菌的质粒上，它有自己特有的操纵基因。操纵基因互不干扰。因此如果一个操纵子有一个野生型的操纵基因，在通常条件下，它将被阻遏。当第二个操纵子带有OC突变时，它将持续表达。

这些特点表明操纵基因是一个典型的顺式作用位点。操纵基因只控制与其相邻接的基因而不影响存在于细胞中的其它DNA上的等位座位。像OC这样的突变称为顺式-显性（cis-dominant）。顺式作用位点中发生突变就不能和相关蛋白相结合，当两个顺式作用位点彼此靠得很近时（如启动子和操纵基因），我们通过互补测验是不能分别突变发生在那一个位点上，而只有通过它们对表型的影响来加以区别。顺式显性是控制邻接顺序的那些DNA位点的特性。如果一个控制位点其功能是作为多顺反子mRNA的一部分。它将表现出顺式显性的特点。特别表现在控制位点不能和被它调节的基因相分离。从遗传学的观点来看这些位点和基因是在DNA上还是在RNA这并不重要。

lacI-突变型也可导致持续转录。无论是点突变还是缺失都可产生这样的结果。后者可能是丢失了和DNA结合的功能区。因此与诱导物是否存在无关。这种现象是符合负控制系统的。lac+基因编码一个阻遏蛋白，它可以关闭lacZYA的转录。阻遏蛋白失去和操纵基因结合能力时，则为组成型突变。转录能在启动子上自由地起始。同时lacI- 突变由于阻遏蛋白的失活使lacZYA呈组成型表达。

当lacI- 和lacI+二者同时存在于同一个细胞时，通过确定二者的关系可以帮助人们得出正确的结论。这只能通过构建部分二倍体（partial diploid）来完成的。即一个拷贝的操纵子位于细胞的主染色体上，而另一个放在质粒上，此质粒仅带少量基因，可以独立复制。

在细胞中若既有lacI+又有lacI-，则可以正常调节。当除去诱导物时，结构基因又重新被阻遏。这表明lacI+可以产正常的阻遏物，当诱导物不存在时它可以反式阻遏lacI ZYA+基因，按遗传学的观点野生型的可诱导性对于组成型突变型是显性的。这是负控制的重要标志。

操纵子非诱导性突变不能都得到表达，它们可以分成两种组成型突变：(1) 启动子突变是顺式作用，若这种突变阻碍了RNA聚合酶与Plac的结合，也就不能阅读操纵子，因为它不能转录。(2) lacI突变若阻遏物失去和诱导物结合的能力也会导致和前者相同的现象。这种突变称为lacIs。

这种反式作用对野生型来说是显性的。阻遏蛋白被保持在对操纵基因的识别和阻碍转录的这种活性状态中。诱导物是否加入对其没有影响。这是由于细胞中突变的阻遏物结合在所有的lac操纵基因上并阻断转录，同时还不能取下，野生型阻遏物的存对它也毫无影响。

lacI突变的特点可以从阻遏蛋白结构的得以解释。在阻遏蛋白上具有两种不同类型的结合位点。通过这些结合位点来控制基因的表达以对环境作为反应。DNA-结合识别操纵基因。诱导结合位点与小分子诱导物结合。一旦与诱导物作用使其构象发生改变而失去与操纵基因DNA结合的能力。通过lacI突变失去某些活性可以鉴别出阻遏物亚基中的两个结合位点。DNA-结合位点的突变是组成型的（因为阻遏物不能和DNA结合来阻断转录）。诱导物结合位点的突变是不可诱导性的（由于诱导物不能减少阻遏物和DNA的亲和力）。

阻遏物功能的一个重要的特点是多聚体蛋白。在细胞中阻遏蛋白的亚基随机结合成四聚体。当不同的lacI等位基因存在时，它们的产物作为亚基结合成异聚四聚体，其特性和同聚四聚体不同。这种亚基之间的作用类型是具有多聚体蛋白的性质，被称为等位基因间的互补（interallelic complementation）。

负的互补（negative complementation）发生在某些阻遏蛋白突变体之间。正如在lacI-d与lacI+基因的重组中所见到的一样。此lacI-d的突变仅导致阻遏蛋白不能和操纵基因结合。因此它像lacI-等位基因一样，使操纵子呈组成型表达。由于lacI-类型的突变产生的阻遏物没有活性，它相对于野生型基因是隐性的，而“-d”这个符号表示负互补这种突变类型是显性的。这种突变称反式显性（trans-dominant），也称为显性失活（dominant negatives）。

这种显性的原因是由于lacI-d等位基因产生一个“坏”的亚基不仅它本身不能结合操纵基因的DNA，而且它还通作为四聚体的一部分阻止四聚体中“好”的亚基与DNA结合。这就意味着阻遏蛋白四聚体是作为一个总体，而不是单个单体的简单的集合。这对完成阻遏来说是很必要的。在体外将“好”的亚基和“坏”的亚基混合起来也会产生损坏的作用。

lacI-d的突变是发生在阻遏蛋白的DNA结合位点这就可以解释混合的四聚体可以阻止与操纵基因的结合。结合位点数目的减少使四聚体和操纵基因的亲和力减少。lacI基因的左末端对于蛋白产物来说正好是在N-末端DNA-结合位点。lacI-隐性突变发生在此位点以外的任何区域。但可以起到DNA结合的间接作用。

lacIs是不可诱导性突变，它是不能对诱导物作出反应。此可能由于阻遏蛋白失去了诱导物结合位点，或者不能将它们的作用传递到DNA-结合位点。lacIS突变位点是很有规律的延着基因成束间隔排列。这些间隔可能存在着肽链的改变。

‘柒’ 什么叫模糊集对分析法

按照模糊综合分析法，我们对某企业效绩进行评价。
1.设因素集U：U={u1，u2，……u9}
综合我国现行评价体系和平衡记分法(SEC)，我们选取了u1(净资产收益状况)、u2(资产营运状况)、u3(长期偿债能力)、u4(短期偿债能力)。U5(销售增长状况)，u6(市场占有能力)、u7(技术能力)、u8(发展创新能力)、u9(学习能力)等9个指标为反映企业效绩的主要指标。其中，u1、u2、u3、u4、u5是财务业绩方面的指标，原来都用精确的比率指标反映，但对它们适当地模糊化更能客观真实地反映企业效绩。例如，在评价企业短期偿债能力时，该企业流动比率为1.8，但专家们发现该企业存货数额庞大，占了流动资产的较大部分，说明其资产的流动性并不好，因而仍可评定该指标为较低等级。U6是客户方面业绩指标，u7内部经营过程方面业绩指标，u8、u9是学习与增长方面业绩指标。
2.设评价集V={v1，v2……v4}
简便起见，我们设v1：优秀，v2：良好，v3：平均，v4：较差。
3.我们选取了该企业的注册会计师、熟悉该企业情况的专家组成评判组，得到评价矩阵
4.根据专家意见，我们确定权重集A为：
5.按照M(,，+)模型
所以，根据最大隶属度原则，该企业效绩评定为“良好”。事后，该企业领导认为这个评价结果比较符合实际情况。
按照模糊综合分析法，我们对某企业效绩进行评价。
1.设因素集U：U={u1，u2，……u9}
综合我国现行评价体系和平衡记分法(SEC)，我们选取了u1(净资产收益状况)、u2(资产营运状况)、u3(长期偿债能力)、u4(短期偿债能力)。U5(销售增长状况)，u6(市场占有能力)、u7(技术能力)、u8(发展创新能力)、u9(学习能力)等9个指标为反映企业效绩的主要指标。其中，u1、u2、u3、u4、u5是财务业绩方面的指标，原来都用精确的比率指标反映，但对它们适当地模糊化更能客观真实地反映企业效绩。例如，在评价企业短期偿债能力时，该企业流动比率为1.8，但专家们发现该企业存货数额庞大，占了流动资产的较大部分，说明其资产的流动性并不好，因而仍可评定该指标为较低等级。U6是客户方面业绩指标，u7内部经营过程方面业绩指标，u8、u9是学习与增长方面业绩指标。
2.设评价集V={v1，v2……v4}
简便起见，我们设v1：优秀，v2：良好，v3：平均，v4：较差。
3.我们选取了该企业的注册会计师、熟悉该企业情况的专家组成评判组，得到评价矩阵
4.根据专家意见，我们确定权重集A为：
5.按照M(,，+)模型
所以，根据最大隶属度原则，该企业效绩评定为“良好”。事后，该企业领导认为这个评价结果比较符合实际情况。
参考资料：互联网
回答者：屁屁有葱 - 举人五级 11-8 11:52

运用模糊集对分析法,建立了大气环境监测布点优化的数学模型,对成都大气环境监测点的优化实例证明:该方法优化结果切实可靠,最终保留的信息量大,而且计算方法灵活,简便易行.
回答者：jinlintx - 试用期一级 11-8 11:56

粗糙集理论及其应用
摘要在很多实际系统中均不同程度地存在着不确定性因素, 采集到的数据常常包含着噪声,不精确甚至不完整. 粗糙集理论是继概率论,模糊集,证据理论之后的又一个处理不确定性的数学工具. 作为一种较新的软计算方法, 粗糙集近年来越来越受到重视, 其有效性已在许多科学与工程领域的成功应用中得到证实, 是当前国际上人工智能理论及其应用领域中的研究热点之一.
本文介绍了粗糙集理论的基本概念,特点及有关应用.
关键词粗糙集, 不确定性, 数据分析, 软计算
1 引言
在自然科学,社会科学和工程技术的很多领域中, 都不同程度地涉及到对不确定因素和对不完备( imperfect) 信息的处理. 从实际系统中采集到的数据常常包含着噪声, 不够精确甚至不完整. 采用纯数学上的假设来消除或回避这种不确定性, 效果往往不理想, 反之, 如果正视它,对这些信息进行合适地处理, 常常有助于相关实际系统问题的解决. 多年来, 研究人员一直在努力寻找科学地处理不完整性和不确定性的有效途径. 模糊集和基于概率方法的证据理论是处理不确定信息的两种方法, 已应用于一些实际领域. 但这些方法有时需要一些数据的附加信息或先验知识, 如模糊隶属函数,基本概率指派函数和有关统计概率分布等, 而这些信息有时并不容易得到. 1982 年, 波兰学者Z. Paw lak 提
出了粗糙集理论, 它是一种刻划不完整性和不确定性的数学工具, 能有效地分析不精确,不一致( incon sisten t),不完整( incomp lete) 等各种不完备的信息, 还可以对数据进行分析和推理, 从中发现隐含的知识, 揭示潜在的规律. 粗糙集理论是建立在分类机制的基础上的, 它将分类理解为在特定空间上的等价关系, 而等价关系构成了对该空间的划分.粗糙集理论将知识理解为对数据的划分, 每一被划分的集合称为概念.粗糙集理论的主要思想是利用已知的知识库, 将不精确或不确定的知识用已知的知识库中的知识来(近似) 刻画.该理论与其他处理不确定和不精确问题理论的最显着的区别是它无需提供问题所需处理的数据集合之外的任何先验信息, 所以对问题的不确定性的描述或处理可以说是比较客观的, 由于这个理论未能包含处理不精确或不确定原始数据的机制, 所以这个理论与概率论, 模糊数学和证据理论等其他处理不确定或不精确问题的理论有很强的互补性.本文简要介绍了粗糙集理论的基本概念和实际应用.
2 粗糙集的理论
2. 1 粗糙集理论的产生和发展
在本世纪70 年代, 波兰学者Z. Paw lak 和一些波兰科学院,波兰华沙大学的逻辑学家们,一起从事关于信息系统逻辑特性的研究. 粗糙集理论就是在这些研究的基础上产生的. 1982年, Z. Paw lak 发表了经典论文Rough Set s , 宣告了粗糙集理论的诞生. 此后, 粗糙集理论引起了许多数学家,逻辑学家和计算机研究人员的兴趣, 他们在粗糙集的理论和应用方面作了大量的研究工作.1991 年Z. Paw lak 的专着和1992 年应用专集的出版, 对这一段时期理论和实践工作的成果作了较好的总结, 同时促进了粗糙集在各个领域的应用. 此后召开的与粗糙集有关的国际会议进一步推动了粗糙集的发展. 越来越多的科技人员开始了解并准备从事该领域的研究. 目前, 粗糙集已成为人工智能领域中一个较新的学术热点, 在机器学习,知识获取,决策分析,过程控制等许多领域得到了广泛的应用.
2. 2 粗糙集理论所处理的问题
粗糙集能有效地处理下列问题:
·不确定或不精确知识的表达;
·经验学习并从经验中获取知识;
·不一致信息的分析;
·根据不确定,不完整的知识进行推理;
·在保留信息的前提下进行数据化简;
·近似模式分类;
·识别并评估数据之间的依赖关系
2. 3 粗糙集理论的一些基本概念
2. 3. 1 知识的含义
"知识"这个概念在不同的范畴内有多种不同的含义. 在粗糙集理论中,"知识"被认为是一种分类能力. 人们的行为是基于分辨现实的或抽象的对象的能力, 如在远古时代, 人们为了生存必须能分辨出什么可以食用, 什么不可以食用; 医生给病人诊断, 必须辨别出患者得的是哪一种病. 这些根据事物的特征差别将其分门别类的能力均可以看作是某种"知识".
2. 3. 2 不可分辨关系与基本集
分类过程中, 相差不大的个体被归于同一类, 它们的关系就是不可分辨关系( indiscernability relation). 假定只用两种黑白颜色把空间中的物体分割两类, {黑色物体},{白色物体},那么同为黑色的两个物体就是不可分辨的, 因为描述它们特征属性的信息相同, 都是黑色. 如果再引入方,圆的属性, 又可以将物体进一步分割为四类: {黑色方物体},{黑色圆物体},{白色方物体},{白色圆物体}. 这时, 如果两个同为黑色方物体, 则它们还是不可分辨的. 不可分辨关系也称为一个等效关系(equivalence relationship ) , 两个白色圆物体间的不可分辨关系可以理解为它们在白,圆两种属性下存在等效关系.
基本集(elementary set) 定义为由论域中相互间不可分辨的对象组成的集合, 是组成论域知识的颗粒. 不可分辨关系这一概念在粗糙集理论中十分重要, 它深刻地揭示出知识的颗粒状结构 , 是定义其它概念的基础. 知识可认为是一族等效关系, 它将论域分割成一系列的等效类.
2. 3. 3 集合的下逼近,上逼近及边界区
粗糙集理论延拓了经典的集合论, 把用于分类的知识嵌入集合内, 作为集合组成的一部分. 一个对象a 是否属于集合X 需根据现有的知识来判断, 可分为三种情况: (1) 对象a 肯定属于集合X ; (2) 对象a 肯定不属于集X ; (3) 对象a 可能属于也可能不属于集合X . 集合的划分密切依赖于我们所掌握的关于论域的知识, 是相对的而不是绝对的.给定一个有限的非空集合U 称为论域, I 为U 中的一族等效关系, 即关于U 的知识, 则二元对 K = (U , I ) 称为一个近似空间(approximation space). 设x 为U 中的一个对象, X为U 的一个子集, I (x ) 表示所有与x 不可分辨的对象所组成的集合, 换句话说, 是由x 决定的
等效类, 即I (x ) 中的每个对象都与x 有相同的特征属性(attribute).
集合X 关于I 的下逼近(Lower approximation) 定义为:
I* (X ) = {x ∈U : I (x ) I *(X ) 实际上由那些根据现有知识判断肯定属于X 的对象所组成的最大的集合, 有时也称
为X 的正区(po sit ive region) , 记作PO S (X ). 类似地, 由根据现有知识判断肯定不属于X 的
对象组成的集合称为X 的负区(negat ive region) , 记作N EG (X ).
集合X 关于I 的上逼近(U pper app rox im at ion) 定义为
I3 (X ) = {x ∈U : I (x ) ∩ X ≠ 5 } (2)
I3 (X ) 是由所有与X 相交非空的等效类I (x ) 的并集, 是那些可能属于X 的对象组成的最小
集合. 显然, I3 (X ) + N EG (X ) = 论域U.
集合X 的边界区(Boundary region) 定义为
BND (X ) = I
3 (X ) - I 3 (X ) (3)
BND (X ) 为集合X 的上逼近与下逼近之差. 如果BND (X ) 是空集, 则称X 关于I 是清晰的
(crisp ) ; 反之如果BND (X ) 不是空集, 则称集合X 为关于I 的粗糙集( rough set).
下逼近,上逼近及边界区等概念称为可分辨区(discern ib ility region s) , 刻划了一个边界含
糊(vague) 集合的逼近特性. 粗糙程度可按按下式的计算
A1
=
I 3 (X )
I
3 (X ) , (4)
式中 # 表示集合# 的基数或势(cardinality) , 对有限集合表示集合中所包含的元素的个数.
显然0≤A
1 (X ) ≤1, 如果A
1 (X ) = 1, 则称集合X 相对于I 是清晰(crisp ) 的, 如果A
1 (X ) 0} (7)
BND (X ) = {x ∈U : 0 < LIX
(x ) < 1} (8)
从上面的定义中, 可以看出粗糙集理论中"含糊"(vague) 和"不确定"(uncertain ty) 这两个
概念之间的关系:"含糊"用来描述集合, 指集合的边界不清楚; 而"不确定"描述的是集合中的
元素, 指某个元素是否属于某集合是不确定的.
2. 4 实例
下面用一个具体的实例说明粗糙集的概念. 在粗糙集中使用信息表( info rm at ion tab le) 描
述论域中的数据集合. 根据学科领域的不同, 它们可能代表医疗,金融,军事,过程控制等方面
的数据. 信息表的形式和大家所熟悉的关系数据库中的关系数据模型很相似, 是一张二维表
1 期韩祯祥等: 粗糙集理论及其应用39
1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
格, 如表一所示. 表格的数据描述了一些人的教育程度以及是否找到了较好工作, 旨在说明两
者之间的关系. 其中王治,马丽, 赵凯等称为对象(ob ject s) , 一行描述一个对象. 表中的列描
述对象的属性. 粗糙集理论中有两种属性: 条件属性(condit ion at t ribu te) 和决策属性(decision
at t ribu te). 本例中"教育程度"为条件属性;"是否找到了好工作"为决策属性.
表1 教育程度与是否找到好工作的关系
姓名教育程度是否找到了好工作
王治高中否
马丽高中是
李得小学否
刘保大学是
赵凯博士是
设O 表示找到了好工作的人的集合, 则
O = {马丽, 刘保, 赵凯}, 设I 表示属性"教育
程度"所构成的一个等效关系, 根据教育程度
的不同, 该论域被分割为四个等效类: {王治,
马丽},{李得},{刘保},{赵凯}. 王治和马丽在
同一个等效类中, 他们都为高中文化程度, 是
不可分辨的. 则:
集合O 的下逼近(即正区) 为 I 3 (O ) = PO S (O ) = {刘保,赵凯}
集合O 的负区为 N EG (O ) = {李得}
集合O 的边界区为 BND (O ) = {王治, 马丽}
集合O 的上逼近为 I 3 (O ) = PO S (O ) + BND (O ) = {刘保,赵凯,王治,马
丽}
根据表1, 可以归纳出下面几条规则, 揭示了教育程度与是否能找到好工作之间的关系.
RUL E 1: IF (教育程度= 大学) OR (教育程度= 博士) THEN (可以找到好工作)
RUL E 2: IF (教育程度= 小学) THEN (找不到好工作)
RUL E 3: IF (教育程度= 高中) THEN (可能找到好工作)
从这个简单的例子中, 我们还可以体会到粗糙集理论在数据分析,寻找规律方面的作用.
3 粗糙集理论的特点
3. 1 粗糙集是一种软计算方法
软计算(sof t compu t ing) 的概念是由模糊集创始人Zadeh[ 9 ]提出的. 软计算中的主要工具
包括粗糙集,模糊逻辑(FL ),神经网络(NN ),_________概率推理(PR ),信度网络(Belief N etwo rk s),遗
传算法(GA ) 与其它进化优化算法,混沌(Chao s) 理论等.
传统的计算方法即所谓的硬计算(hard compu t ing) , 使用精确,固定和不变的算法来表达
和解决问题. 而软计算的指导原则是利用所允许的不精确性,不确定性和部分真实性以得到易
于处理,鲁棒性强和成本较低的解决方案, 以便更好地与现实系统相协调.
3. 2 粗糙集理论的特点
粗糙集方法的简单实用性是令人惊奇的, 它能在创立后的不长时间内得到迅速应用是因
为具有以下特点[ 6～ 8 ]:
(1) 它能处理各种数据, 包括不完整( incomp lete) 的数据以及拥有众多变量的数据;
(3) 它能处理数据的不精确性和模棱两可(am b igu ity) , 包括确定性和非确定性的情况;
(4) 它能求得知识的最小表达( rect) 和知识的各种不同颗粒(granu larity) 层次;
(5) 它能从数据中揭示出概念简单, 易于操作的模式(pat tern) ;
(6) 它能产生精确而又易于检查和证实的规则, 特别适于智能控制中规则的自动生成.
40 信息与控制27 卷
1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
4 粗糙集理论的应用
粗糙集理论是一门实用性很强的学科, 从诞生到现在虽然只有十几年的时间, 但已经在不
少领域取得了丰硕的成果, 如近似推理,数字逻辑分析和化简,建立预测模型,决策支持,控制
算法获取,机器学习算法和模式识别等等. 下面介绍一下粗糙集应用的几个主要领域.
4. 1 人工神经网络训练样本集化简
人工神经网络具有并行处理,高度容错和泛化能力强的特点, 适合应用在预测,复杂对象
建模和控制等场合. 但是当神经网络规模较大,样本较多时, 训练时间过于漫长, 这个固有缺点
是制约神经网络进一步实用化的一个主要因素. 虽然各种提高训练速度的算法不断出现, 问题
远未彻底解决. 化简训练样本集, 消除冗余数据是另一条提高训练速度的途径.
文[ 10 ]正是沿着这条思路, 应用粗糙集化简神经网络训练样本数据集, 在保留重要信息的
前提下消除了多余(superf luou s) 的数据. 仿真实验表明训练速度提高了4. 77 倍, 获得了较好
的效果.
4. 2 控制算法获取
实际系统中有很多复杂对象难于建立严格的数学模型, 这样传统的基于数学模型的控制
方法就难以奏效. 模糊控制模拟人的模糊推理和决策过程, 将操作人员的控制经验总结为一系
列语言控制规则, 具有鲁棒性和简单性的特点, 在工业控制等领域发展较快. 但是有些复杂对
象的控制规则难以人工提取, 这样就在一定程度上限制了模糊控制的应用.
粗糙集能够自动抽取控制规则的特点为解决这一难题提供了新的手段. 一种新的控制策
略—模糊- 粗糙控制(fuzzy2rough con t ro l) 正悄然兴起, 成为一个有吸引力的发展方向. 应用
这种控制方法, 文[11 ]研究了"小车—倒立摆系统"这一经典控制问题, 文[12 ]研究了过程控制
(水泥窑炉) , 均取得了较好的控制效果. 应用粗糙集进行控制的基本思路是: 把控制过程的一
些有代表性的状态以及操作人员在这些状态下所采取的控制策略都记录下来, 然后利用粗糙
集理论处理这些数据, 分析操作人员在何种条件下采取何种控制策略, 总结出一系列控制规
则:
规则1 IF Condit ion 1 满足 THEN 采取decision 1
规则2 IF Condit ion 2 满足 THEN 采取decision 2
规则3 IF Condit ion 3 满足 THEN 采取decision 3

这种根据观测数据获得控制策略的方法通常被称为从范例中学习( learn ing f rom exam2
p les). 粗糙控制( rough con t ro l) 与模糊控制都是基于知识,基于规则的控制, 但粗糙控制更加
简单迅速,实现容易(因为粗糙控制有时可省却模糊化及去模糊化步骤) ; 另一个优点在于控制
算法可以完全来自数据本身, 所以从软件工程的角度看, 其决策和推理过程与模糊(或神经网
络) 控制相比可以很容易被检验和证实(validate). 文[ 11 ]还指出在特别要求控制器结构与算
法简单的场合, 更适合采取粗糙控制.
美国电力科学研究院(EPR I) 对粗糙集的应用研究的潜力对十分重视, 将其作为战略性
研究开发(St rategy R&D) 项目, 在1996 年拨款 196, 600 资助San Jo se 州立大学进行电力系
统模糊- 粗糙控制器的研究.
1 期韩祯祥等: 粗糙集理论及其应用41
1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
4. 3 决策支持系统
面对大量的信息以及各种不确定因素, 要作出科学,合理的决策是非常困难的. 决策支持
系统是一组协助制定决策的工具, 其重要特征就是能够执行IF THEN 规则进行判断分
析. 粗糙集理论可以在分析以往大量经验数据的基础上找到这些规则, 基于粗糙集的决策支持
系统在这方面弥补了常规决策方法的不足, 允许决策对象中存在一些不太明确,不太完整的属
性, 并经过推理得出基本上肯定的结论.
下面举一个例子, 说明粗糙集理论可以根据以往的病例归纳出诊断规则, 帮助医生作出判
断. 表二描述了八个病人的症状. 从表二中可以归纳出以下几条确定的规则:
表2 症状与感冒的关系
病人编号
病理症状诊断结果
是否头痛体温是否感冒
病人1 是正常否
病人2 是高是
病人3 是很高是
病人4 否正常否
病人5 否高否
病人6 否很高是
病人7 否高是
病人8 否很高否
1. IF (体温正常) THEN (没感冒)
2. IF (头痛) AND (体温高) THEN
(感冒)
3. IF (头痛) AND (体温很高) THEN
(感冒)
还有几条可能的规则:
4. IF (头不痛) THEN (可能没感冒)
5. IF (体温高) THEN (可能感冒了)
6. IF (体温很高) THEN (可能感冒了)
病人5 和病人7, 病人6 和病人8, 症状
相同, 但是一个感冒另一个却没感冒, 这种情
况称为不一致( incon sisten t). 粗糙集就是靠这种IF THEN 规则的形式表示数据中蕴含的
知识.
希腊工业发展银行ETEVA 用粗糙集理论协助制订信贷政策, 从大量实例中抽取出的规
则条理清晰, 得到了金融专家的好评[ 13 ].
4. 4 从数据库中知识发现
现代社会中, 随着信息产业的迅速发展, 大量来自金融,医疗,科研等不同领域的信息被存
储在数据库中. 这些浩如烟海的数据间隐含着许多有价值的但鲜为人知的相关性, 例如股票的
价格和一些经济指数有什么关系; 手术前病人的病理指标可能与手术是否成功存在某种联系;
满足何种条件的夜空会出现彗星等天文现象等等.
由于数据库的庞大, 人工处理这些数据几乎是不可能的, 于是出现了一个新的研究方向—
数据库中的知识发现(Know ledge D iscovery in Databases, KDD) , 也叫做数据库(信息) 发掘
(M in ing) , 它是目前国际上人工智能领域中研究较为活跃的分支. 粗糙集是其中的一种重要
的研究方法, 它采用的信息表与关系数据库中的关系数据模型很相似, 这样就便于将基于粗糙
集的算法嵌入数据库管理系统中.
粗糙集引入核(co re),化简( rect) 等有力的概念与方法, 从数据中导出用IF THEN
规则形式描述的知识, 这些精练的知识更便于存储和使用. 美国医学工作者应用粗糙集理论对
大量的病历进行分析, 发现黑人妇女患乳腺癌后的死亡率比白人妇女高. 到目前为止, 早产的
预测在医学上还是比较困难的. 现有的人工预测方法准确率只有17à - 58à , 而应用粗糙集
理论则可将准确率提高到68à - 90à [ 8 ].
42 信息与控制27 卷
1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
5 粗糙集与模糊集,证据理论及其它一些情况
5. 1 粗糙集与模糊集,证据理论
粗糙集与模糊集都能处理不完备( imperfect) 数据, 但方法不同, 模糊集注重描述信息的含
糊(vagueness) 程度, 粗糙集则强调数据的不可辩别( indiscern ib ility) , 不精确( imp recision) 和
模棱两可(am b igu ity). 使用图像处理中的语言来作比喻, 当论述图像的清晰程度时, 粗糙集强
调组成图像象素的大小, 而模糊集则强调象素存在不同的灰度. 粗糙集研究的是不同类中的对
象组成的集合之间的关系, 重在分类; 模糊集研究的是属于同一类的不同对象的隶属的关系,
重在隶属的程度. 因此粗糙集和模糊集是两种不同的理论, 但又不是相互对立的, 它们在处理
不完善数据方面可以互为补充.
粗糙集理论与证据理论虽有一些相互交叠的地方, 但本质不同, 粗糙集使用集合的上,下
逼近而证据理论使用信任函数(belief funct ion) 作为主要工具. 粗糙集对给定数据的计算是客
观的, 无须知道关于数据的任何先验知识(如概率分布等) , 而证据理论则需要假定的似然值
(p lau sib ility).
5. 2 近年来召开的与粗糙集有关的国际会议
相继召开的以粗糙集理论为主题的国际会议, 促进了粗糙集理论的推广. 这些会议发表了
大量的具有一定学术和应用价值的论文, 方便了学术交流, 推动了粗糙集在各个科学领域的拓
展和应用. 下面列出了近年召开的一些会议:
· 1992 年第一届国际研讨会(Rough Set s: State of the A rt and Perspect ives) 在波兰
K iek rz 召开;
·1993 年第二届国际研讨会(The Second In ternat ionalWo rk shop on Rough Set s and
Know ledge D iscovery, RSKD'93) 在加拿大Banff 召开;
·1994 年第三届国际研讨会(The Th ird In ternat ionalWo rk shop on Rough Set s and Sof t
Compu t ing, RSSC'94) 在美国San Jo se 召开;
·1995 年在美国No rth Caro lina 召开了题为"Rough Set Theo ry, RST'95"的国际会议;
·1996 年第四届国际研讨会(The Fou rth In ternat ionalWo rk shop on Rough Set s, Fuzzy
Set s, andM ach ine D iscovery, RSFD'96) 在日本东京召开;
·1997 年3 月在美国No rth Caro lina 召开了第五届国际研讨会(The F if th In ternat ional
Wo rk shop on Rough Set s and Sof t Compu t ing, RSSC'97)
5. 3 国际上一些有关粗糙集的软件
目前, 国际上研究粗糙集的机构和个人开发了一些应用粗糙集的实用化软件, 也出现了商
业化的软件. 加拿大Rect System Inc. 公司开发的用于数据库知识发现的软件DataLogic
R [ 14 ]是用C 语言开发的, 可安装在个人计算机上, 为科研领域和工业界服务.
美国肯萨斯大学开发了一套基于粗糙集的经验学习系统[ 15 ] , 名为L ERS (L earn ing f rom
Examp les based on Rough Set s) , 它能从大量经验数据中抽取出规则. L ERS 已被美国国家航
空航天管理局(NA SA ) 的约翰逊(John son) 空间中心采用, 作为专家系统开发工具, 为"自由
号"(F reedom ) 空间站上的医疗决策服务. 美国环境保护署(U S Environm en tal P ro tect ion A 2
gency) 资助的一个项目中也采用了L ERS.
波兰波兹南工业大学(Poznan U n iversity of Techno logy) 开发的软件RoughDA S 和
1 期韩祯祥等: 粗糙集理论及其应用43
1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
RoughClass, 也在不少实际领域中得到应用[ 5 ].
加拿大Regina 大学开发的KDD- R 是用C 编写的, 在UN IX 环境下运行, KDD2R 基于
变精度粗糙集模型[ 16 ] (V ariab le P recision Rough Set, V PRS) , 通过改变粗糙程度而使数据中
隐含的模式更清楚的显示出来.
6 结束语
粗糙集是一种较有前途的处理不确定性的方法, 相信今后将会在更多的领域中得到应用.
但是, 粗糙集理论还处在继续发展之中, 正如粗糙集理论的创立人Z. Paw lak 所指出的那
样[ 8 ] , 尚有一些理论上的问题需要解决, 诸如用于不精确推理的粗糙逻辑(Rough logic) 方法,
粗糙集理论与非标准分析(Non standard analysis) 和非参数化统计(Nonparam et ric stat ist ics)
等之间的关系等等.
将粗糙集与其它软计算方法(如模糊集,人工神经网络,遗传算法等) 相综合, 发挥出各自
的优点, 可望设计出具有较高的机器智商(M IQ ) 的混合智能系统(Hyb rid In telligen t
System ) , 这是一个值得努力的方向.

‘捌’ 1.什么是误用入侵检测

入侵检测（Intrusion Detection），顾名思义，就是对入侵行为的发觉。他通过对计算机网络或计算机系统中若干关键点收集信息并对其进行分析，从中发现网络或系统中是否有违反安全策略的行为和被攻击的迹象。
入侵检测系统（intrusion detection system，简称“IDS”）是一种对网络传输进行即时监视，在发现可疑传输时发出警报或者采取主动反应措施的网络安全设备。它与其他网络安全设备的不同之处便在于，IDS是一种积极主动的安全防护技术。 IDS最早出现在1980年4月。 1980年代中期，IDS逐渐发展成为入侵检测专家系统（IDES）。 1990年，IDS分化为基于网络的IDS和基于主机的IDS。后又出现分布式IDS。目前，IDS发展迅速，已有人宣称IDS可以完全取代防火墙。
入侵检测系统检测方法
异常检测方法
在异常入侵检测系统中常常采用以下几种检测方法：
基于贝叶斯推理检测法：是通过在任何给定的时刻，测量变量值，推理判断系统是否发生入侵事件。基于特征选择检测法：指从一组度量中挑选出能检测入侵的度量，用它来对入侵行为进行预测或分类。基于贝叶斯网络检测法：用图形方式表示随机变量之间的关系。通过指定的与邻接节点相关一个小的概率集来计算随机变量的联接概率分布。按给定全部节点组合，所有根节点的先验概率和非根节点概率构成这个集。贝叶斯网络是一个有向图，弧表示父、子结点之间的依赖关系。当随机变量的值变为已知时，就允许将它吸收为证据，为其他的剩余随机变量条件值判断提供计算框架。
基于模式预测的检测法：事件序列不是随机发生的而是遵循某种可辨别的模式是基于模式预测的异常检测法的假设条件，其特点是事件序列及相互联系被考虑到了，只关心少数相关安全事件是该检测法的最大优点。
基于统计的异常检测法：是根据用户对象的活动为每个用户都建立一个特征轮廓表，通过对当前特征与以前已经建立的特征进行比较，来判断当前行为的异常性。用户特征轮廓表要根据审计记录情况不断更新，其保护去多衡量指标，这些指标值要根据经验值或一段时间内的统计而得到。
基于机器学习检测法：是根据离散数据临时序列学习获得网络、系统和个体的行为特征，并提出了一个实例学习法IBL，IBL是基于相似度，该方法通过新的序列相似度计算将原始数据（如离散事件流和无序的记录）转化成可度量的空间。然后，应用IBL学习技术和一种新的基于序列的分类方法，发现异常类型事件，从而检测入侵行为。其中，成员分类的概率由阈值的选取来决定。
数据挖掘检测法：数据挖掘的目的是要从海量的数据中提取出有用的数据信息。网络中会有大量的审计记录存在，审计记录大多都是以文件形式存放的。如果靠手工方法来发现记录中的异常现象是远远不够的，所以将数据挖掘技术应用于入侵检测中，可以从审计数据中提取有用的知识，然后用这些知识区检测异常入侵和已知的入侵。采用的方法有KDD算法，其优点是善于处理大量数据的能力与数据关联分析的能力，但是实时性较差。
基于应用模式的异常检测法：该方法是根据服务请求类型、服务请求长度、服务请求包大小分布计算网络服务的异常值。通过实时计算的异常值和所训练的阈值比较，从而发现异常行为。
基于文本分类的异常检测法：该方法是将系统产生的进程调用集合转换为“文档”。利用K邻聚类文本分类算法，计算文档的相似性。
误用检测方法
误用入侵检测系统中常用的检测方法有：
模式匹配法：是常常被用于入侵检测技术中。它是通过把收集到的信息与网络入侵和系统误用模式数据库中的已知信息进行比较，从而对违背安全策略的行为进行发现。模式匹配法可以显着地减少系统负担，有较高的检测率和准确率。
专家系统法：这个方法的思想是把安全专家的知识表示成规则知识库，再用推理算法检测入侵。主要是针对有特征的入侵行为。
基于状态转移分析的检测法：该方法的基本思想是将攻击看成一个连续的、分步骤的并且各个步骤之间有一定的关联的过程。在网络中发生入侵时及时阻断入侵行为，防止可能还会进一步发生的类似攻击行为。在状态转移分析方法中，一个渗透过程可以看作是由攻击者做出的一系列的行为而导致系统从某个初始状态变为最终某个被危害的状态。

阅读全文

热点内容

马路上汽车的噪音在多少分贝发布：2023-08-31 22:08:23 浏览：1876

应孕棒多少钱一盒发布：2023-08-31 22:08:21 浏览：1347

标准养老金一年能领多少钱发布：2023-08-31 22:05:05 浏览：1631

湖北通城接网线多少钱一个月发布：2023-08-31 21:59:51 浏览：1713

开随车吊车多少钱一个月发布：2023-08-31 21:55:06 浏览：1477

京东付尾款怎么知道前多少名发布：2023-08-31 21:52:58 浏览：1798

在学校租铺面一个月要多少钱发布：2023-08-31 21:52:09 浏览：1935

2寸有多少厘米发布：2023-08-31 21:50:34 浏览：1579

知道电压如何算一小时多少电发布：2023-08-31 21:46:20 浏览：1558

金手镯54号圈周长是多少厘米发布：2023-08-31 21:44:28 浏览：1733

kdd相似度多少合适

与kdd相似度多少合适相关的资讯