kdd相似度多少合適
『壹』 數據挖掘與數據分析的區別是什麼
1.數據挖掘
數據挖掘是指從大量的數據中,通過統計學、人工智慧、機器學習等方法,挖掘出未知的、且有價值的信息和知識的過程。數據挖掘主要側重解決四類問題:分類、聚類、關聯和預測,就是定量、定性,數據挖掘的重點在尋找未知的模式與規律。輸出模型或規則,並且可相應得到模型得分或標簽,模型得分如流失概率值、總和得分、相似度、預測值等,標簽如高中低價值用戶、流失與非流失、信用優良中差等。主要採用決策樹、神經網路、關聯規則、聚類分析等統計學、人工智慧、機器學習等方法進行挖掘。綜合起來,數據分析(狹義)與數據挖掘的本質都是一樣的,都是從數據裡面發現關於業務的知識(有價值的信息),從而幫助業務運營、改進產品以及幫助企業做更好的決策,所以數據分析(狹義)與數據挖掘構成廣義的數據分析。這些內容與數據分析都是不一樣的。
2.數據分析
其實我們可以這樣說,數據分析是對數據的一種操作手段,或者演算法。目標是針對先驗的約束,對數據進行整理、篩選、加工,由此得到信息。數據挖掘,是對數據分析手段後的信息,進行價值化的分析。而數據分析和數據挖掘,又是甚至是遞歸的。就是數據分析的結果是信息,這些信息作為數據,由數據去挖掘。而數據挖掘,又使用了數據分析的手段,周而復始。由此可見,數據分析與數據挖掘的區別還是很明顯的。
而兩者的具體區別在於:
(其實數據分析的范圍廣,包含了數據挖掘,在這里區別主要是指統計分析)
數據量上:數據分析的數據量可能並不大,而數據挖掘的數據量極大。
約束上:數據分析是從一個假設出發,需要自行建立方程或模型來與假設吻合,而數據挖掘不需要假設,可以自動建立方程。
對象上:數據分析往往是針對數字化的數據,而數據挖掘能夠採用不同類型的數據,比如聲音,文本等。
結果上:數據分析對結果進行解釋,呈現出有效信息,數據挖掘的結果不容易解釋,對信息進行價值評估,著眼於預測未來,並提出決策性建議。
數據分析是把數據變成信息的工具,數據挖掘是把信息變成認知的工具,如果我們想要從數據中提取一定的規律(即認知)往往需要數據分析和數據挖掘結合使用。
舉個例子說明:你揣著50元去菜市場買菜,對於琳琅滿目的雞鴨魚豬肉以及各類蔬菜,想葷素搭配,你逐一詢問價格,不斷進行統計分析,能各自買到多少肉,多少菜,大概能吃多久,心裡得出一組信息,這就是數據分析。而關繫到你做出選擇的時候就需要對這些信息進行價值評估,根據自己的偏好,營養價值,科學的搭配,用餐時間計劃,最有性價比的組合等等,對這些信息進行價值化分析,最終確定一個購買方案,這就是數據挖掘。
數據分析與數據挖掘的結合最終才能落地,將數據的有用性發揮到極致。
『貳』 什麼是粗糙集
在自然科學,社會科學與工程技術的很多領域中,都不同程度地涉及到對不確定因素和不完備信息的處理.從實際系統中採集到的數據常常包含著雜訊,不精確甚至不完整,採用純數學上的假設來消除或迴避這種不確定性,效果往往不理想,反之,如果正視它,對這種信息進行適當地處理,常常有助於實際系統問題的解決.多年來,研究人員們一直在努力尋找科學地處理不完整性和不確定性的有效途徑,實踐證明,1965年Zadeh創立的模糊集理論與1982年Z.Pawlak倡導的粗糙集理論是處理不確定性的兩種很好的方法.事實上,除了上述兩種方法外,基於概率統計方法的證據理論也是處理不確定性的一種有效方法.這些眾多的方法都屬於軟計算(Soft Computing)的范疇.軟計算(Soft Computing)的概念是由模糊集理論的創始人Zadeh提出的,軟計算(Soft Computing)的主要工具包括粗糙集(Rough sets),模糊邏輯(Fuzzy Logic),神經網路(Nerve Network),概率推理(Probability Reasoning),信度網路(Belief Network),遺傳演算法(Genetic Arithmetic)與其它進化優化演算法,混沌理論(Chaos)等.傳統的計算方法即所謂的硬計算(Hard Computing),使用精確,固定和不變的演算法來表達和解決問題,而軟計算(Soft Computing)的指導原則是利用所允許的不精確性,不確定性和部分真實性得到易於處理,魯棒性強和成本較低的解決方案,以便更好地與現實系統相協調.與其它方法相比,粗糙集方法的最大優點是不需要附加信息或先驗知識,這一點是其它方法無法做到的,如模糊集方法與概率統計或證據理論方法中,往往需要模糊隸屬函數,基本概率指派函數(Basic Probability Assignment,BPA)和有關統計概率分布等,而這些信息有時並不容易得到.正是基於這一優點,粗糙集理論得以迅速興起,並逐漸成為人工智慧界以及其它處理不確定性領域的研究熱點.
眾所周知,粗糙集與模糊集是兩種主要的,應用最為廣泛的處理不確定性的方法,它們各有優,缺點,如何有效地將它們結合,使它們優勢互補,同時克服它們各自的缺點,將是很有興趣的研究課題.它們的結合涉及到許多問題,如它們的關系問題,它們是互相獨立的還是互為從屬,對這一問題的回答眾說不一,有的作者認為粗糙集是泛化的模糊集,如Z.Pawlak,有的作者持否定態度甚至相反觀點,如M.Wygralak.對此,本人在借鑒了他們的方法之後,提出了屬於自己的觀點.兩種方法的結合產生了粗糙模糊集(Rough Fuzzy Sets)與模糊粗糙集(Fuzzy Rough sets),這是兩種不同的結合觀.前者是從粗糙集的角度研究模糊集,而後者側重於從模糊集的角度去刻畫粗糙集.
本文的安排如下,第一章與第二章分別簡單介紹粗糙集與模糊集,第三,四章分別介紹粗糙模糊集(Rough Fuzzy Sets)與模糊粗糙集(Fuzzy Rough sets),第五章介紹粗糙集模糊化的一種新方法,試圖理清粗糙集與模糊集的關系.
第一章 粗糙集理論簡介
第一節 粗糙集理論的產生與應用背景
在20世紀70年代,波蘭學者Z.Pawlak和一些波蘭科學院,波蘭華沙大學的邏輯學家們,一起從事關於信息系統邏輯特性的研究,粗糙集理論就是在這種研究的基礎上產生的.1982年,Z.Pawlak發表了經典論文Rough Sets [2],宣告了粗糙集理論的誕生,此後,粗糙集理論引起了許多數學家,邏輯學家和計算機研究人員的興趣,他們在粗糙集的理論和應用方面做了大量的研究工作.1991年Z.Pawlak的專著[3]和1992年的應用專著[4]的出版,對這一段時期理論和實踐的成果做了較好的總結,同時促進了粗糙集在各個領域的應用.此後召開的與粗糙集有關的國際會議進一步推動了粗糙集的發展,越來越多的科技人員開始了解並准備從事該領域的研究.目前,粗糙集已成為人工智慧領域中一個較新的學術熱點,在機器學習,知識獲取,決策分析,過程式控制制等許多領域中得到了廣泛的應用.
一,粗糙集理論處理的問題
粗糙集以其獨到的方法能有效地處理許多涉及不確定性的問題,這些問題包括:
(1),不確定或不精確知識的表達,
(2),經驗學習並從經驗中獲取知識,
(3),不一致信息的分析,
(4),根據不確定,不完整的知識進行推理,
(5),在保留信息的前提下進行約簡,
(6),近似決策分類,
(7),識別並評估數據之間的依賴關系.
特別應該提到的是約簡,決策分類以及識別並評估數據之間的依賴關系,粗糙集理論在不需要任何附加信息或先驗知識的前提下可以非常有效地處理這些問題.
二,粗糙集理論與數學的關系
前面已經提到,粗糙集屬於軟計算的范疇,從這個角度來看,粗糙集是繼模糊集之後經典集合論的又一發展分支.但由於粗糙集是在近似空間上進行推理與分析問題,這一特點使它失去了作為經典數學的許多有關確定性的特徵.關於粗糙集理論的數學特徵的研究已有許多,其中很多著眼於粗糙集的代數特徵的研究,也有作者用公理化方法與結構化方法來刻畫粗糙集理論.但本人認為,這眾多的粗糙集理論的數學特性的研究尚未使人們真正認識清楚粗糙集的數學結構面目.關於這一方面的研究尚有許多課題,如怎樣將約簡過程數學化等等.
==========================================================
楓舞葉飛:這是一本書的前言部分,應該可以解決你的概念問題以及模糊集和粗糙級的區別聯系問題..另外,問一下您是不是研究生?是不是開學有課題項目啊?好多問研究問題的哦~~~
『叄』 緊急求助:考研生物化學題
乳糖操縱子
定義lactose operon
參與乳糖分解的一個基因群,由乳糖系統的阻遏物和操縱基因受負的控制,而同
時又同步地受支配。1961 年雅各布(F.Jacob)和莫諾德(J.Mon-od)根據該系
統的研究而提出了著名的操縱子學說。關於大腸桿菌的乳糖系統操縱子,¦Â-半乳糖苷
酶,半乳糖苷滲透酶,半乳糖苷轉醯酶的結構基因以LacZ(z), Lac Y(y),La
c A(a)的順序分別排列在染色體上,與z 相鄰,與y 相對的一側有操縱基因Lac
O(o),更前面有啟動基因Lac P(p),操縱子(乳糖操縱子)就是這樣構成的。
決定乳酸系統阻遏物結構的調節基因Lac I(i)處於和p 相鄰的位置上。
一、結構和功能
細菌相關功能的結構基因常連在一起,形成一個基因簇。它們編碼同一個代謝途
徑中的不同的酶。一個基因簇受到同一的調控,一開俱開,一閉俱閉。也就是說它們
形成了一個被調控的單位,其它的相關功能的基因也包括在這個調控單位中,例如編
碼透過酶的基因,雖它的產物不直接參與催化代謝,但它可以使小分子底物轉運到細
胞中。
乳糖分解代謝相關的三個基因,lacZ、Y、A 就是很典型的是上述基因簇。它們
的產物可催化乳糖的分解,產生葡萄糖和半乳糖。它們具有順式作用調節元件和反式
作用調節基因。三個結構基因圖的功能是:
lacZ 編碼¦Â-半乳糖苷酶,此酶由500kd 的四聚體構成,它可以切斷乳糖的半乳
糖苷鍵,而產生半乳糖和葡萄糖
lacY 編碼¦Â一半乳糖苷透性酶,這種酶是一種分子量為30kDd 膜結合蛋白,它
構成轉運系統,將半乳糖苷運入到細胞中。
lacA 編碼¦Â-半乳糖苷乙醯轉移酶,其功能只將乙醯-輔酶A 上的乙醯基轉移到¦Â-
半乳糖苷上。
無論是lacZ 發生突變還是lacY 發生突變卻可以產生lac-型表型,這種lac—表型
的細胞不能利用乳糖。lacZ-突變體中半乳糖苷酶失去活性,直接阻止了乳糖的代謝。
lacY-突變體不能從膜上吸取乳糖。
這一個完整的調節系統包括結構基因和控制這些基因表達的元件,形成了一個共
同的調節單位,這種調節單位就稱為操縱子(opron)。操縱子的活性是由調節基因
控制的,調節基因的產物可以和操縱子上的順式作用控制元件相互作用。
lacZ、Y、A 基因的轉錄是由lacI 基因指令合成的阻遏蛋白所控制。lacI 一般和
結構基因相毗連,但它本身具有自己的啟動子和終止子,成為獨立的轉錄單位。由於
lacI 的產物是可溶性蛋白,按照理說是無需位於結構基因的附近。它是能夠分散到各
處或結合到分散的DNA 位點上(這是典型的反式-作用調節物。)
通過突變的效應是可以將結構基因和調節基因相區別的,結構基因發生突變,細
胞中就失去這些基因合成的蛋白。但是調節基因發生突變會影響到它所控制的所有結
構基因的表達。調節蛋白的突變的結果可以顯示調節的類型。
lac 基因簇是受到負調節(negative regulation)。它們的轉錄可被調節蛋白所
關閉。若調節蛋白因突變而失活就會導致結構基因組成型表達。表明調節蛋白的功能
是阻止結構基因的表達,因此稱這些蛋白為「阻遏」蛋白。
乳糖操縱子的阻遏蛋白是由4 個亞基(38kDa)組成的四聚體。一個野生型細胞
中大約有10 個四聚體。調節基因轉錄成單順反子的mRNA,它和操縱子的比率與R
NA 聚合酶和啟動子之比是相似的。
lacI 的產物稱為lac 阻遏物(lac repressor),其功能是和lacZ、Y、A 基因簇5
¡ä端的操縱基因(Olac),操縱基因位於啟動子(Plac)和結構基因(lac2yA)之間。當阻
遏物結合在操縱基因上時就阻礙了啟動子上的轉錄起始。Olac 從mRNA 轉錄起始點
的上游-5 處延伸到轉錄單位+21 處。這樣它和啟動子的末端發生重疊。新近的觀點認
為阻遏物影響了RNA 聚合酶,從操縱基因和啟動子二者相關位置來看阻遏物結合在
DNA 上會阻礙RNA 聚合酶轉錄結構基因。但我們必須注意其它一些操縱子上的操縱
基因其位置和乳糖操縱子並不相同,因而阻遏蛋白可以通過多種方式與操縱操縱基因
結合阻斷轉錄。
二、阻遏蛋白的活性受到小分子誘導的控制
細菌對環境的改變必需作出迅速的反應。營養供給隨時都可能發生變化,反復反
常。要能得以倖存必需具有可以變換不同代謝底物的能力。單細胞真核生物也同樣生
活在不斷變化環境中;而更為復雜的多細胞生物都具有一套恆定的代謝途徑,而無需
對外部環境作出反應。
在細菌中是很需要靈活性,也需要很經濟,因為細菌遇到合適的環境就大量消耗
營養對其本身也是不利的。在缺乏底物時就不必要合成大量相關的酶類,因此細菌產
生了一種調節機制,即在缺乏底物時就阻斷酶的合成途徑,但同時又作好了准備,一
旦有底物存在就立即合成這些酶。
特殊底物的存在導致了酶的合成,此現象稱為誘導(inction)。這種類型的調
控廣泛存在於細菌中,在較低等的真核生物(如酶母)也有這種情況。E.coli 的乳糖
操縱子提供了這種調控機制的典型範例。
當E.coli 生長在缺乏¦Â一半乳糖苷的條件下是不需要¦Â-半乳糖苷酶的,因此細胞
中含量很低,大約每個細胞不高於5 個分子,當加入底物後細菌中十分迅速地合成了
這種酶,僅在2-3 分鍾之內酶就可以產生並很快增長到5000 個分子/每個細胞。如在
酶的濃度將達到細胞總蛋白的5-10%。如在培養基中除去底物,那麼酶的合成也就迅
速停止,恢復到原來的狀態。
如果原來培養基中無乳糖,也無葡萄糖,那麼細胞只在很低的基本水平合成¦Â-
半乳苷酶和透性酶。當加入Lac 後,Ecoli 的lac+ 細胞很快大量合成以上兩種酶。進
一步用32P 標記mRNA 作雜交實驗(用¦Ëlac 中的取得的DNA,與加入乳糖後不同時
間內產生的32P-mRNA 進行分子雜交)結果表明加入的乳糖能激發lac 的mRNA 的
合成。lac mRNA 極不穩定,其半衰期僅有3 分鍾,這個特點隨著誘導很快的恢復。
當誘導物一除去轉錄立即停止,在很短的時間內所有的lac mRNA 即被降解掉,細胞
內的含量恢復到基礎水平。
¦Â-半乳糖苷酶和透性酶合成是和lac mRNA 同時被誘導的,但當除去誘導物時在
細胞中¦Â-半乳糖苷酶和透性酶要比lac mRNA 穩定,因此酶的活性在一段較長的時
間內保持被誘導水平。這種對營養供給發生改變作出迅速反應的調控類型,不僅提供
了代謝新底物的能力,而且習慣於關閉在培養基中實然加入的一些成份的內部合成。
比如E.coli 的Trp 的合成是通過Trp 合成酶的作用。如果在細菌生長的培養基中加入
Trp 的話,那麼立即停止Trp 合成酶的生產。這種作用稱為阻遏(repression)效應。
它使細菌避免合成多餘的物質。
在細菌中同時存在著誘導和阻遏的現象。誘導是細菌調節其分解底物供給生長的
能力。阻遏是細菌調節其合成代謝產物的能力。無論是酶作用的小分子底物的調節,
還是酶活性的產生,它們的啟動是獨自的,小分子底物稱為誘導物(incers)某些
物質能阻止酶合成它們本身,此物質就稱輔阻遏物(corepressors)。
誘導和酶阻遏是高度特異的,只有底物/產物或緊密相關的分子才能起作用,但
小分子的活性並不依賴於和靶酶的相互作用。某些誘導物與自然的¦Â-半乳糖苷酶相
似,但並不能被酶分解,比如異丙基-¦Â-D-硫代半乳糖苷(isopropylthiogalactoside,I
PTG)。其半乳糖苷鍵中用硫代替了氧,失去了水解活性,但硫代半乳糖苷和同源的
氧代化合物與酶位點的親和力相同,IPTG 雖不為¦Â-半乳糖苷酶所識別,但它是lac
基因簇十分有效的誘導物。
能誘導酶的合成,但又不被分解的分子,稱為安慰誘導物(gratuitous incer)。
由於乳糖雖可誘導酶的合成,但又隨之分解,產生很多復雜的動力學問題,因此人們
常用安慰誘導物來進行各種實驗。它的存在表明一個重要的問題,就是這個控制系統
必須具有某種成份,它不同於靶酶,能識別合適的底物;而它的這種識別相關底物的
能力也不同於酶。
對誘導物作出反應的這種成份就是阻遏蛋白,它由lacI 編碼,其作用是控制lacI
YA 結構基同的轉錄,對環境作出反應。三個結構基因轉錄成單個的多順反子mRNA。
阻遏蛋白的活性狀態決定了此啟動子是否打開或關閉。在缺乏誘導物時,這些基因不
能轉錄,因為阻遏蛋白是活性狀態結合在操縱基因上。當誘導物存在時,阻遏物與之
結合,變成為失活狀態,離開操縱基因,啟動子開始轉錄,起始於lacZ 5¢端,
終止於lacA 的3¢端。
誘導物如何控制阻遏蛋白的活性呢?阻遏物對於操縱基因有很高的親和性,在缺
乏誘導物時,阻遏物總是結合在操縱基因上,使得鄰近的結構基因不能轉錄。但當誘
導物存在時,它和阻遏物結合形成了一個阻遏物復合體,不再和操縱基因結合。
右圖為Lac 操縱子(Lac operon)的結構以及負調控圖:
(a)Lac 操縱子的結構圖
(b)無誘導物存在時,阻遏物與操作基因(operator)結合使得結構基因不能
正常轉錄
(c)誘導物(乳糖或IPTG)存在,與阻遏物結合時阻遏物從操縱基因上頭里下
來,RNA 聚合酶可通過啟動子和操作基因正常轉錄出一條多順反子mRNA 從可翻譯
得到三種梅
操縱子控制的重要特性是阻遏物的雙重性:它既能阻止轉錄,又能識別小分子誘
導物。阻遏物有2 個結合位點:一個是結合誘導物的,另一個是結合操縱基因的。當
誘導物在相應位點結合時,它改變了阻遏蛋白的構象,干擾了另一位點的活性。這種
類型的調控叫變構調控。(allosteric control)
誘導完成一種協同調控(coordinate regulation):所有的一組基因都一道表達
或一道關閉。mRNA 一般總是從5¢開始轉錄,所以誘導總是導致¦Â-半乳糖苷酶,
Lac 透性酶和Lac 乙醯轉移酶按一定順序出現。此多順反子mRNA 的共同轉錄解釋
了為什麼在誘導物的不同條件下,lacZ、Y、A 三個基因的產物總保持同樣的當量關
系。
誘導觸動了「開關」使基因簇表達。誘導物交替變換它們的效應,其它的因子影響
了轉錄和翻譯的絕對水平,但三個基因之間的關系事先已被它們的結構所決定了。
我們要注意操縱子的潛在特點。Lac 操縱子含有lacZ,它編碼糖代謝所必須的¦Â
-半乳糖苷酶;含有的lac 編碼透性酶,此酶是負責將底物轉達運到細胞中。但操縱子
在非誘導狀態時,基因尚未表達,也就不存在透性酶。那麼誘導物開始怎樣進入細胞
呢?
其實在細胞中透過酶等總是以最低量存在的,足以供給底物開始進入之需。操縱
子有一個本底水平(basal level)的表達,即使沒有誘導物的存在,它也保持此表達
水平(誘導水平的0.1%),而有的誘導物是通過其它的吸收系統進入細胞的。
三、操縱基因和調節基因的鑒別
野生型的操縱子以被調節的方式進行表達,調節系統若發生突變可能使表達停止
或者在沒有誘導物存在時仍然表達。前者稱為不可誘導性(unincible)突變;後者
對調節沒有反應能力,無論誘導物是否存在都進行表達,故稱為組成型突變(consti
tutive mutants)。
操縱子調節系統的成份通過突變已被鑒別出來,它們作用於結構基因的表達以及
編碼區的外側序列。這些成份分為二類:以啟動子和操縱子,作為調節蛋白(RAN
聚合酶,阻遏物)靶順序的通過順式作用突變而被鑒定出來。lac 位點通過反式作用
突變被鑒定是為編碼阻遏蛋白的基因。
操縱基因是原來通過組成型突變鑒別出的,稱為「Oc」,其分布特點提供了第一個
順式元件的證據,它是有功能的,但本身不編碼。與OC 突變相鄰接的結構基因以組
成型表達,這是由於突變改變了操縱基因,使阻遏蛋白不能與之結合。這樣阻遏蛋白
就不能阻止RNA 聚合酶起始轉錄。從而使操縱子持續轉錄。
操縱基因只控制與它相鄰接的一些lac 基因。若將第二個Lac 操縱子導入細菌的
質粒上,它有自己特有的操縱基因。操縱基因互不幹擾。因此如果一個操縱子有一個
野生型的操縱基因,在通常條件下,它將被阻遏。當第二個操縱子帶有OC 突變時,
它將持續表達。
這些特點表明操縱基因是一個典型的順式作用位點。操縱基因只控制與其相鄰接
的基因而不影響存在於細胞中的其它DNA 上的等位座位。像OC 這樣的突變稱為順
式-顯性(cis-dominant)。順式作用位點中發生突變就不能和相關蛋白相結合,當兩
個順式作用位點彼此靠得很近時(如啟動子和操縱基因),我們通過互補測驗是不能
分別突變發生在那一個位點上,而只有通過它們對表型的影響來加以區別。順式顯性
是控制鄰接順序的那些DNA 位點的特性。如果一個控制位點其功能是作為多順反子
mRNA 的一部分。它將表現出順式顯性的特點。特別表現在控制位點不能和被它調節
的基因相分離。從遺傳學的觀點來看這些位點和基因是在DNA 上還是在RNA 這並不
重要。
lacI-突變型也可導致持續轉錄。無論是點突變還是缺失都可產生這樣的結果。後
者可能是丟失了和DNA 結合的功能區。因此與誘導物是否存在無關。這種現象是符
合負控制系統的。lac+基因編碼一個阻遏蛋白,它可以關閉lacZYA 的轉錄。阻遏蛋
白失去和操縱基因結合能力時,則為組成型突變。轉錄能在啟動子上自由地起始。同
時lacI- 突變由於阻遏蛋白的失活使lacZYA 呈組成型表達。
當lacI- 和lacI+二者同時存在於同一個細胞時,通過確定二者的關系可以幫助人
們得出正確的結論。這只能通過構建部分二倍體(partial diploid)來完成的。即一個
拷貝的操縱子位於細胞的主染色體上,而另一個放在質粒上,此質粒僅帶少量基因,
可以獨立復制。
在細胞中若既有lacI+又有lacI-,則可以正常調節。當除去誘導物時,結構基因
又重新被阻遏。這表明lacI+可以產正常的阻遏物,當誘導物不存在時它可以反式阻
遏lacI ZYA+基因,按遺傳學的觀點野生型的可誘導性對於組成型突變型是顯性的。
這是負控制的重要標志。
操縱子非誘導性突變不能都得到表達,它們可以分成兩種組成型突變:(1) 啟動
子突變是順式作用,若這種突變阻礙了RNA 聚合酶與Plac 的結合,也就不能閱讀操
縱子,因為它不能轉錄。(2) lacI 突變若阻遏物失去和誘導物結合的能力也會導致和
前者相同的現象。這種突變稱為lacIs。
這種反式作用對野生型來說是顯性的。阻遏蛋白被保持在對操縱基因的識別和阻
礙轉錄的這種活性狀態中。誘導物是否加入對其沒有影響。這是由於細胞中突變的阻
遏物結合在所有的lac 操縱基因上並阻斷轉錄,同時還不能取下,野生型阻遏物的存
對它也毫無影響。
lacI 突變的特點可以從阻遏蛋白結構的得以解釋。在阻遏蛋白上具有兩種不同類
型的結合位點。通過這些結合位點來控制基因的表達以對環境作為反應。DNA-結合
識別操縱基因。誘導結合位點與小分子誘導物結合。一旦與誘導物作用使其構象發生
改變而失去與操縱基因DNA 結合的能力。通過lacI 突變失去某些活性可以鑒別出阻
遏物亞基中的兩個結合位點。DNA-結合位點的突變是組成型的(因為阻遏物不能和D
NA 結合來阻斷轉錄)。誘導物結合位點的突變是不可誘導性的(由於誘導物不能減
少阻遏物和DNA 的親和力)。
阻遏物功能的一個重要的特點是多聚體蛋白。在細胞中阻遏蛋白的亞基隨機結合
成四聚體。當不同的lacI 等位基因存在時,它們的產物作為亞基結合成異聚四聚體,
其特性和同聚四聚體不同。這種亞基之間的作用類型是具有多聚體蛋白的性質,被稱
為等位基因間的互補(interallelic complementation)。
負的互補(negative complementation)發生在某些阻遏蛋白突變體之間。正如
在lacI-d 與lacI+基因的重組中所見到的一樣。此lacI-d 的突變僅導致阻遏蛋白不能
和操縱基因結合。因此它像lacI-等位基因一樣,使操縱子呈組成型表達。由於lacI-
類型的突變產生的阻遏物沒有活性,它相對於野生型基因是隱性的,而「-d」這個符號
表示負互補這種突變類型是顯性的。這種突變稱反式顯性(trans-dominant),也稱
為顯性失活(dominant negatives)。
這種顯性的原因是由於lacI-d 等位基因產生一個「壞」的亞基不僅它本身不能結合
操縱基因的DNA,而且它還通作為四聚體的一部分阻止四聚體中「好」的亞基與DNA
結合。這就意味著阻遏蛋白四聚體是作為一個總體,而不是單個單體的簡單的集合。
這對完成阻遏來說是很必要的。在體外將「好」的亞基和「壞」的亞基混合起來也會產生
損壞的作用。
lacI-d 的突變是發生在阻遏蛋白的DNA 結合位點這就可以解釋混合的四聚體可
以阻止與操縱基因的結合。結合位點數目的減少使四聚體和操縱基因的親和力減少。
lacI 基因的左末端對於蛋白產物來說正好是在N-末端DNA-結合位點。lacI-隱性突變
發生在此位點以外的任何區域。但可以起到DNA 結合的間接作用。
lacIs 是不可誘導性突變,它是不能對誘導物作出反應。此可能由於阻遏蛋白失
去了誘導物結合位點,或者不能將它們的作用傳遞到DNA-結合位點。lacIS 突變位點
是很有規律的延著基因成束間隔排列。這些間隔可能存在著肽鏈的改變。
圖片上不去……PDF的
『肆』 數據挖掘的六大主要功能
數據挖掘的六大主要功能
數據挖掘的歷史雖然較短,但從20世紀90年代以來,它的發展速度很快,加之它是多學科綜合的產物,目前還沒有一個完整的定義,人們提出了多種數據挖掘的定義,例如:SAS研究所(1997):「在大量相關數據基礎之上進行數據探索和建立相關模型的先進方法」。Hand et al(2000):「數據挖掘就是在大型資料庫中尋找有意義、有價值信息的過程」確切地說,數據挖掘(Data Mining),又稱資料庫中的知識發現(Knowledge Discovery in Database,KDD),是指從大型資料庫或數據倉庫中提取隱含的、未知的、非平凡的及有潛在應用價值的信息或模式,它是資料庫研究中的一個很有應用價值的新領域,融合了資料庫、人工智慧、機器學習、統計學等多個領域的理論和技術。
數據挖掘的主要功能
數據挖掘綜合了各個學科技術,有很多的功能,當前的主要功能如下:
1、數據總結:繼承於數據分析中的統計分析。數據總結目的是對數據進行濃縮,給出它的緊湊描述。傳統統計方法如求和值、平均值、方差值等都是有效方法。另外還可以用直方圖、餅狀圖等圖形方式表示這些值。廣義上講,多維分析也可以歸入這一類。
2、分類:目的是構造一個分類函數或分類模型(也常常稱作分類器),該模型能把資料庫中的數據項映射到給定類別中的某一個。要構造分類器,需要有一個訓練樣本數據集作為輸入。訓練集由一組資料庫記錄或元組構成,每個元組是一個由有關欄位(又稱屬性或特徵)值組成的特徵向量,此外,訓練樣本還有一個類別標記。一個具體樣本的形式可表示為:(v1,v2,…,vn;c),其中vi表示欄位值,c表示類別。
例如:銀行部門根據以前的數據將客戶分成了不同的類別,現在就可以根據這些來區分新申請貸款的客戶,以採取相應的貸款方案。
3、聚類:是把整個資料庫分成不同的群組。它的目的是使群與群之間差別很明顯,而同一個群之間的數據盡量相似。這種方法通常用於客戶細分。在開始細分之前不知道要把用戶分成幾類,因此通過聚類分析可以找出客戶特性相似的群體,如客戶消費特性相似或年齡特性相似等。在此基礎上可以制定一些針對不同客戶群體的營銷方案。
例如:將申請人分為高度風險申請者,中度風險申請者,低度風險申請者。
4、關聯分析:是尋找資料庫中值的相關性。兩種常用的技術是關聯規則和序列模式。關聯規則是尋找在同一個事件中出現的不同項的相關性;序列模式與此類似,尋找的是事件之間時間上的相關性,例如:今天銀行利率的調整,明天股市的變化。
5、預測:把握分析對象發展的規律,對未來的趨勢做出預見。例如:對未來經濟發展的判斷。
6、偏差的檢測:對分析對象的少數的、極端的特例的描述,揭示內在的原因。例如:在銀行的100萬筆交易中有500例的欺詐行為,銀行為了穩健經營,就要發現這500例的內在因素,減小以後經營的風險。
以上數據挖掘的各項功能不是獨立存在的,它們在數據挖掘中互相聯系,發揮作用。
『伍』 數據分析和數據挖掘的區別是什麼如何做好數據挖掘
1,數據分析可以分為廣義的數據分析和狹義的數據分析,廣義的數據分析就包括狹義的數據分析和數據挖掘,我們常說的數據分析就是指狹義的數據分析。
2,數據分析(狹義):
定義:簡單來說,數據分析就是對數據進行分析。專業的說法,數據分析是指根據分析目的,用適當的統計分析方法及工具,對收集來的數據進行處理與分析,提取有價值的信息,發揮數據的作用。
作用:它主要實現三大作用:現狀分析、原因分析、預測分析(定量)。數據分析的目標明確,先做假設,然後通過數據分析來驗證假設是否正確,從而得到相應的結論。
方法:主要採用對比分析、分組分析、交叉分析、回歸分析等常用分析方法;
結果:數據分析一般都是得到一個指標統計量結果,如總和、平均值等,這些指標數據都需要與業務結合進行解讀,才能發揮出數據的價值與作用;
互聯網是個神奇的大網,大數據開發和軟體定製也是一種模式,這里提供最詳細的報價,如果你真的想做,可以來這里,這個手技的開始數字是一八七中間的是三兒零最後的是一四二五零,按照順序組合起來就可以找到,我想說的是,除非你想做或者了解這方面的內容,如果只是湊熱鬧的話,就不要來了。
3,數據挖掘:
定義:數據挖掘是指從大量的數據中,通過統計學、人工智慧、機器學習等方法,挖掘出未知的、且有價值的信息和知識的過程。
作用:數據挖掘主要側重解決四類問題:分類、聚類、關聯和預測(定量、定性),數據挖掘的重點在尋找未知的模式與規律;如我們常說的數據挖掘案例:啤酒與尿布、安全套與巧克力等,這就是事先未知的,但又是非常有價值的信息;
方法:主要採用決策樹、神經網路、關聯規則、聚類分析等統計學、人工智慧、機器學習等方法進行挖掘;
結果:輸出模型或規則,並且可相應得到模型得分或標簽,模型得分如流失概率值、總和得分、相似度、預測值等,標簽如高中低價值用戶、流失與非流失、信用優良中差等;
4,綜合起來,數據分析(狹義)與數據挖掘的本質都是一樣的,都是從數據裡面發現關於業務的知識(有價值的信息),從而幫助業務運營、改進產品以及幫助企業做更好的決策。所以數據分析(狹義)與數據挖掘構成廣義的數據分析。
『陸』 乳糖操縱子
乳糖操縱子
一、結構和功能
細菌相關功能的結構基因常連在一起,形成一個基因簇。它們編碼同一個代謝途徑中的不同的酶。一個基因簇受到同一的調控,一開俱開,一閉俱閉。也就是說它們形成了一個被調控的單位,其它的相關功能的基因也包括在這個調控單位中,例如編碼透過酶的基因,雖它的產物不直接參與催化代謝,但它可以使小分子底物轉運到細胞中。
乳糖分解代謝相關的三個基因,lacZ、Y、A就是很典型的是上述基因簇。它們的產物可催化乳糖的分解,產生葡萄糖和半乳糖。它們具有順式作用調節元件和反式作用調節基因。三個結構基因圖的功能是:
lacZ編碼β-半乳糖苷酶,此酶由500kd的四聚體構成,它可以切斷乳糖的半乳糖苷鍵,而產生半乳糖和葡萄糖
lacY編碼β一半乳糖苷透性酶,這種酶是一種分子量為30kDd膜結合蛋白,它構成轉運系統,將半乳糖苷運入到細胞中。
lacA編碼β-半乳糖苷乙醯轉移酶,其功能只將乙醯-輔酶A上的乙醯基轉移到β-半乳糖苷上。
無論是lacZ發生突變還是lacY發生突變卻可以產生lac-型表型,這種lac—表型的細胞不能利用乳糖。 lacZ-突變體中半乳糖苷酶失去活性,直接阻止了乳糖的代謝。lacY-突變體不能從膜上吸取乳糖。
這一個完整的調節系統包括結構基因和控制這些基因表達的元件,形成了一個共同的調節單位,這種調節單位就稱為操縱子(opron)。操縱子的活性是由調節基因控制的,調節基因的產物可以和操縱子上的順式作用控制元件相互作用。
lacZ、Y、A基因的轉錄是由lacI基因指令合成的阻遏蛋白所控制。lacI一般和結構基因相毗連,但它本身具有自己的啟動子和終止子,成為獨立的轉錄單位。由於lacI的產物是可溶性蛋白,按照理說是無需位於結構基因的附近。它是能夠分散到各處或結合到分散的DNA位點上(這是典型的反式-作用調節物。)
通過突變的效應是可以將結構基因和調節基因相區別的,結構基因發生突變,細胞中就失去這些基因合成的蛋白。但是調節基因發生突變會影響到它所控制的所有結構基因的表達。調節蛋白的突變的結果可以顯示調節的類型。
lac基因簇是受到負調節(negative regulation)。它們的轉錄可被調節蛋白所關閉。若調節蛋白因突變而失活就會導致結構基因組成型表達。表明調節蛋白的功能是阻止結構基因的表達,因此稱這些蛋白為「阻遏」蛋白。
乳糖操縱子的阻遏蛋白是由4個亞基(38kDa)組成的四聚體。一個野生型細胞中大約有10個四聚體。調節基因轉錄成單順反子的mRNA,它和操縱子的比率與RNA聚合酶和啟動子之比是相似的。
lacI的產物稱為lac阻遏物(lac repressor),其功能是和lacZ、Y、A基因簇5′端的操縱基因(Olac),操縱基因位於啟動子(Plac)和結構基因(lac2yA)之間。當阻遏物結合在操縱基因上時就阻礙了啟動子上的轉錄起始。Olac從mRNA轉錄起始點的上游-5處延伸到轉錄單位+21處。這樣它和啟動子的末端發生重疊。新近的觀點認為阻遏物影響了RNA聚合酶,從操縱基因和啟動子二者相關位置來看阻遏物結合在DNA上會阻礙RNA聚合酶轉錄結構基因。但我們必須注意其它一些操縱子上的操縱基因其位置和乳糖操縱子並不相同,因而阻遏蛋白可以通過多種方式與操縱操縱基因結合阻斷轉錄。
二、阻遏蛋白的活性受到小分子誘導的控制
細菌對環境的改變必需作出迅速的反應。營養供給隨時都可能發生變化,反復反常。要能得以倖存必需具有可以變換不同代謝底物的能力。單細胞真核生物也同樣生活在不斷變化環境中;而更為復雜的多細胞生物都具有一套恆定的代謝途徑,而無需對外部環境作出反應。
在細菌中是很需要靈活性,也需要很經濟,因為細菌遇到合適的環境就大量消耗營養對其本身也是不利的。在缺乏底物時就不必要合成大量相關的酶類,因此細菌產生了一種調節機制,即在缺乏底物時就阻斷酶的合成途徑,但同時又作好了准備,一旦有底物存在就立即合成這些酶。
特殊底物的存在導致了酶的合成,此現象稱為誘導(inction)。這種類型的調控廣泛存在於細菌中,在較低等的真核生物(如酶母)也有這種情況。E.coli的乳糖操縱子提供了這種調控機制的典型範例。
當E.coli生長在缺乏β一半乳糖苷的條件下是不需要β-半乳糖苷酶的,因此細胞中含量很低,大約每個細胞不高於5個分子,當加入底物後細菌中十分迅速地合成了這種酶,僅在2-3分鍾之內酶就可以產生並很快增長到5000個分子/每個細胞。如在酶的濃度將達到細胞總蛋白的5-10%。如在培養基中除去底物,那麼酶的合成也就迅速停止,恢復到原來的狀態。
如果原來培養基中無乳糖,也無葡萄糖,那麼細胞只在很低的基本水平合成β-半乳苷酶和透性酶。當加入Lac後,Ecoli的lac+ 細胞很快大量合成以上兩種酶。進一步用32P標記mRNA作雜交實驗(用λlac中的取得的DNA,與加入乳糖後不同時間內產生的32P-mRNA進行分子雜交)結果表明加入的乳糖能激發lac的mRNA的合成。lac mRNA極不穩定,其半衰期僅有3分鍾,這個特點隨著誘導很快的恢復。當誘導物一除去轉錄立即停止,在很短的時間內所有的lac mRNA即被降解掉,細胞內的含量恢復到基礎水平。
β-半乳糖苷酶和透性酶合成是和lac mRNA同時被誘導的,但當除去誘導物時在細胞中β-半乳糖苷酶和透性酶要比lac mRNA穩定,因此酶的活性在一段較長的時間內保持被誘導水平。這種對營養供給發生改變作出迅速反應的調控類型,不僅提供了代謝新底物的能力,而且習慣於關閉在培養基中實然加入的一些成份的內部合成。比如E.coli的Trp的合成是通過Trp合成酶的作用。如果在細菌生長的培養基中加入Trp的話,那麼立即停止Trp合成酶的生產。這種作用稱為阻遏(repression)效應。它使細菌避免合成多餘的物質。
在細菌中同時存在著誘導和阻遏的現象。誘導是細菌調節其分解底物供給生長的能力。阻遏是細菌調節其合成代謝產物的能力。無論是酶作用的小分子底物的調節,還是酶活性的產生,它們的啟動是獨自的,小分子底物稱為誘導物(incers)某些物質能阻止酶合成它們本身,此物質就稱輔阻遏物(corepressors)。
誘導和酶阻遏是高度特異的,只有底物/產物或緊密相關的分子才能起作用,但小分子的活性並不依賴於和靶酶的相互作用。某些誘導物與自然的β-半乳糖苷酶相似,但並不能被酶分解,比如異丙基-β-D-硫代半乳糖苷(isopropylthiogalactoside,IPTG)。其半乳糖苷鍵中用硫代替了氧,失去了水解活性,但硫代半乳糖苷和同源的氧代化合物與酶位點的親和力相同,IPTG雖不為β-半乳糖苷酶所識別,但它是lac基因簇十分有效的誘導物。
能誘導酶的合成,但又不被分解的分子,稱為安慰誘導物(gratuitous incer)。由於乳糖雖可誘導酶的合成,但又隨之分解,產生很多復雜的動力學問題,因此人們常用安慰誘導物來進行各種實驗。它的存在表明一個重要的問題,就是這個控制系統必須具有某種成份,它不同於靶酶,能識別合適的底物;而它的這種識別相關底物的能力也不同於酶。
對誘導物作出反應的這種成份就是阻遏蛋白,它由lacI編碼,其作用是控制lacIYA結構基同的轉錄,對環境作出反應。三個結構基因轉錄成單個的多順反子mRNA。阻遏蛋白的活性狀態決定了此啟動子是否打開或關閉。在缺乏誘導物時,這些基因不能轉錄,因為阻遏蛋白是活性狀態結合在操縱基因上。當誘導物存在時,阻遏物與之結合,變成為失活狀態,離開操縱基因,啟動子開始轉錄,起始於lacZ 5¢端,終止於lacA的3¢端。
誘導物如何控制阻遏蛋白的活性呢?阻遏物對於操縱基因有很高的親和性,在缺乏誘導物時,阻遏物總是結合在操縱基因上,使得鄰近的結構基因不能轉錄。但當誘導物存在時,它和阻遏物結合形成了一個阻遏物復合體,不再和操縱基因結合。
操縱子控制的重要特性是阻遏物的雙重性:它既能阻止轉錄,又能識別小分子誘導物。阻遏物有2個結合位點:一個是結合誘導物的,另一個是結合操縱基因的。當誘導物在相應位點結合時,它改變了阻遏蛋白的構象,干擾了另一位點的活性。這種類型的調控叫變構調控。(allosteric control)
誘導完成一種協同調控(coordinate regulation):所有的一組基因都一道表達或一道關閉。mRNA一般總是從5¢開始轉錄,所以誘導總是導致β-半乳糖苷酶,Lac透性酶和Lac乙醯轉移酶按一定順序出現。此多順反子mRNA的共同轉錄解釋了為什麼在誘導物的不同條件下,lacZ、Y、A三個基因的產物總保持同樣的當量關系。
誘導觸動了「開關」使基因簇表達。誘導物交替變換它們的效應,其它的因子影響了轉錄和翻譯的絕對水平,但三個基因之間的關系事先已被它們的結構所決定了。
我們要注意操縱子的潛在特點。Lac操縱子含有lacZ,它編碼糖代謝所必須的β-半乳糖苷酶;含有的lac編碼透性酶,此酶是負責將底物轉達運到細胞中。但操縱子在非誘導狀態時,基因尚未表達,也就不存在透性酶。那麼誘導物開始怎樣進入細胞呢?
其實在細胞中透過酶等總是以最低量存在的,足以供給底物開始進入之需。操縱子有一個本底水平(basal level)的表達,即使沒有誘導物的存在,它也保持此表達水平(誘導水平的0.1%),而有的誘導物是通過其它的吸收系統進入細胞的。
三、操縱基因和調節基因的鑒別
野生型的操縱子以被調節的方式進行表達,調節系統若發生突變可能使表達停止或者在沒有誘導物存在時仍然表達。前者稱為不可誘導性(unincible)突變;後者對調節沒有反應能力,無論誘導物是否存在都進行表達,故稱為組成型突變(constitutive mutants)。
操縱子調節系統的成份通過突變已被鑒別出來,它們作用於結構基因的表達以及編碼區的外側序列。這些成份分為二類:以啟動子和操縱子,作為調節蛋白(RAN聚合酶,阻遏物)靶順序的通過順式作用突變而被鑒定出來。lac位點通過反式作用突變被鑒定是為編碼阻遏蛋白的基因。
操縱基因是原來通過組成型突變鑒別出的,稱為「Oc」,其分布特點提供了第一個順式元件的證據,它是有功能的,但本身不編碼。與OC突變相鄰接的結構基因以組成型表達,這是由於突變改變了操縱基因,使阻遏蛋白不能與之結合。這樣阻遏蛋白就不能阻止RNA聚合酶起始轉錄。從而使操縱子持續轉錄。
操縱基因只控制與它相鄰接的一些lac基因。若將第二個Lac操縱子導入細菌的質粒上,它有自己特有的操縱基因。操縱基因互不幹擾。因此如果一個操縱子有一個野生型的操縱基因,在通常條件下,它將被阻遏。當第二個操縱子帶有OC突變時,它將持續表達。
這些特點表明操縱基因是一個典型的順式作用位點。操縱基因只控制與其相鄰接的基因而不影響存在於細胞中的其它DNA上的等位座位。像OC這樣的突變稱為順式-顯性(cis-dominant)。順式作用位點中發生突變就不能和相關蛋白相結合,當兩個順式作用位點彼此靠得很近時(如啟動子和操縱基因),我們通過互補測驗是不能分別突變發生在那一個位點上,而只有通過它們對表型的影響來加以區別。順式顯性是控制鄰接順序的那些DNA位點的特性。如果一個控制位點其功能是作為多順反子mRNA的一部分。它將表現出順式顯性的特點。特別表現在控制位點不能和被它調節的基因相分離。從遺傳學的觀點來看這些位點和基因是在DNA上還是在RNA這並不重要。
lacI-突變型也可導致持續轉錄。無論是點突變還是缺失都可產生這樣的結果。後者可能是丟失了和DNA結合的功能區。因此與誘導物是否存在無關。這種現象是符合負控制系統的。lac+基因編碼一個阻遏蛋白,它可以關閉lacZYA的轉錄。阻遏蛋白失去和操縱基因結合能力時,則為組成型突變。轉錄能在啟動子上自由地起始。同時lacI- 突變由於阻遏蛋白的失活使lacZYA呈組成型表達。
當lacI- 和lacI+二者同時存在於同一個細胞時,通過確定二者的關系可以幫助人們得出正確的結論。這只能通過構建部分二倍體(partial diploid)來完成的。即一個拷貝的操縱子位於細胞的主染色體上,而另一個放在質粒上,此質粒僅帶少量基因,可以獨立復制。
在細胞中若既有lacI+又有lacI-,則可以正常調節。當除去誘導物時,結構基因又重新被阻遏。這表明lacI+可以產正常的阻遏物,當誘導物不存在時它可以反式阻遏lacI ZYA+基因,按遺傳學的觀點野生型的可誘導性對於組成型突變型是顯性的。這是負控制的重要標志。
操縱子非誘導性突變不能都得到表達,它們可以分成兩種組成型突變:(1) 啟動子突變是順式作用,若這種突變阻礙了RNA聚合酶與Plac的結合,也就不能閱讀操縱子,因為它不能轉錄。(2) lacI突變若阻遏物失去和誘導物結合的能力也會導致和前者相同的現象。這種突變稱為lacIs。
這種反式作用對野生型來說是顯性的。阻遏蛋白被保持在對操縱基因的識別和阻礙轉錄的這種活性狀態中。誘導物是否加入對其沒有影響。這是由於細胞中突變的阻遏物結合在所有的lac操縱基因上並阻斷轉錄,同時還不能取下,野生型阻遏物的存對它也毫無影響。
lacI突變的特點可以從阻遏蛋白結構的得以解釋。在阻遏蛋白上具有兩種不同類型的結合位點。通過這些結合位點來控制基因的表達以對環境作為反應。DNA-結合識別操縱基因。誘導結合位點與小分子誘導物結合。一旦與誘導物作用使其構象發生改變而失去與操縱基因DNA結合的能力。通過lacI突變失去某些活性可以鑒別出阻遏物亞基中的兩個結合位點。DNA-結合位點的突變是組成型的(因為阻遏物不能和DNA結合來阻斷轉錄)。誘導物結合位點的突變是不可誘導性的(由於誘導物不能減少阻遏物和DNA的親和力)。
阻遏物功能的一個重要的特點是多聚體蛋白。在細胞中阻遏蛋白的亞基隨機結合成四聚體。當不同的lacI等位基因存在時,它們的產物作為亞基結合成異聚四聚體,其特性和同聚四聚體不同。這種亞基之間的作用類型是具有多聚體蛋白的性質,被稱為等位基因間的互補(interallelic complementation)。
負的互補(negative complementation)發生在某些阻遏蛋白突變體之間。正如在lacI-d與lacI+基因的重組中所見到的一樣。此lacI-d的突變僅導致阻遏蛋白不能和操縱基因結合。因此它像lacI-等位基因一樣,使操縱子呈組成型表達。由於lacI-類型的突變產生的阻遏物沒有活性,它相對於野生型基因是隱性的,而「-d」這個符號表示負互補這種突變類型是顯性的。這種突變稱反式顯性(trans-dominant),也稱為顯性失活(dominant negatives)。
這種顯性的原因是由於lacI-d等位基因產生一個「壞」的亞基不僅它本身不能結合操縱基因的DNA,而且它還通作為四聚體的一部分阻止四聚體中「好」的亞基與DNA結合。這就意味著阻遏蛋白四聚體是作為一個總體,而不是單個單體的簡單的集合。這對完成阻遏來說是很必要的。在體外將「好」的亞基和「壞」的亞基混合起來也會產生損壞的作用。
lacI-d的突變是發生在阻遏蛋白的DNA結合位點這就可以解釋混合的四聚體可以阻止與操縱基因的結合。結合位點數目的減少使四聚體和操縱基因的親和力減少。lacI基因的左末端對於蛋白產物來說正好是在N-末端DNA-結合位點。lacI-隱性突變發生在此位點以外的任何區域。但可以起到DNA結合的間接作用。
lacIs是不可誘導性突變,它是不能對誘導物作出反應。此可能由於阻遏蛋白失去了誘導物結合位點,或者不能將它們的作用傳遞到DNA-結合位點。lacIS突變位點是很有規律的延著基因成束間隔排列。這些間隔可能存在著肽鏈的改變。
『柒』 什麼叫模糊集對分析法
按照模糊綜合分析法,我們對某企業效績進行評價。
1.設因素集U:U={u1,u2,……u9}
綜合我國現行評價體系和平衡記分法(SEC),我們選取了u1(凈資產收益狀況)、u2(資產營運狀況)、u3(長期償債能力)、u4(短期償債能力)。U5(銷售增長狀況),u6(市場佔有能力)、u7(技術能力)、u8(發展創新能力)、u9(學習能力)等9個指標為反映企業效績的主要指標。其中,u1、u2、u3、u4、u5是財務業績方面的指標,原來都用精確的比率指標反映,但對它們適當地模糊化更能客觀真實地反映企業效績。例如,在評價企業短期償債能力時,該企業流動比率為1.8,但專家們發現該企業存貨數額龐大,佔了流動資產的較大部分,說明其資產的流動性並不好,因而仍可評定該指標為較低等級。U6是客戶方面業績指標,u7內部經營過程方面業績指標,u8、u9是學習與增長方面業績指標。
2.設評價集V={v1,v2……v4}
簡便起見,我們設v1:優秀,v2:良好,v3:平均,v4:較差。
3.我們選取了該企業的注冊會計師、熟悉該企業情況的專家組成評判組,得到評價矩陣
4.根據專家意見,我們確定權重集A為:
5.按照M(,,+)模型
所以,根據最大隸屬度原則,該企業效績評定為「良好」。事後,該企業領導認為這個評價結果比較符合實際情況。
按照模糊綜合分析法,我們對某企業效績進行評價。
1.設因素集U:U={u1,u2,……u9}
綜合我國現行評價體系和平衡記分法(SEC),我們選取了u1(凈資產收益狀況)、u2(資產營運狀況)、u3(長期償債能力)、u4(短期償債能力)。U5(銷售增長狀況),u6(市場佔有能力)、u7(技術能力)、u8(發展創新能力)、u9(學習能力)等9個指標為反映企業效績的主要指標。其中,u1、u2、u3、u4、u5是財務業績方面的指標,原來都用精確的比率指標反映,但對它們適當地模糊化更能客觀真實地反映企業效績。例如,在評價企業短期償債能力時,該企業流動比率為1.8,但專家們發現該企業存貨數額龐大,佔了流動資產的較大部分,說明其資產的流動性並不好,因而仍可評定該指標為較低等級。U6是客戶方面業績指標,u7內部經營過程方面業績指標,u8、u9是學習與增長方面業績指標。
2.設評價集V={v1,v2……v4}
簡便起見,我們設v1:優秀,v2:良好,v3:平均,v4:較差。
3.我們選取了該企業的注冊會計師、熟悉該企業情況的專家組成評判組,得到評價矩陣
4.根據專家意見,我們確定權重集A為:
5.按照M(,,+)模型
所以,根據最大隸屬度原則,該企業效績評定為「良好」。事後,該企業領導認為這個評價結果比較符合實際情況。
參考資料:互聯網
回答者:屁屁有蔥 - 舉人 五級 11-8 11:52
運用模糊集對分析法,建立了大氣環境監測布點優化的數學模型,對成都大氣環境監測點的優化實例證明:該方法優化結果切實可靠,最終保留的信息量大,而且計算方法靈活,簡便易行.
回答者:jinlintx - 試用期 一級 11-8 11:56
粗糙集理論及其應用
摘 要 在很多實際系統中均不同程度地存在著不確定性因素, 採集到的數據常常包含著雜訊,不精確甚至不完整. 粗糙集理論是繼概率論,模糊集,證據理論之後的又一個處理不確定性的數學工具. 作為一種較新的軟計算方法, 粗糙集近年來越來越受到重視, 其有效性已在許多科學與工程領域的成功應用中得到證實, 是當前國際上人工智慧理論及其應用領域中的研究熱點之一.
本文介紹了粗糙集理論的基本概念,特點及有關應用.
關鍵詞 粗糙集, 不確定性, 數據分析, 軟計算
1 引言
在自然科學,社會科學和工程技術的很多領域中, 都不同程度地涉及到對不確定因素和對不完備( imperfect) 信息的處理. 從實際系統中採集到的數據常常包含著雜訊, 不夠精確甚至不完整. 採用純數學上的假設來消除或迴避這種不確定性, 效果往往不理想, 反之, 如果正視它,對這些信息進行合適地處理, 常常有助於相關實際系統問題的解決. 多年來, 研究人員一直在努力尋找科學地處理不完整性和不確定性的有效途徑. 模糊集和基於概率方法的證據理論是處理不確定信息的兩種方法, 已應用於一些實際領域. 但這些方法有時需要一些數據的附加信息或先驗知識, 如模糊隸屬函數,基本概率指派函數和有關統計概率分布等, 而這些信息有時並不容易得到. 1982 年, 波蘭學者Z. Paw lak 提
出了粗糙集理論, 它是一種刻劃不完整性和不確定性的數學工具, 能有效地分析不精確,不一致( incon sisten t),不完整( incomp lete) 等各種不完備的信息, 還可以對數據進行分析和推理, 從中發現隱含的知識, 揭示潛在的規律. 粗糙集理論是建立在分類機制的基礎上的, 它將分類理解為在特定空間上的等價關系, 而等價關系構成了對該空間的劃分.粗糙集理論將知識理解為對數據的劃分, 每一被劃分的集合稱為概念.粗糙集理論的主要思想是利用已知的知識庫, 將不精確或不確定的知識用已知的知識庫中的知識來(近似) 刻畫.該理論與其他處理不確定和不精確問題理論的最顯著的區別是它無需提供問題所需處理的數據集合之外的任何先驗信息, 所以對問題的不確定性的描述或處理可以說是比較客觀的, 由於這個理論未能包含處理不精確或不確定原始數據的機制, 所以這個理論與概率論, 模糊數學和證據理論等其他處理不確定或不精確問題的理論有很強的互補性.本文簡要介紹了粗糙集理論的基本概念和實際應用.
2 粗糙集的理論
2. 1 粗糙集理論的產生和發展
在本世紀70 年代, 波蘭學者Z. Paw lak 和一些波蘭科學院,波蘭華沙大學的邏輯學家們,一起從事關於信息系統邏輯特性的研究. 粗糙集理論就是在這些研究的基礎上產生的. 1982年, Z. Paw lak 發表了經典論文Rough Set s , 宣告了粗糙集理論的誕生. 此後, 粗糙集理論引起了許多數學家,邏輯學家和計算機研究人員的興趣, 他們在粗糙集的理論和應用方面作了大量的研究工作.1991 年Z. Paw lak 的專著和1992 年應用專集的出版, 對這一段時期理論和實踐工作的成果作了較好的總結, 同時促進了粗糙集在各個領域的應用. 此後召開的與粗糙集有關的國際會議進一步推動了粗糙集的發展. 越來越多的科技人員開始了解並准備從事該領域的研究. 目前, 粗糙集已成為人工智慧領域中一個較新的學術熱點, 在機器學習,知識獲取,決策分析,過程式控制制等許多領域得到了廣泛的應用.
2. 2 粗糙集理論所處理的問題
粗糙集能有效地處理下列問題:
·不確定或不精確知識的表達;
·經驗學習並從經驗中獲取知識;
·不一致信息的分析;
·根據不確定,不完整的知識進行推理;
·在保留信息的前提下進行數據化簡;
·近似模式分類;
·識別並評估數據之間的依賴關系
2. 3 粗糙集理論的一些基本概念
2. 3. 1 知識的含義
"知識"這個概念在不同的范疇內有多種不同的含義. 在粗糙集理論中,"知識"被認為是一種分類能力. 人們的行為是基於分辨現實的或抽象的對象的能力, 如在遠古時代, 人們為了生存必須能分辨出什麼可以食用, 什麼不可以食用; 醫生給病人診斷, 必須辨別出患者得的是哪一種病. 這些根據事物的特徵差別將其分門別類的能力均可以看作是某種"知識".
2. 3. 2 不可分辨關系與基本集
分類過程中, 相差不大的個體被歸於同一類, 它們的關系就是不可分辨關系( indiscernability relation). 假定只用兩種黑白顏色把空間中的物體分割兩類, {黑色物體},{白色物體},那麼同為黑色的兩個物體就是不可分辨的, 因為描述它們特徵屬性的信息相同, 都是黑色. 如果再引入方,圓的屬性, 又可以將物體進一步分割為四類: {黑色方物體},{黑色圓物體},{白色方物體},{白色圓物體}. 這時, 如果兩個同為黑色方物體, 則它們還是不可分辨的. 不可分辨關系也稱為一個等效關系(equivalence relationship ) , 兩個白色圓物體間的不可分辨關系可以理解為它們在白,圓兩種屬性下存在等效關系.
基本集(elementary set) 定義為由論域中相互間不可分辨的對象組成的集合, 是組成論域知識的顆粒. 不可分辨關系這一概念在粗糙集理論中十分重要, 它深刻地揭示出知識的顆粒狀結構 , 是定義其它概念的基礎. 知識可認為是一族 等效關系, 它將論域分割成一系列的等效類.
2. 3. 3 集合的下逼近,上逼近及邊界區
粗糙集理論延拓了經典的集合論, 把用於分類的知識嵌入集合內, 作為集合組成的一部分. 一個對象a 是否屬於集合X 需根據現有的知識來判斷, 可分為三種情況: (1) 對象a 肯定屬於集合X ; (2) 對象a 肯定不屬於集X ; (3) 對象a 可能屬於也可能不屬於集合X . 集合的劃分密切依賴於我們所掌握的關於論域的知識, 是相對的而不是絕對的.給定一個有限的非空集合U 稱為論域, I 為U 中的一族等效關系, 即關於U 的知識, 則二元對 K = (U , I ) 稱為一個近似空間(approximation space). 設x 為U 中的一個對象, X為U 的一個子集, I (x ) 表示所有與x 不可分辨的對象所組成的集合, 換句話說, 是由x 決定的
等效類, 即I (x ) 中的每個對象都與x 有相同的特徵屬性(attribute).
集合X 關於I 的下逼近(Lower approximation) 定義為:
I* (X ) = {x ∈U : I (x ) I *(X ) 實際上由那些根據現有知識判斷肯定屬於X 的對象所組成的最大的集合, 有時也稱
為X 的正區(po sit ive region) , 記作PO S (X ). 類似地, 由根據現有知識判斷肯定不屬於X 的
對象組成的集合稱為X 的負區(negat ive region) , 記作N EG (X ).
集合X 關於I 的上逼近(U pper app rox im at ion) 定義為
I3 (X ) = {x ∈U : I (x ) ∩ X ≠ 5 } (2)
I3 (X ) 是由所有與X 相交非空的等效類I (x ) 的並集, 是那些可能屬於X 的對象組成的最小
集合. 顯然, I3 (X ) + N EG (X ) = 論域U.
集合X 的邊界區(Boundary region) 定義為
BND (X ) = I
3 (X ) - I 3 (X ) (3)
BND (X ) 為集合X 的上逼近與下逼近之差. 如果BND (X ) 是空集, 則稱X 關於I 是清晰的
(crisp ) ; 反之如果BND (X ) 不是空集, 則稱集合X 為關於I 的粗糙集( rough set).
下逼近,上逼近及邊界區等概念稱為可分辨區(discern ib ility region s) , 刻劃了一個邊界含
糊(vague) 集合的逼近特性. 粗糙程度可按按下式的計算
A1
=
I 3 (X )
I
3 (X ) , (4)
式中 # 表示集合# 的基數或勢(cardinality) , 對有限集合表示集合中所包含的元素的個數.
顯然0≤A
1 (X ) ≤1, 如果A
1 (X ) = 1, 則稱集合X 相對於I 是清晰(crisp ) 的, 如果A
1 (X ) 0} (7)
BND (X ) = {x ∈U : 0 < LIX
(x ) < 1} (8)
從上面的定義中, 可以看出粗糙集理論中"含糊"(vague) 和"不確定"(uncertain ty) 這兩個
概念之間的關系:"含糊"用來描述集合, 指集合的邊界不清楚; 而"不確定"描述的是集合中的
元素, 指某個元素是否屬於某集合是不確定的.
2. 4 實例
下面用一個具體的實例說明粗糙集的概念. 在粗糙集中使用信息表( info rm at ion tab le) 描
述論域中的數據集合. 根據學科領域的不同, 它們可能代表醫療,金融,軍事,過程式控制制等方面
的數據. 信息表的形式和大家所熟悉的關系資料庫中的關系數據模型很相似, 是一張二維表
1 期韓禎祥等: 粗糙集理論及其應用39
1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
格, 如表一所示. 表格的數據描述了一些人的教育程度以及是否找到了較好工作, 旨在說明兩
者之間的關系. 其中王治,馬麗, 趙凱等稱為對象(ob ject s) , 一行描述一個對象. 表中的列描
述對象的屬性. 粗糙集理論中有兩種屬性: 條件屬性(condit ion at t ribu te) 和決策屬性(decision
at t ribu te). 本例中"教育程度"為條件屬性;"是否找到了好工作"為決策屬性.
表1 教育程度與是否找到好工作的關系
姓名教育程度是否找到了好工作
王治高中否
馬麗高中是
李得小學否
劉保大學是
趙凱博士是
設O 表示找到了好工作的人的集合, 則
O = {馬麗, 劉保, 趙凱}, 設I 表示屬性"教育
程度"所構成的一個等效關系, 根據教育程度
的不同, 該論域被分割為四個等效類: {王治,
馬麗},{李得},{劉保},{趙凱}. 王治和馬麗在
同一個等效類中, 他們都為高中文化程度, 是
不可分辨的. 則:
集合O 的下逼近(即正區) 為 I 3 (O ) = PO S (O ) = {劉保,趙凱}
集合O 的負區為 N EG (O ) = {李得}
集合O 的邊界區為 BND (O ) = {王治, 馬麗}
集合O 的上逼近為 I 3 (O ) = PO S (O ) + BND (O ) = {劉保,趙凱,王治,馬
麗}
根據表1, 可以歸納出下面幾條規則, 揭示了教育程度與是否能找到好工作之間的關系.
RUL E 1: IF (教育程度= 大學) OR (教育程度= 博士) THEN (可以找到好工作)
RUL E 2: IF (教育程度= 小學) THEN (找不到好工作)
RUL E 3: IF (教育程度= 高中) THEN (可能找到好工作)
從這個簡單的例子中, 我們還可以體會到粗糙集理論在數據分析,尋找規律方面的作用.
3 粗糙集理論的特點
3. 1 粗糙集是一種軟計算方法
軟計算(sof t compu t ing) 的概念是由模糊集創始人Zadeh[ 9 ]提出的. 軟計算中的主要工具
包括粗糙集,模糊邏輯(FL ),神經網路(NN ),_________概率推理(PR ),信度網路(Belief N etwo rk s),遺
傳演算法(GA ) 與其它進化優化演算法,混沌(Chao s) 理論等.
傳統的計算方法即所謂的硬計算(hard compu t ing) , 使用精確,固定和不變的演算法來表達
和解決問題. 而軟計算的指導原則是利用所允許的不精確性,不確定性和部分真實性以得到易
於處理,魯棒性強和成本較低的解決方案, 以便更好地與現實系統相協調.
3. 2 粗糙集理論的特點
粗糙集方法的簡單實用性是令人驚奇的, 它能在創立後的不長時間內得到迅速應用是因
為具有以下特點[ 6~ 8 ]:
(1) 它能處理各種數據, 包括不完整( incomp lete) 的數據以及擁有眾多變數的數據;
(3) 它能處理數據的不精確性和模稜兩可(am b igu ity) , 包括確定性和非確定性的情況;
(4) 它能求得知識的最小表達( rect) 和知識的各種不同顆粒(granu larity) 層次;
(5) 它能從數據中揭示出概念簡單, 易於操作的模式(pat tern) ;
(6) 它能產生精確而又易於檢查和證實的規則, 特別適於智能控制中規則的自動生成.
40 信 息 與 控 制27 卷
1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
4 粗糙集理論的應用
粗糙集理論是一門實用性很強的學科, 從誕生到現在雖然只有十幾年的時間, 但已經在不
少領域取得了豐碩的成果, 如近似推理,數字邏輯分析和化簡,建立預測模型,決策支持,控制
演算法獲取,機器學習演算法和模式識別等等. 下面介紹一下粗糙集應用的幾個主要領域.
4. 1 人工神經網路訓練樣本集化簡
人工神經網路具有並行處理,高度容錯和泛化能力強的特點, 適合應用在預測,復雜對象
建模和控制等場合. 但是當神經網路規模較大,樣本較多時, 訓練時間過於漫長, 這個固有缺點
是制約神經網路進一步實用化的一個主要因素. 雖然各種提高訓練速度的演算法不斷出現, 問題
遠未徹底解決. 化簡訓練樣本集, 消除冗餘數據是另一條提高訓練速度的途徑.
文[ 10 ]正是沿著這條思路, 應用粗糙集化簡神經網路訓練樣本數據集, 在保留重要信息的
前提下消除了多餘(superf luou s) 的數據. 模擬實驗表明訓練速度提高了4. 77 倍, 獲得了較好
的效果.
4. 2 控制演算法獲取
實際系統中有很多復雜對象難於建立嚴格的數學模型, 這樣傳統的基於數學模型的控制
方法就難以奏效. 模糊控制模擬人的模糊推理和決策過程, 將操作人員的控制經驗總結為一系
列語言控制規則, 具有魯棒性和簡單性的特點, 在工業控制等領域發展較快. 但是有些復雜對
象的控制規則難以人工提取, 這樣就在一定程度上限制了模糊控制的應用.
粗糙集能夠自動抽取控制規則的特點為解決這一難題提供了新的手段. 一種新的控制策
略—模糊- 粗糙控制(fuzzy2rough con t ro l) 正悄然興起, 成為一個有吸引力的發展方向. 應用
這種控制方法, 文[11 ]研究了"小車—倒立擺系統"這一經典控制問題, 文[12 ]研究了過程式控制制
(水泥窯爐) , 均取得了較好的控制效果. 應用粗糙集進行控制的基本思路是: 把控制過程的一
些有代表性的狀態以及操作人員在這些狀態下所採取的控制策略都記錄下來, 然後利用粗糙
集理論處理這些數據, 分析操作人員在何種條件下採取何種控制策略, 總結出一系列控制規
則:
規則1 IF Condit ion 1 滿足 THEN 採取decision 1
規則2 IF Condit ion 2 滿足 THEN 採取decision 2
規則3 IF Condit ion 3 滿足 THEN 採取decision 3
這種根據觀測數據獲得控制策略的方法通常被稱為從範例中學習( learn ing f rom exam2
p les). 粗糙控制( rough con t ro l) 與模糊控制都是基於知識,基於規則的控制, 但粗糙控制更加
簡單迅速,實現容易(因為粗糙控制有時可省卻模糊化及去模糊化步驟) ; 另一個優點在於控制
演算法可以完全來自數據本身, 所以從軟體工程的角度看, 其決策和推理過程與模糊(或神經網
絡) 控制相比可以很容易被檢驗和證實(validate). 文[ 11 ]還指出在特別要求控制器結構與算
法簡單的場合, 更適合採取粗糙控制.
美國電力科學研究院(EPR I) 對粗糙集的應用研究的潛力對十分重視, 將其作為戰略性
研究開發(St rategy R&D) 項目, 在1996 年撥款 196, 600 資助San Jo se 州立大學進行電力系
統模糊- 粗糙控制器的研究.
1 期韓禎祥等: 粗糙集理論及其應用41
1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
4. 3 決策支持系統
面對大量的信息以及各種不確定因素, 要作出科學,合理的決策是非常困難的. 決策支持
系統是一組協助制定決策的工具, 其重要特徵就是能夠執行IF THEN 規則進行判斷分
析. 粗糙集理論可以在分析以往大量經驗數據的基礎上找到這些規則, 基於粗糙集的決策支持
系統在這方面彌補了常規決策方法的不足, 允許決策對象中存在一些不太明確,不太完整的屬
性, 並經過推理得出基本上肯定的結論.
下面舉一個例子, 說明粗糙集理論可以根據以往的病例歸納出診斷規則, 幫助醫生作出判
斷. 表二描述了八個病人的症狀. 從表二中可以歸納出以下幾條確定的規則:
表2 症狀與感冒的關系
病人編號
病理症狀診斷結果
是否頭痛體溫是否感冒
病人1 是正常否
病人2 是高是
病人3 是很高是
病人4 否正常否
病人5 否高否
病人6 否很高是
病人7 否高是
病人8 否很高否
1. IF (體溫正常) THEN (沒感冒)
2. IF (頭痛) AND (體溫高) THEN
(感冒)
3. IF (頭痛) AND (體溫很高) THEN
(感冒)
還有幾條可能的規則:
4. IF (頭不痛) THEN (可能沒感冒)
5. IF (體溫高) THEN (可能感冒了)
6. IF (體溫很高) THEN (可能感冒了)
病人5 和病人7, 病人6 和病人8, 症狀
相同, 但是一個感冒另一個卻沒感冒, 這種情
況稱為不一致( incon sisten t). 粗糙集就是靠這種IF THEN 規則的形式表示數據中蘊含的
知識.
希臘工業發展銀行ETEVA 用粗糙集理論協助制訂信貸政策, 從大量實例中抽取出的規
則條理清晰, 得到了金融專家的好評[ 13 ].
4. 4 從資料庫中知識發現
現代社會中, 隨著信息產業的迅速發展, 大量來自金融,醫療,科研等不同領域的信息被存
儲在資料庫中. 這些浩如煙海的數據間隱含著許多有價值的但鮮為人知的相關性, 例如股票的
價格和一些經濟指數有什麼關系; 手術前病人的病理指標可能與手術是否成功存在某種聯系;
滿足何種條件的夜空會出現彗星等天文現象等等.
由於資料庫的龐大, 人工處理這些數據幾乎是不可能的, 於是出現了一個新的研究方向—
資料庫中的知識發現(Know ledge D iscovery in Databases, KDD) , 也叫做資料庫(信息) 發掘
(M in ing) , 它是目前國際上人工智慧領域中研究較為活躍的分支. 粗糙集是其中的一種重要
的研究方法, 它採用的信息表與關系資料庫中的關系數據模型很相似, 這樣就便於將基於粗糙
集的演算法嵌入資料庫管理系統中.
粗糙集引入核(co re),化簡( rect) 等有力的概念與方法, 從數據中導出用IF THEN
規則形式描述的知識, 這些精練的知識更便於存儲和使用. 美國醫學工作者應用粗糙集理論對
大量的病歷進行分析, 發現黑人婦女患乳腺癌後的死亡率比白人婦女高. 到目前為止, 早產的
預測在醫學上還是比較困難的. 現有的人工預測方法准確率只有17à - 58à , 而應用粗糙集
理論則可將准確率提高到68à - 90à [ 8 ].
42 信 息 與 控 制27 卷
1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
5 粗糙集與模糊集,證據理論及其它一些情況
5. 1 粗糙集與模糊集,證據理論
粗糙集與模糊集都能處理不完備( imperfect) 數據, 但方法不同, 模糊集注重描述信息的含
糊(vagueness) 程度, 粗糙集則強調數據的不可辯別( indiscern ib ility) , 不精確( imp recision) 和
模稜兩可(am b igu ity). 使用圖像處理中的語言來作比喻, 當論述圖像的清晰程度時, 粗糙集強
調組成圖像象素的大小, 而模糊集則強調象素存在不同的灰度. 粗糙集研究的是不同類中的對
象組成的集合之間的關系, 重在分類; 模糊集研究的是屬於同一類的不同對象的隸屬的關系,
重在隸屬的程度. 因此粗糙集和模糊集是兩種不同的理論, 但又不是相互對立的, 它們在處理
不完善數據方面可以互為補充.
粗糙集理論與證據理論雖有一些相互交疊的地方, 但本質不同, 粗糙集使用集合的上,下
逼近而證據理論使用信任函數(belief funct ion) 作為主要工具. 粗糙集對給定數據的計算是客
觀的, 無須知道關於數據的任何先驗知識(如概率分布等) , 而證據理論則需要假定的似然值
(p lau sib ility).
5. 2 近年來召開的與粗糙集有關的國際會議
相繼召開的以粗糙集理論為主題的國際會議, 促進了粗糙集理論的推廣. 這些會議發表了
大量的具有一定學術和應用價值的論文, 方便了學術交流, 推動了粗糙集在各個科學領域的拓
展和應用. 下面列出了近年召開的一些會議:
· 1992 年第一屆國際研討會(Rough Set s: State of the A rt and Perspect ives) 在波蘭
K iek rz 召開;
·1993 年第二屆國際研討會(The Second In ternat ionalWo rk shop on Rough Set s and
Know ledge D iscovery, RSKD'93) 在加拿大Banff 召開;
·1994 年第三屆國際研討會(The Th ird In ternat ionalWo rk shop on Rough Set s and Sof t
Compu t ing, RSSC'94) 在美國San Jo se 召開;
·1995 年在美國No rth Caro lina 召開了題為"Rough Set Theo ry, RST'95"的國際會議;
·1996 年第四屆國際研討會(The Fou rth In ternat ionalWo rk shop on Rough Set s, Fuzzy
Set s, andM ach ine D iscovery, RSFD'96) 在日本東京召開;
·1997 年3 月在美國No rth Caro lina 召開了第五屆國際研討會(The F if th In ternat ional
Wo rk shop on Rough Set s and Sof t Compu t ing, RSSC'97)
5. 3 國際上一些有關粗糙集的軟體
目前, 國際上研究粗糙集的機構和個人開發了一些應用粗糙集的實用化軟體, 也出現了商
業化的軟體. 加拿大Rect System Inc. 公司開發的用於資料庫知識發現的軟體DataLogic
R [ 14 ]是用C 語言開發的, 可安裝在個人計算機上, 為科研領域和工業界服務.
美國肯薩斯大學開發了一套基於粗糙集的經驗學習系統[ 15 ] , 名為L ERS (L earn ing f rom
Examp les based on Rough Set s) , 它能從大量經驗數據中抽取出規則. L ERS 已被美國國家航
空航天管理局(NA SA ) 的約翰遜(John son) 空間中心採用, 作為專家系統開發工具, 為"自由
號"(F reedom ) 空間站上的醫療決策服務. 美國環境保護署(U S Environm en tal P ro tect ion A 2
gency) 資助的一個項目中也採用了L ERS.
波蘭波茲南工業大學(Poznan U n iversity of Techno logy) 開發的軟體RoughDA S 和
1 期韓禎祥等: 粗糙集理論及其應用43
1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
RoughClass, 也在不少實際領域中得到應用[ 5 ].
加拿大Regina 大學開發的KDD- R 是用C 編寫的, 在UN IX 環境下運行, KDD2R 基於
變精度粗糙集模型[ 16 ] (V ariab le P recision Rough Set, V PRS) , 通過改變粗糙程度而使數據中
隱含的模式更清楚的顯示出來.
6 結束語
粗糙集是一種較有前途的處理不確定性的方法, 相信今後將會在更多的領域中得到應用.
但是, 粗糙集理論還處在繼續發展之中, 正如粗糙集理論的創立人Z. Paw lak 所指出的那
樣[ 8 ] , 尚有一些理論上的問題需要解決, 諸如用於不精確推理的粗糙邏輯(Rough logic) 方法,
粗糙集理論與非標准分析(Non standard analysis) 和非參數化統計(Nonparam et ric stat ist ics)
等之間的關系等等.
將粗糙集與其它軟計算方法(如模糊集,人工神經網路,遺傳演算法等) 相綜合, 發揮出各自
的優點, 可望設計出具有較高的機器智商(M IQ ) 的混合智能系統(Hyb rid In telligen t
System ) , 這是一個值得努力的方向.
『捌』 1.什麼是誤用入侵檢測
入侵檢測(Intrusion Detection),顧名思義,就是對入侵行為的發覺。他通過對計算機網路或計算機系統中若干關鍵點收集信息並對其進行分析,從中發現網路或系統中是否有違反安全策略的行為和被攻擊的跡象。
入侵檢測系統(intrusion detection system,簡稱「IDS」)是一種對網路傳輸進行即時監視,在發現可疑傳輸時發出警報或者採取主動反應措施的網路安全設備。它與其他網路安全設備的不同之處便在於,IDS是一種積極主動的安全防護技術。 IDS最早出現在1980年4月。 1980年代中期,IDS逐漸發展成為入侵檢測專家系統(IDES)。 1990年,IDS分化為基於網路的IDS和基於主機的IDS。後又出現分布式IDS。目前,IDS發展迅速,已有人宣稱IDS可以完全取代防火牆。
入侵檢測系統檢測方法
異常檢測方法
在異常入侵檢測系統中常常採用以下幾種檢測方法:
基於貝葉斯推理檢測法:是通過在任何給定的時刻,測量變數值,推理判斷系統是否發生入侵事件。基於特徵選擇檢測法:指從一組度量中挑選出能檢測入侵的度量,用它來對入侵行為進行預測或分類。基於貝葉斯網路檢測法:用圖形方式表示隨機變數之間的關系。通過指定的與鄰接節點相關一個小的概率集來計算隨機變數的聯接概率分布。按給定全部節點組合,所有根節點的先驗概率和非根節點概率構成這個集。貝葉斯網路是一個有向圖,弧表示父、子結點之間的依賴關系。當隨機變數的值變為已知時,就允許將它吸收為證據,為其他的剩餘隨機變數條件值判斷提供計算框架。
基於模式預測的檢測法:事件序列不是隨機發生的而是遵循某種可辨別的模式是基於模式預測的異常檢測法的假設條件,其特點是事件序列及相互聯系被考慮到了,只關心少數相關安全事件是該檢測法的最大優點。
基於統計的異常檢測法:是根據用戶對象的活動為每個用戶都建立一個特徵輪廓表,通過對當前特徵與以前已經建立的特徵進行比較,來判斷當前行為的異常性。用戶特徵輪廓表要根據審計記錄情況不斷更新,其保護去多衡量指標,這些指標值要根據經驗值或一段時間內的統計而得到。
基於機器學習檢測法:是根據離散數據臨時序列學習獲得網路、系統和個體的行為特徵,並提出了一個實例學習法IBL,IBL是基於相似度,該方法通過新的序列相似度計算將原始數據(如離散事件流和無序的記錄)轉化成可度量的空間。然後,應用IBL學習技術和一種新的基於序列的分類方法,發現異常類型事件,從而檢測入侵行為。其中,成員分類的概率由閾值的選取來決定。
數據挖掘檢測法:數據挖掘的目的是要從海量的數據中提取出有用的數據信息。網路中會有大量的審計記錄存在,審計記錄大多都是以文件形式存放的。如果靠手工方法來發現記錄中的異常現象是遠遠不夠的,所以將數據挖掘技術應用於入侵檢測中,可以從審計數據中提取有用的知識,然後用這些知識區檢測異常入侵和已知的入侵。採用的方法有KDD演算法,其優點是善於處理大量數據的能力與數據關聯分析的能力,但是實時性較差。
基於應用模式的異常檢測法:該方法是根據服務請求類型、服務請求長度、服務請求包大小分布計算網路服務的異常值。通過實時計算的異常值和所訓練的閾值比較,從而發現異常行為。
基於文本分類的異常檢測法:該方法是將系統產生的進程調用集合轉換為「文檔」。利用K鄰聚類文本分類演算法,計算文檔的相似性。
誤用檢測方法
誤用入侵檢測系統中常用的檢測方法有:
模式匹配法:是常常被用於入侵檢測技術中。它是通過把收集到的信息與網路入侵和系統誤用模式資料庫中的已知信息進行比較,從而對違背安全策略的行為進行發現。模式匹配法可以顯著地減少系統負擔,有較高的檢測率和准確率。
專家系統法:這個方法的思想是把安全專家的知識表示成規則知識庫,再用推理演算法檢測入侵。主要是針對有特徵的入侵行為。
基於狀態轉移分析的檢測法:該方法的基本思想是將攻擊看成一個連續的、分步驟的並且各個步驟之間有一定的關聯的過程。在網路中發生入侵時及時阻斷入侵行為,防止可能還會進一步發生的類似攻擊行為。在狀態轉移分析方法中,一個滲透過程可以看作是由攻擊者做出的一系列的行為而導致系統從某個初始狀態變為最終某個被危害的狀態。