用于數(shù)據(jù)挖掘的分類(lèi)算法有哪些,各有何優(yōu)劣

其他人氣：511 ℃時(shí)間：2020-10-01 07:34:10

優(yōu)質(zhì)解答

1. 樸素貝葉斯(Naive Bayes, NB)

超級(jí)簡(jiǎn)單,就像做一些數(shù)數(shù)的工作.如果條件獨(dú)立假設(shè)成立的話,NB將比鑒別模型（如Logistic回歸）收斂的更快,所以你只需要少量的訓(xùn)練數(shù)據(jù).即使條件獨(dú)立假設(shè)不成立,NB在實(shí)際中仍然表現(xiàn)出驚人的好.如果你想做類(lèi)似半監(jiān)督學(xué)習(xí),或者是既要模型簡(jiǎn)單又要性能好,NB值得嘗試.

2. Logistic回歸(Logistic Regression, LR)

LR有很多方法來(lái)對(duì)模型正則化.比起NB的條件獨(dú)立性假設(shè),LR不需要考慮樣本是否是相關(guān)的.與決策樹(shù)與支持向量機(jī)（SVM）不同,NB有很好的概率解釋,且很容易利用新的訓(xùn)練數(shù)據(jù)來(lái)更新模型（使用在線梯度下降法）.如果你想要一些概率信息（如,為了更容易的調(diào)整分類(lèi)閾值,得到分類(lèi)的不確定性,得到置信區(qū)間）,或者希望將來(lái)有更多數(shù)據(jù)時(shí)能方便的更新改進(jìn)模型,LR是值得使用的.

3.決策樹(shù)（Decision Tree, DT）

DT容易理解與解釋.DT是非參數(shù)的,所以你不需要擔(dān)心野點(diǎn)（或離群點(diǎn)）和數(shù)據(jù)是否線性可分的問(wèn)題（例如,DT可以輕松的處理這種情況：屬于A類(lèi)的樣本的特征x取值往往非常小或者非常大,而屬于B類(lèi)的樣本的特征x取值在中間范圍）.DT的主要缺點(diǎn)是容易過(guò)擬合,這也正是隨機(jī)森林（Random Forest, RF）（或者Boosted樹(shù)）等集成學(xué)習(xí)算法被提出來(lái)的原因.此外,RF在很多分類(lèi)問(wèn)題中經(jīng)常表現(xiàn)得最好（我個(gè)人相信一般比SVM稍好）,且速度快可擴(kuò)展,也不像SVM那樣需要調(diào)整大量的參數(shù),所以最近RF是一個(gè)非常流行的算法.

4.支持向量機(jī)（Support Vector Machine, SVM）

很高的分類(lèi)正確率,對(duì)過(guò)擬合有很好的理論保證,選取合適的核函數(shù),面對(duì)特征線性不可分的問(wèn)題也可以表現(xiàn)得很好.SVM在維數(shù)通常很高的文本分類(lèi)中非常的流行.由于較大的內(nèi)存需求和繁瑣的調(diào)參,我認(rèn)為RF已經(jīng)開(kāi)始威脅其地位了.

我來(lái)回答

類(lèi)似推薦

猜你喜歡

精品偷拍一区二区三区,亚洲精品永久 码,亚洲综合日韩精品欧美国产,亚洲国产日韩a在线亚洲

用于數(shù)據(jù)挖掘的分類(lèi)算法有哪些,各有何優(yōu)劣

精品偷拍一区二区三区,亚洲精品永久码,亚洲综合日韩精品欧美国产,亚洲国产日韩a在线亚洲