1. 樸素貝葉斯(Naive Bayes, NB)
超級(jí)簡(jiǎn)單,就像做一些數(shù)數(shù)的工作.如果條件獨(dú)立假設(shè)成立的話,NB將比鑒別模型(如Logistic回歸)收斂的更快,所以你只需要少量的訓(xùn)練數(shù)據(jù).即使條件獨(dú)立假設(shè)不成立,NB在實(shí)際中仍然表現(xiàn)出驚人的好.如果你想做類(lèi)似半監(jiān)督學(xué)習(xí),或者是既要模型簡(jiǎn)單又要性能好,NB值得嘗試.
2. Logistic回歸(Logistic Regression, LR)
LR有很多方法來(lái)對(duì)模型正則化.比起NB的條件獨(dú)立性假設(shè),LR不需要考慮樣本是否是相關(guān)的.與決策樹(shù)與支持向量機(jī)(SVM)不同,NB有很好的概率解釋,且很容易利用新的訓(xùn)練數(shù)據(jù)來(lái)更新模型(使用在線梯度下降法).如果你想要一些概率信息(如,為了更容易的調(diào)整分類(lèi)閾值,得到分類(lèi)的不確定性,得到置信區(qū)間),或者希望將來(lái)有更多數(shù)據(jù)時(shí)能方便的更新改進(jìn)模型,LR是值得使用的.
3.決策樹(shù)(Decision Tree, DT)
DT容易理解與解釋.DT是非參數(shù)的,所以你不需要擔(dān)心野點(diǎn)(或離群點(diǎn))和數(shù)據(jù)是否線性可分的問(wèn)題(例如,DT可以輕松的處理這種情況:屬于A類(lèi)的樣本的特征x取值往往非常小或者非常大,而屬于B類(lèi)的樣本的特征x取值在中間范圍).DT的主要缺點(diǎn)是容易過(guò)擬合,這也正是隨機(jī)森林(Random Forest, RF)(或者Boosted樹(shù))等集成學(xué)習(xí)算法被提出來(lái)的原因.此外,RF在很多分類(lèi)問(wèn)題中經(jīng)常表現(xiàn)得最好(我個(gè)人相信一般比SVM稍好),且速度快可擴(kuò)展,也不像SVM那樣需要調(diào)整大量的參數(shù),所以最近RF是一個(gè)非常流行的算法.
4.支持向量機(jī)(Support Vector Machine, SVM)
很高的分類(lèi)正確率,對(duì)過(guò)擬合有很好的理論保證,選取合適的核函數(shù),面對(duì)特征線性不可分的問(wèn)題也可以表現(xiàn)得很好.SVM在維數(shù)通常很高的文本分類(lèi)中非常的流行.由于較大的內(nèi)存需求和繁瑣的調(diào)參,我認(rèn)為RF已經(jīng)開(kāi)始威脅其地位了.