LDA主題模型涉及到貝葉斯理論、Dirichlet分布、多項分布、圖模型、變分推斷、EM算法、Gibbs抽樣等知識,不是很好懂,LDA那篇30頁的文章我看了四、五遍才基本弄明白是咋回事。那篇文章其實有點老了,但是很經(jīng)典,從它衍生出來的文章現(xiàn)在已經(jīng)有n多n多了。主題模型其實也不只是LDA了,LDA之前也有主題模型,它是之前的一個突破,它之后也有很多對它進(jìn)行改進(jìn)的主題模型。需要注意的是,LDA也是有名的LinearDiscriminant Analysis(線性判別分析)的縮寫。
LDA是一種非監(jiān)督機(jī)器學(xué)習(xí)技術(shù),可以用來識別大規(guī)模文檔集(documentcollection)或語料庫(corpus)中潛藏的主題信息。它采用了詞袋(bag ofwords)的方法,這種方法將每一篇文檔視為一個詞頻向量,從而將文本信息轉(zhuǎn)化為了易于建模的數(shù)字信息。但是詞袋方法沒有考慮詞與詞之間的順序,這簡化了問題的復(fù)雜性,同時也為模型的改進(jìn)提供了契機(jī)http://www.p9k.com。仿真模型每一篇文檔代表了一些主題所構(gòu)成的一個概率分布,而每一個主題又代表了很多單詞所構(gòu)成的一個概率分布。由于Dirichlet分布隨機(jī)向量各分量間的弱相關(guān)性(之所以還有點“相關(guān)”,是因為各分量之和必須為1),使得我們假想的潛在主題之間也幾乎是不相關(guān)的,這與很多實際問題并不相符,從而造成了LDA的又一個遺留問題http://www.tuiguangwang.com。
這個圖模型表示法也稱作“盤子表示法”(platenotation)。圖中的陰影圓圈表示可觀測變量(observed variable),非陰影圓圈表示潛在變量(latentvariable),箭頭表示兩變量間的條件依賴性(conditionaldependency),方框表示重復(fù)抽樣,重復(fù)次數(shù)在方框的右下角。佛山網(wǎng)站優(yōu)化
該模型有兩個參數(shù)需要推斷(infer):一個是”文檔-主題“分布 ,色精另外是 個”主題-單詞“分布 。通過學(xué)習(xí)(learn)這兩個參數(shù),我們可以知道文檔作者感興趣的主題,以及每篇文檔所涵蓋的主題比例等。推斷方法主要有LDA模型作者提出的變分-EM算法,還有現(xiàn)在常用的Gibbs抽樣法。
LDA模型現(xiàn)在已經(jīng)成為了主題建模中的一個標(biāo)準(zhǔn)。如前所述,LDA模型自從誕生之后有了蓬勃的擴(kuò)展,特別是在社會網(wǎng)絡(luò)和社會媒體研究領(lǐng)域最為常見。
教學(xué)模型, 仿真模型, 電力模型, 化工模型,