词嵌入 - Wikiwand

發展歷程

詞嵌入技術起源於2000年。約書亞·本希奧等人在一系列論文中使用了神經機率語言模型（Neural probabilistic language models）使機器「習得詞語的分布式表示（learning a distributed representation for words）」，從而達到將詞語空間降維的目的。^[9]羅維斯（Roweis）與索爾（Saul）在《科學》上發表了用局部線性嵌入（LLE）來學習高維數據結構的低維表示方法^[10]。這個領域開始時穩步發展，在2010年後突飛猛進；一定程度上而言，這是因為這段時間裡向量的品質與模型的訓練速度有極大的突破。

詞嵌入領域的分支繁多，有許多學者致力於其研究。2013年，谷歌一個托馬斯·米科洛維（Tomas Mikolov）領導的團隊發明了一套工具word2vec來進行詞嵌入，訓練向量空間模型的速度比以往的方法都快。^[11]許多新興的詞嵌入基於人工神經網絡，而不是過去的n元語法模型和非監督式學習。^[12]

Remove ads

生物序列中的應用：BioVectors

阿斯加里（Asgari）和莫夫拉德（Mofrad）提出了生物信息學中生物序列（DNA、RNA和蛋白質等）基於n元語法的詞嵌入技術。^[13]bio-vectors（BioVec）表示生物序列的統稱，protein-vectors（ProtVec）表示蛋白質（氨基酸序列），gene-vectors（GeneVec）表示基因序列。BioVec在蛋白質組學與基因組學的深度學習中有廣泛應用。他們提出的結果表明，BioVectors可描述生物化學與生物物理學意義下生物序列的基本模式。^[13]

軟件實現

使用詞嵌入技術的訓練軟件包括托馬斯·米科洛維的Word2vec、斯坦福大學的GloVe（英語：GloVe (machine learning)）^[16]和Deeplearning4j。主成分分析（PCA）和t-分布鄰域嵌入算法（英語：t-distributed stochastic neighbor embedding）（t-SNE）也可以用來對詞語空間降維，並實現詞嵌入的可視化與詞義感應（英語：Word-sense induction）。^[17]

詞嵌入

發展歷程

生物序列中的應用：BioVectors

Thought vectors

軟件實現

參見

參考文獻

Wikiwand - on