热门问题
时间线
聊天
视角
詞嵌入
自然语言处理领域中以实值向量形式对词的含义进行编码的文本分析 来自维基百科,自由的百科全书
Remove ads
詞嵌入(英語:Word embedding)是自然語言處理(NLP)中語言模型與表徵學習技術的統稱。概念上而言,它是指把一個維數為所有詞的數量的高維空間嵌入到一個維數低得多的連續向量空間中,每個單詞或詞組被映射為實數域上的向量。
詞嵌入的方法包括人工神經網絡[1]、對詞語同現矩陣降維[2][3][4]、機率模型[5]以及單詞所在上下文的顯式表示等。[6]
發展歷程
詞嵌入技術起源於2000年。約書亞·本希奧等人在一系列論文中使用了神經機率語言模型(Neural probabilistic language models)使機器「習得詞語的分布式表示(learning a distributed representation for words)」,從而達到將詞語空間降維的目的。[9]羅維斯(Roweis)與索爾(Saul)在《科學》上發表了用局部線性嵌入(LLE)來學習高維數據結構的低維表示方法[10]。這個領域開始時穩步發展,在2010年後突飛猛進;一定程度上而言,這是因為這段時間裡向量的品質與模型的訓練速度有極大的突破。
詞嵌入領域的分支繁多,有許多學者致力於其研究。2013年,谷歌一個托馬斯·米科洛維(Tomas Mikolov)領導的團隊發明了一套工具word2vec來進行詞嵌入,訓練向量空間模型的速度比以往的方法都快。[11]許多新興的詞嵌入基於人工神經網絡,而不是過去的n元語法模型和非監督式學習。[12]
Remove ads
生物序列中的應用:BioVectors
阿斯加里(Asgari)和莫夫拉德(Mofrad)提出了生物信息學中生物序列(DNA、RNA和蛋白質等)基於n元語法的詞嵌入技術。[13]bio-vectors(BioVec)表示生物序列的統稱,protein-vectors(ProtVec)表示蛋白質(氨基酸序列),gene-vectors(GeneVec)表示基因序列。BioVec在蛋白質組學與基因組學的深度學習中有廣泛應用。他們提出的結果表明,BioVectors可描述生物化學與生物物理學意義下生物序列的基本模式。[13]
Thought vectors
將詞嵌入擴展到對句子或整個文本的嵌入後得到的結果稱為Thought vectors。部分研究者期望用Thought vectors來提升機器翻譯的質量。[14][15]
軟件實現
使用詞嵌入技術的訓練軟件包括托馬斯·米科洛維的Word2vec、斯坦福大學的GloVe[16]和Deeplearning4j。主成分分析(PCA)和t-分布鄰域嵌入算法(t-SNE)也可以用來對詞語空間降維,並實現詞嵌入的可視化與詞義感應。[17]
參見
參考文獻
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads