热门问题
时间线
聊天
视角
美國當代英語語料庫
来自维基百科,自由的百科全书
Remove ads
美國當代英語語料庫(英語:Corpus of Contemporary American English,簡稱COCA)是一個十億詞的當代美國英語語料庫[1] 。它由楊百翰大學(BYU)語料庫語言學退休教授馬克·戴維斯創建。[2][3]
內容
截至2021年11月,美國當代英語語料庫 (COCA)由10億個單詞組成。[1][2][4]語料庫的數據還在不斷更新:截至2009年已包含超過3.85億個單詞;[5]截至2010年已增長到4億個單詞;[6]到2019年3月[7]已增長到5.6億個單詞。[7]
截至2021年11月,美國當代英語語料庫由485,202篇文本組成。[4]根據語料庫網站,[4]當前語料庫(2021年11月)由包含1990-2019每年24-25百萬個單詞的文本組成。
對於語料庫中包含的每一年(1990-2019),語料庫都被平均分為六個語域/流派:電視/電影、口語、小說、雜誌、報紙和學術(見COCA網站的文本和語域頁面)。除了這六個語料庫外,COCA(截至 2021年11月)還包含來自博客的 125,496,215 個單詞和來自網站的129,899,426個單詞,使其成為真正由當代英語組成的語料庫(參見 COCA 的文本和註冊頁面)。[4]
文本來自各種來源:
- 口語:(8500 萬字)來自近 150 個不同電視和廣播節目的無腳本對話記錄。
- 小說:(8100 萬字)短篇小說和戲劇、1990 年至今書籍的第一章和電影劇本。
- 熱門雜誌:(8600 萬字)近 100 種不同的雜誌,涵蓋新聞、健康、家居和園藝、女性、金融、宗教和體育等多個領域。
- 報紙:(8100 萬字)來自美國各地的十份報紙,文本來自報紙的不同版塊,例如地方新聞、輿論、體育和金融版塊。
- 學術期刊:(8100 萬字)近 100 種不同的同行評審期刊。這些被選中以涵蓋國會圖書館分類系統的整個範圍。
Remove ads
可用性
已註冊用戶可在美國當代英語語料庫免費搜索。
查詢
- 其網站界面與 BYU-BNC 界面相同,包含 1 億詞的英國國家語料庫、1 億詞的時代雜誌語料庫和 4 億詞的美國歷史英語 (COHA) 語料庫,從1810 年代至 2000 年代(請參閱下面的連結)
- 按單詞、短語、替代詞、子字符串、詞性、引理、同義詞(見下文)和自定義列表(見下文)查詢
- 語料庫由CLAWS標記,與用於 BNC 和 Time 語料庫的詞性標記器相同
- 圖表列表(每個類型或年份中所有匹配形式的總數,1990 年至今,以及子類型)和表格列表(每個類型或年份中每個匹配形式的頻率)
- 完整並置搜索(節點詞左右最多十個詞)
- 可重新排序的索引,在搜索詞的左側和右側顯示最常見的詞/字符串
- 流派或時間段之間的比較(例如小說或學術中「chair」的搭配,報紙或學術中帶有「break the [N]」的名詞,主要出現在體育雜誌中的形容詞,或 2005-2010 年比 2010 年更常見的動詞之前)
- 一步比較相關詞的搭配,以研究詞之間的語義或文化差異(例如比較「small」、「little」、「tiny」、「minuscule」或「lilliputian」或「Democrats」和「Republicans」,或「men」和「women」,或「rob」與「steal」)
- 用戶可以將來自 60,000 個詞條詞庫的語義信息直接作為查詢語法的一部分(例如:「beautiful」同義詞的頻率和分布,出現在小說而非學術中的「strong」的同義詞,「clean」+名詞的同義詞(「clean the floor」,「washed the dishes」))
- 用戶還可以創建自己的自定義單詞列表,然後將它們重新用作後續查詢的一部分(例如與特定語義類別(衣服、食物、情感)或用戶定義的詞性相關的列表)
- 請注意,由於版權限制,語料庫只能通過 Web 界面使用。
相關資料
全球網絡英語語料庫 (頁面存檔備份,存於網際網路檔案館)(GloWbE;發音為「globe」)包含來自20個不同國家的約19億個文本單詞。這使得它大約是國際英語語料庫等其他語料庫的100倍,而且它允許在那些其它地方不能使用的多種類型進行搜索。除了在線查詢,你還可以從語料庫下載全部數據。
它的獨特之處在於它允許人們對不同的英語變體進行比較。 GloWbE 與許多其他英語語料庫相關。 [8]
同時參照
- 美國國家語料庫
- 英國國家語料庫
- 英語銀行
- 布朗語料庫
參考
延伸閱讀
外部連結
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads