Loading AI tools
沟通的方式 来自维基百科,自由的百科全书
语言(英语:language,词源为拉丁语:lingua,意为“舌”)[1]是一类复合交流系统,主要包含其形成、习得、维护及应用,特别是相应的人类能力。某一门语言则是这类系统的具体例子。除了交流沟通外,语言也是一个人的身份认同中主要的构成部分,也是一个文化的主要成分之一。
语言学是对语言的科学研究。语言哲学方面相关的辩论,比如词汇能否能表述经历,至少可追溯至古希腊的高尔吉亚与柏拉图。以卢梭为代表的一些思想家认为语言源自情绪,而康德认为其源于理性和逻辑的思辨。诸如维特根斯坦等20世纪的哲学家论证说哲学实质上就是对语言的研究。著名的语言学家有弗迪南·德·索绪尔、诺姆·乔姆斯基等。
人类语言据估算约有5000到7000种,由于语言与方言的差别难以定义,难以有准确的统计。自然语言常以口述或手语方式表达,但任何语言都可以用声音(如口哨语言)、视觉(如手语)或是触觉剌激(如盲文)来表现。符号学中将这一现象描述为模态无关(modality-independent)。依照语言哲学对语言与意义的定义,广义上,“语言”可以指代学习并使用该复杂交流系统的认知能力,也可以描述构成这一系统的规则集合,还可以指由语言规则生成(produce)的词句的集合。所有的语言都依靠符号过程来将特定的记号和意义相连结。口语、手语及触觉语言都有音位学系统来将符号组合成词或是语素的系统,也有语法学系统来将词及语素组合成短语和话语。
人类语言具有创造性和移位性,完全靠社会习俗及学习而来。语言的复杂结构使得其可表达的范围比任何已知的动物交流系统都要广。依心理学的观点,语言是起源于人族有了形成心智理论的能力,以及有分享的意向,之后渐渐由其原始的沟通系统演变而来[2][3]。这个发展出现的时期也和人类脑容量扩展的时期大致相同,许多语言学家认为语言的结构有因为一些特定的沟通及社会机能而演变。人脑有许多部分会处理语言,但主要是在布若卡氏区及韦尼克区。人类的语言习得是在童年早期的社会互动中学习的,小孩大约三岁就可以流利的说话了。语言的使用已深深扎根于人类文化之中。因此语言除了用在沟通上,也有许多社会及文化上的用途,例如强化群体身份认同及社会阶层,也用来社交梳理及娱乐。
语言会随时间演进与分化。其演化历史可以通过与现代语言的比较来构拟:从现代语言中确定哪些特质是祖语存在的,由此在语言的后续发展阶段得以存续。有共同祖语的一组语言称为语系。印欧语系的语言在今天为使用人数之最,其主要成员有英语、俄语和印地语。汉藏语系包括汉语诸方言[注 1]、藏语、博多语等。亚非语系包括阿拉伯语、索马里语及希伯来语。班图语支中有斯瓦希里语、祖鲁语和其他数百种非洲语言。南岛语系包括印尼语、马来语、他加禄语及数百种遍布太平洋的语言。达罗毗荼语系主要分布于印度南部,其中有淡米尔语和泰卢固语。学术界认为现存口语中有50%至90%会在2100年前灭绝[4]。
当今“语言”一词是英语“language”或者法语“langage”的翻译,它可能源于原始印欧语的 *dn̥ǵʰwéh₂s(舌头、说话、语言)、拉丁语的“lingua”(舌头、语言)或古法语的“language”[5]。有时“语言”也指代码、密码或者是其他人工创造的交流系统,如编程语言或者是人工语言。在这个意义上,形式语言和先天的人类语言不同,它是一个用于编码和解码信息的记号系统。本条目主要关注语言学所研究的自然语言。
在汉语中,一人自说叫言,两人相应答叫语。《诗经·大雅》疏“于时言言,于时语语”云:“直言曰言,谓一人自言;答难曰语,谓二人相对。”[6]郑注大司乐曰:“发端曰言,答述曰语。”[7]
而作为语言学研究的对象,“语言”有两个初始含义:一种抽象概念,一种特定的语言系统,比如指法语。瑞士语言学家弗迪南·德·索绪尔定义了现代语言学的基本原则,他最先区分开了言语(parole)和语言(langue)两个概念。“语言”这一概念指的是某个特定的语言系统实例,而“言语”则指在特定语言里具体的言语运用。[8]
而就一个笼统概念而言,语言的定义可以用来强调语言现象的各个方面[9],形成相左、甚至互斥的各个语言学派别。[10]语言哲学中的关键问题,例如语言的起源和本质,其争论可追溯至古希腊。哲学家高尔吉亚与柏拉图曾就词语、概念与现实三者的关系作过辩论。高尔吉亚认为语言无法表达客观经验和主观体验,于是乎语言交流和真实也就不可能存在;而柏拉图则坚持意志和概念先于语言存在,故语言交流是存在的。[11]
启蒙时代关注人类起源,连带关于语言起源的问题也变得引人注目。卢梭、赫尔德等思想家认为语言来源于情绪的本能表达,故语言较之逻辑表达和理性思考,与音乐和诗歌等感性认知的关系更紧密一些。而康德、笛卡尔等理性主义哲学家则相反,认为语言源于理性和逻辑思辨。20世纪以来,思想家开始疑问语言是单纯反映了客观世界的构造,还是创造某些概念将人类自己的主观体验强加到了对世界的认识中去,语言在此到底扮演了什么角色。这个问题深究下去,就变成了哲学的实质是否语言的研究。故20世纪的哲学发展中,语言在概念的创造和循环上起了重要作用的观点又重新出现,路德维希·维特根斯坦等哲学家以及语言转向便是其代表。直到今天,关于语言的意义与关联、认知与意识的争论依然活跃。[12]
一种定义将语言主要解释为让人们从事语言行为(学习,表达并理解语言)的心智。这种定义侧重于语言对于人类的通用性,并强调人类语言能力的生物学基础是人脑的一种独特的演化。“人类与生俱来地具有获得语言的动力”这一观念的支持者提出,所有认知能力正常的孩子,只要成长环境里能接触到语言,就能在没有正式教学的情况下习得语言,这一事实正好支持了这个观念。语言甚至可以在不使用同一种语言的人们聚居或共同成长的环境中自发产生;例如克里奥尔语,以及自发产生的手语如尼加拉瓜手语。 这个可以追溯到哲学家康德和笛卡尔的观点认为语言是与生俱来的的,比如诺姆·乔姆斯基的普遍文法理论,或者美国哲学家杰瑞·福多的极端先天理论。这些定义经常被使用于语言在认知科学以及神经语言学领域的研究中。[13][14]
另一项定义将语言视作由组合语法规则制约、旨在传达语义的记号形式系统。这项定义强调了人类语言可被描述为封闭的结构系统,该系统还包括了特定记号与特定意义的关联规则[15]。这种语言的结构主义观点最初由费尔迪南·德·索绪尔提出[16],他的结构主义为诸多语言学方法奠定了基础[17]。
一些索绪尔语言学观点的支持者主张采用形式方法来研究语言结构,即通过辨别语言结构的基本元素,并正式表述这些元素结合成词、成句的规则。这一理论的主要支持者是生成文法的提出者诺姆·乔姆斯基。他将语言定义为可用转换语法生成的句法[18],认为这些规则是人类思维的固有特征和构成语言的基本原理[19]。通过对照,这样的转换语法也被广泛用于提供数理逻辑、形式文法理论语言学和计算语言学[20][21]中语言的定义。在这种语言学中,阿尔弗雷德·塔斯基、伯特兰·罗素和其他数理逻辑学家对这种语言学继续发展,认为语义存在于命题和现实之间的逻辑关系中。
另一种定义则将语言看作一种口头或符号上的人类交流系统。这种定义强调语言的社会功能,着眼于人类使用语言去表达自己或者是控制周围环境中的客体。语法功能论用语言的交流功能解释语言,理解语言的语法结构能够令语法有一个过程去适应并满足语言使用者的交流需求。[22][23]
这种语言观点还涉及到语用学、认知语言学和互动框架,还有社会语言学和语言人类学。作为一种功能主义理论,它倾向于把语言作为动态现象、永远在语言运用当中变化的结构来研究。语言类型学的研究,特别是对于语言结构特征的分类也受到这种观点的重视,因为语言类型往往会部分地影响到语法化进程的轨迹。[21]在语言哲学中,作为语言和意义的中心,语用观点被拿来与后来路德维希·维特根斯坦和约翰·奥斯丁、保罗·格莱斯、约翰·罗杰斯·希尔勒和威拉德·冯·奥曼·蒯因等其他一般的语言学家所做的工作相提并论。[24]
相比于其他形式的交流系统,例如人类以外的动物所使用的动物语言,人类语言是独特的。其他动物,比如蜂和猿所使用的交流系统都是封闭系统,其可表达的思想往往非常有限[25]。而人类语言则相反,没有上限且富有创造性,允许人类从有限元素中产生大量话语,并创造新的词语和句子。这是因为人类语言是一种对偶码,语言当中有限数量的元素本身并没有意义(如声音、文字和手势),但意义的组合(包括词语和句子)是无限量的,有限的元素和无限的意义相结合即可产生无限的人类语言[26]。
然而,有研究指出澳大利亚的栗冠弯嘴鹛能够将相同的声音元素以不同方式编排,来产生两种功能迥异的发音[27]。此外,斑鸫鹛也显露出利用两种相同类型的声音作类似行为的能力,这两种类型的声音只能靠声音元素重复的次数去辨别[28]。的确,一些物种确实能够通过社会学习来获得一些交流形式。比如,一只名叫坎兹的倭黑猩猩学会了用一套耶基斯语手语来表达自己的意愿;很多鸟类和鲸类也通过模仿同类学会歌唱。然而,虽然这些动物可以掌握大量的词语和符号[注 2],但它们能学会的记号数量最多只相当于平均4岁的人类儿童,也没有掌握任何类似人类语言里面语法一样的规则[30]。
人类语言异于动物的交流系统,还在于人类语言存在语法范畴,如名词和动词、现在和过去等,用来表达极其复杂的意义[30]。人类语言还拥有独特的递归层级属性,例如,一个名词短语里面能够包含另一个名词短语(如“[[猩猩]的嘴唇]”),有一个从句里面也能包含另外一个从句(如“[我看见[狗在跑]]”)[3]。人类语言也是唯一一种模态无关的自然交流系统,其适应性令它可以应用于各种媒介。如口语使用听觉情态,而手语使用视觉情态,盲文使用触觉情态[31]。
人类语言的独特性,也体现在能够使用抽象概念;拥有移位性,允许人类语言描述一些假想的、在过去或未来而非当下发生的事情。有些动物的交流系统也有移位性(例如,蜂可以传递自己探测范围以外的位置信息),但远远达不到人类的水平[26]。
对语言定义的假设有别,导致对语言起源的理论有异。有观点认为,语言十分复杂,很难想象它会无中生有并一下子进化到终极形态,因此语言一定是从人类祖先早期的前语言系统(pre-linguistic systems)演化而来。基于这一观点的理论被称为延续性发展理论(continuity-based theories)。相反观点认为,语言是人类独有的特质,不能将它与非人类的任何事物相比较,因而语言一定是在史前人类(pre-hominids)向早期人类(early man)转变的过程中突然出现的。类似地,基于乔姆斯基生成文法的理论,大多将语言视作编码在基因中的内在禀赋;而功能主义理论则将其视作与文化高度相关、通过社交习得的系统。[33]
语言学家、哲学家诺姆·乔姆斯基是非连续性(Discontinuity)人类语言起源理论的重要支持者。[33]他解释:“或许很久以前某些灵长类动物在到处闲逛,突然间,可能是受到某些奇异的宇宙辐射过后,产生了一些随机突变,它重组了灵长类的大脑,在里面植入了一个语言器官。”[34]虽然这番描述有些文学化,他仍坚持“和包括语言在内的其他跟演化有关的神话故事相比,这可能更接近于事实”。[34]
大多数学者则更倾向于连续性假说,但对于演变的过程他们各自有着不同的看法。有一些把语言能力看作很大程度上是天生的,其中包括史迪芬·平克在内,他们避免去研究灵长类中明确的语言雏型,而单纯认为那只是动物认知的先例[14],“语言本能”是通过通常的方式渐进演化而来[14]。另外有一些学者如迈克尔·托马塞洛,则认为语言是一种交流工具,它可以通过认知控制的社会交流方式中发展而来,这些方式更多地是基于手势而非发声的。[35]还有一些连续性假说的观点认为语言发源于音乐和歌唱,这种观点受到了卢梭、赫尔德、洪堡和达尔文[36][37][38][39][40][41],以及其最主要的支持者、考古学家史蒂芬·米森的支持[42]。语言学家斯蒂芬·安德森推测口语已经存在了6万至10万年[43]。他说:
“ | 语言进化起源的研究者们大体上认为语言皆源自一处,于是乎所有现代口语之间都存在某些亲缘关系,即使这些关系如今已不可考……因为重构的可行方法有限。[44] | ” |
由于语言的起源处于人类史前时代的早期,当时并没有任何形式的书面记载,因而其发展过程未能留下直接的历史遗迹,同时如今也没有发现可与之相比较的发展过程。尽管如此,现代新诞生的一些手语(如尼加拉瓜手语)可能可以让我们看到语言发展中必定出现的阶段与过程。[45]另一种研究方法是通过观察早期人类化石,以图找到适应语言使用的生理结构变化的踪迹。[46][47]这些踪迹显示,脑的大小关系到体型,而喉咙的出现提高了发声,以及使用工具和其他制造物品的能力。[48]而对一些已灭绝人类的DNA的检测中,能否找到与语言功能有关的基因(如FOXP2)或许也能为我们提供许多信息。[49]还有一种考古学方法,是去寻找象征行为(如重复的仪式活动)所留下的考古学遗迹,比如用作人体彩绘的颜料,同时从理论上论证由象征行为到语言的逻辑关系。[50][51][52]
语言的演化与其所需的解剖学上的先决条件,理论上其时间跨度从人属(230至240万年前)自黑猩猩属(500至600万年前)分化出来一直到行为现代性(behavioral modernity)的完全出现为止(约5至15万年前)。一般都认同南猿与类人猿的交流方式并无显著区别[53],但也有对于始祖地猿的研究提出了异议[54]。而对于人属约250万年前出现后的发展,学者间有着不同的意见。有一些认为能人(约230万年前)就已经有了原始的类语言系统,另一些则认为到直立人(180万年前)或海德堡人(60万年前)时才有原始符号交流,而到10万年前具有行为现代性的智人出现之时语言才开始发展。[55]
2000多年前,随着婆罗米文的发展,印度出现了第一份对于个别语言的语法描述,它被认为是世界上最早的语言学研究。如今,现代语言学已经发展成为了一门科学,基于前述的各种语言学理论观点审视语言及语言学的所有方面。[56]
语言学研究从不同的理论角度和研究思路可以分为许多不同的专业分支领域。例如,描写语言学考察个别语言的语法;理论语言学基于现存不同的人类语言数据建立如何概念化并定义语言本质的理论;社会语言学研究语言的社会运用,从社会的角度描述语法,探寻语言的社会功能;神经语言学测试并研究人类大脑神经对于语言的理解、产出和习得;计算语言学基于描写语言学和理论语言学,构建语言的计算机模型来处理自然语言,测试语言学假说;而历史语言学利用词汇和语法描述追溯个别语言的历史,并常利用比较语言学的研究方法重构语言谱系。[57]
一般认为,正式意义上的语言学最初始于公元前5世纪印度文法家波你尼对于梵语词法规则的1959条归纳。[58][59][60]而苏美尔人也早在公元前1900年左右就研究了苏美尔语和阿卡德语之间的区别。随后,所有拥有书写系统的文明都产生了自己的文法传统。[61]
17世纪,法国普遍唯理语法提出,任何语言的语法都反映了思想的普遍基础,故语法本身也具有普遍性。18世纪,英国语文学家、古印度专家威廉·琼斯首次使用了对照的方法来研究语言,开创了比较语言学[62],而威廉·冯·洪堡则将语言的科学研究从印欧语言拓宽到所有语言。20世纪早期的弗迪南·德·索绪尔是最重要的形式主义语言学家之一,他对比分析了语言及其各个要素,认为语言是一种内部要素相互关联的静态系统[16],又对比了语言学研究的几个基本研究角度,如历史语言学与共时语言学,语言与言语,奠定了现代语言学的基本研究原则。[63][64]
1960年代,诺姆·乔姆斯基提出生成文法理论。该理论认为语言最基本的形式是一套全人类共有的语法规则。这套规则叫做普遍文法,它是所有人类语言语法的基础。乔姆斯基认为语言学的基本任务就是描述普遍文法,而个别语言的语法研究对语言学的重要意义在于能够从中推导出是怎样的底层普遍规则产生了该语言能被观察到的语法特点。[65]
与生成学派的正规文法理论不同,功能主义认为既然语言是一个工具,根据它的功能就可以最彻底地分析其结构。形式文法寻求定义语言当中不同的系统要素,描写要素的相互关系、正规文法规律和文法操作,而功能主义理论则寻求定义语言功能,并将具现它的语言要素跟它联系起来。[21][注 3]
所有文化当中,口语都是语言的默认形式。口语的产生依赖于控制嘴唇,舌头和声乐装置的其他部件的复杂能力,声学解码言语语音的能力,以及获取和产生语言所需的神经装置。[68]对人类语言遗传基础的研究处于早期阶段:唯一一个与语言生成有关的唯一基因是FOXP2,如果受突变影响,可能会导致一种先天性语言障碍。[69]
大脑是所有语言活动的协调中心:它控制着语言认知和意义的产生以及言语的产生机制。尽管现代采用了成像技术,脑科学研究已经取得了相当大的进步,但我们对语言神经学基础的了解非常有限。神经语言学致力于研究与语言相关的神经系统。[70]
神经语言学最初的工作是脑部病变患者的语言研究,以了解特定区域的病变如何影响语言和言语。通过这些研究,19世纪的神经科学家发现大脑中的两个区域与语言处理密切相关。一个是韦尼克区,位于势半大脑半球(通常为利手的反侧[71])的颞上回的后部。在这个大脑区域有病变的人会出现感觉性失语症,其语言理解会受到严重损害,但言语保留了自然的节奏和相对正常的句子结构。第二个区域是布若卡区,位于优势半球的额叶。该区域患有病变的人会出现表达性失语症,这意味着他们知道自己想说什么,但就是无法正常地说出来。[72]表达性失语症患者还可能有流利性、清晰度、词汇发现、单词重复上的问题,也很难在口头和书面形成或理解语法复杂的句子。患有这种失语症的人也很难说出合乎语法的言语,并且无法利用句法信息来确定句子的含义。表现性和接受性失语也会影响手语的使用,与它对语言的影响类似,表现性失语症患者只能慢慢打出语法不正确的手语,而接受性失语症患者则可以流利地使用手语,但是他们的手语别人难以理解,他们也很难理解别人的手语。这表明脑部损伤损害的是使用语言的特定能力,而非语音生成的生理能力。[73][74]
20世纪后期,随着技术进步,神经语言学家还采用了非侵入性技术,如功能磁共振成像(fMRI)和电生理学,来研究无损伤个体的语言处理。[70]
口语依赖于人体产生声音,即产生以可振动鼓膜的频率在空气中传播的纵波的能力,这种能力取决于人类语言器官的生理学。这些器官包括肺部喉部和上部声道(喉咙、嘴巴和鼻子)。通过控制不同的发音部位,可以操纵气流以产生不同的语音。[75]
语音可分为音段成分和超音段成分。音段按顺序前后排列,通常由不同字母表示,例如罗马字母。在自由流畅的言语中,一个音段与下一个音段之间没有明确的界限,在单词之间通常也没有任何明显可听见的暂停,故音段的区别在于发音时不同的调音方法,例如元音和辅音的区别。超音段成分包括诸如轻重读、发声类型、音色、音韵或语调等要素,所有这些超音段成分都可能影响多个音段。[76]
辅音和元音音段组合形成音节,而音节又组合形成话语;这些语音学上可以由两次吸气相之间的空隙来区分。在声学上,这些不同的音段的特征在于不同的共振峰结构,可见于时频谱中(见右图)。共振峰是特定声音的频谱中的振幅峰值。[76][77]
元音指气流在没有调音的情况下不受阻碍地通过口腔而发出的音。它们的音值根据嘴唇张开的程度和舌头在口腔内的位置而有所不同。[76]当嘴唇相对闭合时发出的元音为闭元音,如元音 [i](汉语“依”的韵母),而当嘴唇相对开放时发出的元音则为开元音,如元音 [a](汉语“啊”)。如果舌头往后,则音值会变为 [u](汉语“乌”的韵母)等元音。音值也会随嘴唇形状发生变化,例如 [i](不圆唇前元音)圆唇则变为 [y](圆唇前元音,如德语“ü”或粤语“于”)。[78]
辅音指气流在调音(上部声道的某些部分变窄或阻塞)是出现摩擦或闭合而发出的音。辅音音值因调音部位即声道中阻塞气流的位置而异,这些位置通常在嘴唇、牙齿、牙槽嵴、硬腭、软颚、悬雍垂或声门。每个调音位置产生一组不同的辅音,依调音方法或阻塞类型还能细分,一种是完全阻塞的闭合音或塞音,另一种是不完全阻塞的擦音或近音。根据发声时声带有无振动,辅音也可分清浊音,如英语中 bus 的 [s] 为清音(咝音)而 buzz 的 [z] 为浊音(浊齿龈擦音)。[79]
一些音素,包括元音和辅音,都能利用鼻腔调音,这些音被称为鼻音或鼻音化语音。其他音则取决于舌头在声道中与气流的相对位置,例如 [l](称为边音,因为空气沿着舌头的两侧流动)和 [ɹ](称为齿龈近音)。[77]
通过调用发声器官和调音部位,人类可以产生数百种不同的声音:有些声音在世界各种语言中都非常常见,而有些罕见音素则只见于某些语系、语族,某些语言区域甚至单一语言。[80]
一般把语言看作是一种由三部分组成的符号交流系统:记号,意义和连接两者的符码。符号学负责研究符号过程,记号和意义如何组合,以及记号的使用和解释。记号可以由声音,手势,字母或符号组成,具体取决于语言是去说、去做手语还是去写,并且它们可以组合成复杂的记号,例如单词和短语。当用于交流时,记号由发送者编码并通过信道发送给接收者,后者对其进行解码。[81]
一些定义将人类语言与其他的交流系统区别开来:语言记号具有的恣意性,故语言记号与其意义之间没有必然的联系;语言系统具有二元性,故语言具有分层嵌套结构,如声音组成词,而词组成短语;语言语言要素具有离散性,故构建语言记号的要素都是离散单元,如声音和单词可以相互区分,并以不同的模式重新排列;语言系统具有能产性,故有限的语言要素理论上可以组合成无限多的组合。[81]
将记号组合成单词和短语的规则称为句法或语法,而与独立的记号、音素、词、短语和文本相联系的意义则称为语义。[82]索绪尔的语言学研究当中最早将语言划分为独立但又相互联系的记号和意义系统,现在这一观点几乎被所有语言学分支采纳[83]
人们通过将一个记号联系到一种意义来进行语言表达。这些语言记号必须能为人所感知,例如声音、图像或是手势,它们根据人们的习惯被联系到一个个具体的意义。由于它们的最基础的意义来源于人们交流中的约定。语言符号的约定是建立在社会和历史上的,而非是具体的某种符号生来便具有与它的意义间的关系。以这种观点看来,语言符号可以认为是任定的。
因此,语言必须拥有与特定意义相关联的词汇。例如,英语单词“dog”表示灰狼种下的犬亚种(Canis familiaris)。在一门语言中,与意义相关联的任意一组符号的集合被称作词汇,与意义相关联的单一符号称为词位。语言中并非所有的意义都以单词表示,很多情况下,意义会以语法范畴的形式嵌入到语言的词法(morphology)与句法(syntax)中去。[84]
所有语言都包含表达属性、状态或行为的谓语语义结构。语义学一般被视作关于说话者如何将真值分配给陈述的研究,故意义也被视作判断谓语关于某个实体为真或假的一种过程。例如,“[x [是 y]]”或者“[x [做 y]]”。最近,这种语义模型得到了更多动态意义模型的补充,这些模型结合了一些共享知识,这些知识说明了意义生成过程中记号是如何被解释为语言的。这种意义模型在语用学领域得到了探索。[84]
根据形式,语言结构可以基于声音(语言),手势(手语),图形或触觉符号(文字)系统。音位学对语言使用声音和符号表达意义的方式进行了研究。[85]研究人类如何发音及感知声音的学科称为语音学。[86]在口语中,意义产生于声音作为一个系统的一部分时,一些声音有助于表达意义,而其它的却没有。在任何给定的语言中,只有有限数目的许多不同的声音可以由人类的发音器发出有助于构建意义。[80]
作为语言系统的一部分的声音被称作音素。[87]音素是声音的抽象单位,定义为语言中最小的可以区分一对差异最小的词(所谓的最小对立体)的意义的单位。在英语中,举个例子,单词bat [bæt]和pat [pʰæt]形成一个最小对立体,在此之中/b/和/p/ 区别了这两个具有不同意义的词。但是,每种语言都有不同的区别声音的方式。例如说,在一种不区分清音与浊音的语言中,音位[p]和[b](如果它们都存在)可以被认为是一个音素,因此这两种发音具有同种意思。类似的,英语并不区分辅音送气与不送气发音的区别,但许多其他语言却区分开(如韩语和印地语):在单词spin [spɪn]中的不送气音/p/和单词pin [pʰɪn]中的送气音/p/被认为仅仅是相同音素的不同发音方式(单个音素的这种变化称为同位异音),而在官话中,同样的发音差异区别词“趴”[pʰá] 和“八”[pá](á上面的变音符号表示高音调)。[88]
所有的口头语言都至少拥有两种音素:元音和辅音,可以结合构成音节。[76]在拥有音素如辅音和元音的同时,一些语言也使用声音的其他形式去传达意义。许多语言使用例如轻重重音、高低重音、元音长度以及声调的方式去区别意义。由于这些语音现象运作于单个音段水平之外,它们被称为超音段成分。[89]一些语言只有几个音素,例如罗托卡特语和皮拉罕语分别只有11和10个音位,而另外一些语言像宏语也许会拥有像141个这样多的音素。[88]在手语中,音素的替代(曾称为手语语素)被定义为手势的基本元素,如手的形状、方向、位置、和运动对应于口语中的种类。[90][91][92]
书写系统使用视觉符号代表语言,这可能会或可能不会对应语言的声音。拉丁字母(以及基于或派生于它的)最初是基于单一声音的表现,因此单词通常是由表示一个辅音或元音的结构的字母构成。在音节文字中,如因纽特音节表,每个符号都表示一个音节。在语素文字中,每个符号代表整个词。[93]并一般不会与这个词在口语中的发音有联系。
由于所有的语言都有大量词汇,所以并不存在纯粹的语标的文字。书面语言代表了口语中的声音,文字逐个的遵循被安排显示符号模式,遵循一个特定的方向。书写系统使用的书写顺序完全是任意的但有一定的惯例。一些书写系统使用水平方向(像拉丁文字一样从左到右或像阿拉伯文字一样从右到左),有一些却用竖直方向,例如古代中文(从上到下)。一些书写系统使用交错行反向书写的方式,或者其他,例如古玛雅文字,可以用任意一种方向书写并可依靠图形给阅读者提示阅读的方向。[94]
为了以书面形式表达世界语言的声音,语音学家创造了国际音标,用来表达人类语言中所有离散的声音以有助于理解人类语言的意义。[95]
语法(Grammar)是对语言中能组成话语意义的最基本元素语素的研究。语素既可自由运用,也能连在一起。在话语中自由运用的时候,一般称作词,和其他词或语素连在一起,便称作词根或词缀。语素在语言中的组合方式受规则约束。词内部结构的规则称作词法学,短语或句子内部结构的规则称作句法。[96]
语法范畴是对句子成分所体现的语义内容和相应语法形式的分类。[97][98][99]同一语法范畴内的要素(语义内容-语法形式)之间是相互对立的,只有一个要素可以作为该语法范畴表现出来。[100]对于句子成分的位置和词形变化(形态变化),可以分出各种词类(名词、动词等)以体现性、数、格(论元和谓语之间的语法关系,体现主语、谓语等语法功能,格的差异涉及到格在语法形态学上呈现的配列方式的差异)等许多语法范畴。[101]不同语言所覆盖的语法范畴也不一,有些范畴则非常普遍,几乎是所有语言共通的,如格。
语言会根据它们的语法功能和在语句中的位置分类为不同的词类或者称为词性。所有的语言都会对物品、概念跟表示行为或事件的词加以区分,如“狗”和“歌”为名词,而“跑”和“唱”为动词。还有一类词是形容词,即描述名词性质或品质的词,如英语“red”(红的)或“big”(大)。如果新词能够持续地加入到某个词性中,那么这个词性就是开放的,反之则是封闭的。在英语中,代词属于封闭词性,而形容词则是开放的,一些形容词可以从动词(如“saddened”)或名词(如“-like”后缀,以“名词+like”的形式转换)转换得来。在别的一些语言,如朝鲜语中则正好相反,代词能够转换产生,但形容词的数目则是固定的。[102]
词性也能体现不同的语法功能。典型者如动词作谓语,而名词则作谓语的论元,即主语和宾语。例如句子“Sally runs”,动词“runs”作谓语,因为它描述了其论元“Sally”的特定状态。论元的数目被称为配价(valence),不同动词可以有不同配价,持有一个或多个论元。一价动词只能有一个论元,且一般只能作主语,这种动词一般被称为不及物动词;二价以上的动词则可以有两个或以上的论元,主语以外的论元为宾语,这种动词一般被称为及物动词。故配价也时常被称为及物性。[103]
不同语言还有其他各种各样的词类,如连词连接两个句子,冠词(前置词)引出名词并界定名词定性,还有感叹词、拟态词等。很多语言里面存在量词,用来定义名词可数、描述名词样态。如日语使用量词“人”来数人:[104]
而数树木的时候:
词法(Morphology)在语言学上指词的语构成及其过程,对词法的研究称为词法学或者形态学。在大多数语言里面,合成词由数个语素构成。例如,“unexpected”一词可以分析出 un-、expect 和 -ed 三个语素。[105]
语素可以分为词根和词缀,词根可以独立作为语素存在,而词缀则必须依附于其他语素。词缀根据它与词根的相对位置,又可以分为前缀、中缀和后缀。词缀会改变、阐释词根的语义,通过添加词缀创造合成词的方法称为派生,如动词“sing”后加上 -er 变为“singer”。与之相对,屈折变化(形态变化)通过改变语素的形态来改变词的语法功能,进而改变词义,但并不创造新词。有些语言通过改变词的音韵结构的屈折变化来改变词义,例如英语词“sing”通过元音变换变成过去时“sang”和过去分词“sung”。[106]
不同语言依赖形态变化的程度不一,故基于形态和语法的关系产生了形态上的分类。孤立语是低语素单词比(morpheme-per-word ratio)的语言,并不对语素进行形态变化,而是以语序表示文法关系,如汉语。孤立语同时也是分析语,因为大多数时候单个词及其语义也是一一对应的(但并非汉语没有派生),如汉语“不易破损”由不、易、破、损四个自由语素组成,不像英语“unbreakable”一样由 un-(不自由语素)、break(自由语素)、-able(不自由语素)组成合成词。[107]包括英语在内的大部分综合语都允许含有多个语素的合成词存在,但是根据语素结合的程度即语素单词比的高低,又可分为屈折语、黏着语和多式综合语等。屈折语拥有丰富的屈折变化,其语素可有多个语义或语法功能且不可再分解,但语素的结合会受到限制。世界上大多数语言,尤其是印欧语系的语言,都属于屈折语。如拉丁语“bonus”(好),包括了词根 bon-(好)和后缀 -us(阳性主格单数)。而黏着语虽有屈折变化,但主要通过在词根上几乎不受限制地黏着若干词缀改变语法功能,其词缀的语法功能单一,如土耳其语“evlerinizden”通过语素列ev-ler-iniz-den(房子-复数-第二人称所有格-来自)表示“从你家”的意思。传统上所谓多式综合语最为依赖形态变化,综合程度也最高,通常会将一个句子地内容用一个词来表示。如波斯语“نفهمیدمش” nafāmidamesh(我没搞懂),是由语素列na-fahm-id-am-esh(否定-明白-过去时-第一人称-第三人称)组成的,里面完整包含了表示明白的语素 -fahm- 的主语和宾语两个论元。又如尤皮克语“tuntussuqatarniksatengqiggtuq”一词由语素列tuntu-ssur-qatar-ni-ksaite-ngqiggte-uq(驯鹿-打猎-未来时-说-否定-重复-第三人称单数陈述)构成,表示“他还没再说他要去抓驯鹿”。在这个例子中,除了 tuntu(驯鹿)以外,其他的所有语素都不自由,不能独立存在。[108]
在很多语言里,其句子内的词的形态会在一些语法范畴上相互保持一致。如很多印欧语系的语言里,形容词的形态必须与其修饰的名词在性、数、格上保持一致,故拉丁语“bonus”(好)所呈现的形态本身就是与某个阳性主格单数名词保持相互一致的结果。在很多多式综合语里面,谓语语素的形态与其主语和宾语即论元保持相互一致。如巴斯克语短语“ikusi nauzu”ikusi n-au-zu(看 第二人称-助动-第一人称)意为“你看见了我”,“nauzu”里面过去时助动语素 -au-(做)同时与前缀 n-(你)和后缀 -zu(我)保持相互一致。[109]
是语言传递意义的另一种方式是词通过一定语序构成句子,在这里语序这种语法规则称为句法(Syntax)。句法规则决定了词序和句子结构的约束形式,以及这些限制对意义起到的作用[110]。例如英语中,像“I love you”(我爱你)一般的英语句子是说得通的,而“*love you I”(爱你我)则说不通[注 4]。又如“The slaves were cursing the master”(奴隶在咒骂主人)和“The master was cursing the slaves”(主人在咒骂奴隶)指的是不同的东西,因为语法上对语序敏感,动词前面的名词起到了主语的作用,而跟在动词后面的名词则是宾语。相反,在拉丁语中,Dominus servos vituperabat和Servos vituperabat dominus的意思都是“主人在咒骂奴隶”,因为“servos”(奴隶)在形态上是宾格,表明他们是句子的宾语,而“dominus”(主人)是主格,表明他是主语,所以语序调换了也能表达相同的意思[111]。可见拉丁语利用词法(形态)区分主语和宾语,而英语则使用语序这一句法手段。
句法规则促成意义的另一个例子是许多语种存在的疑问词移位规则。该规则解释了为何英语句子“约翰正和露西交谈”(John is talking to Lucy)转变为疑问句时会变成“Who is John talking to?”(约翰在和谁讲话)而不是“John is talking to who?”。后者或许着重强调“谁”,使得疑问句的意义稍微发生了变化。短语形成的规则也是句法的一部分,词可以通过组成短语进入到更大的句法结构的不同位置当中,而短语在不同层次上相互连接,最终以树状结构连接成为句子[112]。如右图,在句法分析中,英语句子“坐在垫子上的猫”(The cat sat on the mat)被分为名词短语“the cat”、动词“sit”和介词短语“on the mat”,其中名词短语“the cat”由冠词和名词构成,介词短语“on the mat”由介词和名词短语构成[113]。这么分析是因为进行句法操作时这些短语作为单个元素移动,如欲强调“on the mat”时,可以把它作为一个整体前移,得到“[And] on the mat, the cat sat”(垫子上,猫坐着),故它应当被视为一个单元。[113]依据语言的不同假设及其描述,如今有各种各样的理论提出不同的形式和功能框架,来分析句子、描述语言结构。[21]
语言可依其语法特点分类,一些语言虽分属不同分支,但二者仍会有不少共同特征,而且这些共同特征之间往往有所关联。[114]比方说,语言可以依据其基本语序,即陈述句中动词与其他句子成分之间的位置关系进行分类。譬如,英语的基本语序和汉语一样,是主动宾语序(SVO)如“The snake(S) bit(V) the man(O)”(蛇咬人),而在澳大利亚原住民语言卡米拉罗伊语当中,其基本语序是主宾动语序(SOV),如“d̪uyugu n̪ama d̪ayn yiːy”(蛇人咬)。[115]因为基本语序类型与其他一系列的语法类型要素相对应,如名词与形容词的相对顺序、前置词或后置词等,故语序类型也被视为一种类型要素。这种相互关联被称为语言的普遍性,[116]例如大部分(但不是全部)主宾动语序(SOV)的语言里都存在后置词而非前置词,都将形容词置于名词之前。[117]
虽然所有语言的句子都由主语、谓语和宾语构成,但不同语言处理语法格和语义角色两者关系,即格关系的方式不尽相同,故在语法形态学上呈现的配列方式也有所不同。英语属于主宾格语言,无论是不及物动词句(如“I run”我跑)还是及物动词句(如“I love you” 我爱你),其主语(施事 Agent,在不及物动词句中亦为核心变元 Subject)都是相同形态的前置名词 I,二者等价。而作通格语言,如卡米拉罗伊语,其不及物动词句的主语(施事)等价于及物动词句的宾语(受事 Patient,即 Object),而区别对待及物动词句的主语。[115]如此,语义角色便能够以主宾格语言的“主格-宾格”或者作通格语言的“作格-通格”等不同的格关系呈现,甚至像三分型语言那样,及物动词句的主语和宾语,以及不及物动词句的主语分别用三个不同的格来表示。[118]
即便是语言类型学上被划为相同类型的两种语言,其共同特征也有可能是分别独立产生的。这些特征成群出现,可能出于统率自然语言结构的普遍规律即语言的普遍性,也有可能是人类在不断解决沟通问题的过程中其解决方式渐渐趋同的结果。[119]
语言仰仗言语共同体而存在。虽然人类有能力学习任何一种语言,但身处言语共同体中的人类,尤其是儿童,只有在成长环境中有长辈或同伴使用该语言时,他们才会这样做。语言也在社会沟通之中用以解决大量任务,故语言运用的许多方面可以视为针对这些目的所作的调整。[119]语言在代际或言语共同体之间传递的方式会导致语言不断变化,不断分化出新语言,或者通过语言接触相互融合。这个过程类似于进化,其一代代的变化将最终形成一株树状语言谱系。[121]
不过,语言与生物有机体的不同之处在于,语言在扩散的过程中因为要与其他语言的说话者接触,所以很容易融入其他语言的元素。人类还经常会使用多种语言,除了童年时获得的第一语言,他们在成长过程中还会学习新的语言。当今全球化世界当中语言接触不断增加,导致许多小语言正在逐渐濒危,其使用者转向使用那些具有更大影响力、能够面向更大范围言语共同体的语言。[122]
“意义与记号通过社会习俗相互紧密联系”,语义研究基于这一假设来研究意义,但并不研究社会习俗的形成及其影响语言的方式。相反,通常在词语和记号使用的研究当中,词语在不同社会背景下会具有不同的含义。例如直示语(Deixis),这一类词描述说话者与某些实体之间在说话当时的特定时空关系,如“我”(表示说话人),“现在”(表示说话的时刻)和“这里”(表示说话的位置)。随着社会习俗的变化,其记号也会逐渐改变其意义。语用学便研究语言表达的意义如何随语境变化,而 deixis 则是我们利用语言指涉某个实体的重要手段。[123]语用学关注的是语言的使用模式以及这些模式如何促成意义。例如,所有语言的语言表达都既可用于传递信息,也可视同付诸行动。某些行为仅诉诸语言就能有实际效果,比如通过“命名”来为某个实体创造一个新名称,或使用“某人及其妻子”的称呼来创造婚姻这一社会契约。这类行为被称为言语行为。当然,它们也可以通过书面或手语来实施。[124]
语言表达的形式往往不与其在特定社会背景中的实际意义相对应。例如,如果一个人在餐桌上问:“你能够得到盐么?”,他并不是真的在问手够不够长去拿盐,而是想让人帮忙把盐递给他。这个意义是由其所使用的语境暗示的;这些意义的影响被称为会话含义。这些语言运用的社会规则只在某些特定情况下是合适的,不同言语共同体对于其社会背景的理解不同,对语言运用的理解也就不一样。学习这些内容也是交流能力习得当中非常大的一环。[125]
任何正常发育的健康人都会学习并使用语言。儿童会学习他们自小就充分接触的一门或多门周围所使用的语言。而无论手语还是口语,儿童对于它们的学习历程基本相同。[126]这种学习过程被称为第一语言习得,它与许多其他类型的学习不同,不需要直接或专业的教学。在《人类的由来》中,博物学家查尔斯·达尔文称这一过程为“一种获得艺术的本能倾向”。[14]
尽管正常发育的婴儿中特定习得阶段的时间存在很大差异,第一语言习得的发展顺序仍然是相当规律的。从出生开始,相比于其他声音,新生儿就更容易对人类言语做出反应。大约一个月大的时候,婴儿似乎就能够区分不同的语音。大约六个月大的时候,孩子会开始唠叨,去发出他们周围使用的语音,或者做出周围出现的手形。十二至十八个月个月左右婴儿会开始使用词语,十八个月左右其平均词汇量大约是50个词语。儿童最开始会使用独字语,即仅用一个词来表达自己的想法。此后几个月便会出现双字语,再随后几个月内将开始产生电报式语言或者一些短句子,这些短句子的语法远比成人语言的语法简单,但从其语法结构可见规律性。但确表现出规律性的语法结构体。从三岁到五岁左右,儿童说话或者做手语的能力就会发展到和成人相若的程度,其语言习得过程基本完成。[127][128]2013年的研究表明,未出生的胎儿在某种程度上已经能够获得语言。[129][130]
通过在日常生活或课程中接触,人可以在任何年龄习得第二甚至更多的语言。学习第二语言的孩子比成年人更有可能达到母语水平,但一般来说,第二语言使用者很难比得过母语使用者。第一语言习得和额外语言习得之间的一个重要区别是,额外语言习得的过程会受到学习者已知语言的影响。[131]
语言是文化的载体,每个民族的语言都带有该民族特有的文化印记,不同民族的文化差异可以表现在语言和交际之中,人们在学习第二语言的时候,必然会经历一些陌生的文化现象,这些文化现象就成为一种理解和使用目的语的文化障碍,可理解为特定言语共同体内的特定语言规范,也是该共同体的大文化的一部分。语言不仅在发音、词汇和语法上有所不同,其“语言文化”也五花八门。人类利用语言来识别某个文化群体,区别开其他的群体。即使是同一语言的使用者,也会用几种不同的方式去使用该语言,这每一种方式都表示大文化所隶属的特定子群。语言学家和人类学家,特别是社会语言学家、人类语言学家和语言人类学家,专门研究说话方式在言语共同体之间的变化。[132]
语言学家使用“语言变体”这一术语来指代说一种语言的不同方式,它包含了地理或社会文化意义上的方言和语域,以及次文化当中的语体。语言人类学家和语言社会学家将交流语体定义为在特定文化中使用和理解语言的方式。[133]
由于语言使用规范由特定群体的成员共享,因此交流语体也成为展示和构建群体身份的一种方式。语言差异可能成为社会群体之间划分的显着标志,例如,说一口带有特定口音的语言可以代表一个人的少数民族或少数社会阶层身份、其祖籍或者他作为第二语言使用者的地位。这些差异不是语言系统的一部分,而是人们如何使用语言作为构建群体的一种重要的社会工具。[134]
然而,许多语言也会用一些语法惯例标记社会等级或社会对立,来凸显说话者绝对或相对的社会地位。在许多语言中,男女之间、年龄层之间或社会阶级之间说话的方式存在语体甚至语法上的差异,就像某些语言根据听话者是谁而使用不同的词语一样。例如,在澳大利亚的迪尔巴尔语中,已婚男子在其婆婆面前讲话时,必须使用一套特殊的词语来提及日常用品。[135]又例如,一些文化里面有精妙的“社交直示语”系统,或通过语言手段表达社交距离的系统。[136]在英语中,社交直示语主要通过区分姓氏和其他姓氏,以及“夫人”、“医生”或“阁下”等头衔来识别某些人。但在其他语言中,这种系统可能非常复杂,并且并覆盖到语言的整个语法和词汇当中。例如,在东亚语言中,如泰语、缅甸语和爪哇语,说话者会根据他和听话者在等级体系中的相对位置来使用不同的单词,其中动物和儿童等级最低,神和皇室成员等级最高。[136]
历史长河当中,人类发明了许多用图形媒介表示语言的方式,这些方式被称为书写系统。
书写令语言对人类更加有用处。它可以在人体外部储存大量信息,并可重复检索、允许长距离交流,原本仅靠语音和手语是没办法做到这一点的。许多语言具有不同的体裁、语体,区分书面语和口语,甚至在一部分语言共同体里面,书面语与口语在很大程度上是分开的,如粤语。有证据表明,书写的运用也会对人类的认知发展产生影响,这可能是因为获得识字通常需要正确而正规的教育。[137]
书写系统最开始发明于公元前4千年后期青铜时代初叶。苏美尔古老的楔形文字和埃及的象形文字通常被认为是最早的书写系统,它们都脱胎于公元前3400-3200年左右出现的原始文字符号系统,而最早的连贯文本在公元前2600年左右出现。人们普遍认为苏美尔人的文字独立发明的,而对于埃及文字是完全独立于苏美尔而发明的,还是文化传播而来的,则颇具争议。对于在公元前6000年左右发展起来的汉字也存在类似的争论。人们普遍认为前哥伦布时期的中美洲书写系统(包括奥尔梅克和玛雅文字)具有独立的起源。[94]
所有语言都会随着说话者采用或发明新的说话方式而发生变化,而且这些变化会在言语共同体内扩散。语言变化是全方位的,语言会在语音、词汇、形态、语法甚至语用等任何层面发生变化。尽管语言变化最初往往消极对待这些变化,认为这是一种语言消退或语言规范的弱化,但这变化实乃自然而且不可避免的。[138]
语言变化可能会影响特定语音或整个语音系统。语音变化包括语音或语音特征的替换,这种替换会导致原有语音损失,甚至完全变成以前没有的新语音。语音也会因应其前后的语音而变化。语音变化通常具有规律性,故无论无论满足结构条件与否,语音都会成体系地变化,任何非语音因素都可以忽略。但体系性变化并不绝对,语音变化也常有仅影响一个或几个词地个例。有时个别的变化会触发语音系统的链式音移,如日耳曼语族所有的塞音都曾发生过链式音移,最开始 *bʰ 变为 /b/,导致原来的 *b 变为 /p/,然后又导致原来的 *p 变为 /f/。这一过程被称为格林定律。这也可以解释为何意大利语族里面 p 开头的词 pater 和 pisces 对应到日耳曼语族里面就会变成 p 开头的 father 和 fish。[139]链式音移的另外一个著名例子是英语的元音大推移,这是现代英语正写法与发音不一致的主要原因。
语音变化的另外一种原因是元音缩合,即由于发音模糊等原因,两个独立的词里面大量音素脱落,逐渐缩短为一个词当中的两个音节甚至两个语音的现象。例如拉丁语 mea domina 后来变成了法语中的 madame 和美国英语中的 ma'am。[140]
语言在语法层面也会发生变化,这些现象常常在词或词素脱落,且语法系统无意识地重组予以代偿时发生。例如,标准西班牙语利用屈折变化 -s 来标记动词第二人称,但一部分加勒比海西班牙语当中 -s 脱落,导致它们只能前置人称代词 tú 来表示第二人称。故西班牙语当中 ¿como te llamas? [ˈkomo te ˈjamas](“你叫什么名字?”)这一句子到了加勒比海地区就变成了 ¿como tú te llama? [ˈkomo tu te ˈjama]。故细微的语音变化也会影响形态和语法。[141]语法变化的另外一个常见原因是某些特定话语模式的固化即语法化,如熟语的形成等。例如英语 going to 失去了其进行体和运动的含义,成为了将来时的标志,在某些英语方言里面这种变化非常彻底(如 I'm gonna)。
语言变化可能会受到其内部因素推动,例如特定语音在难以听辨或发音的情况下就会促使语音变化,或者通过成体系的变化使一些罕见的语言结构常态化。[142]语言变化的另外一些因素则是社会性的,例如当某些发音代表了特定群体、社会阶层或意识形态集团的时候,希望进入这些群体的人就会模仿、采用那些发音,客观上就发生了语音变化。故身份构建和政治议题也会对语言结构产生深远影响。[143]
语言接触也是导致语言特性在语言之间传播的重要原因。当两种语言或语言变体的使用者定期互动,就会发生语言接触。[144]多语制可能一直是人类历史的常态,现代世界的大多数人都能说多门语言。在民族国家的概念兴起之前,单语制一般只是岛屿居民的特征。但是,民族主义意识形态使得一个国家,一种语言的观念广为世人接受,单语制也就流行了开来。尽管如此,世界上约250个国家当中却存在大约6000种语言,说明大多数国家里面还是存在多种语言,故大多数语言仍然都会与其他语言密切接触。[145]
当不同语言的使用者密切互动,他们的语言往往会相互影响。长时间的语言接触过后,一个语言特征会在不同的语言当中扩散,使得不同系属的语言得以趋同。这可能会在许多语言密切接触的地区产生语言联盟,当中互不相关的语言开始共享大量语言特征。有记录的语言联盟包括巴尔干语区、中美洲语区和埃塞俄比亚语区。此外,由于特定地域特征的广泛扩散,南亚、欧洲和东南亚等一些较大的地区有时被视为语言联盟。[146][147]
语言接触也会导致其他语言现象,如语言融合、词汇借用甚至词汇重置(本土词汇渐渐被优势语言的借词所取代)。在极端而持续的语言接触下,它可能导致形成一些新的混合语言,这些混合语言难以被归类到单一语言系属中去。例如皮钦语,这类混合语言形成于不同语言的成年使用者之间的定期接触,通常他们都不会说对方的语言,但是通过皮钦语可以构建一种简化了各自语法和语音体系,但同时又具有两方语言特征的交流方式。皮钦语也因此不会有母语使用者,定义上皮钦语的使用者都用另外一种语言作为第一语言。但如果一种皮钦语成为了某个言语共同体的主要语言,那么皮钦语就会成为这个言语共同体里面儿童的母语,并随着这些儿童长大而在结构上变得更复杂。这些语言就另称之为克里奥尔语,例如巴布亚皮钦语,它是巴布亚新几内亚的官方语言,起初源于英语和南岛语;还有海地克里奥尔语,以及加拿大的米奇夫语等。[148][149][150]
“民族语”网站把“活的语言”(仍在使用的语言)定义为“一门至少拥有一名母语使用者的语言”。目前已知的“活的语言”的准确数量为6,000-7,000种之间,这种差异可归因于“统计者如何定义语言”以及“如何区分语言和方言”这两点。截至2016年,“民族语”记录了7,097种活的人类语言。[153]“民族语”基于语言的相互理解性研究划分语言,故其划分的语言种类来得比一般较为保守的分类多,如丹麦语一般被视为一种单一语言,其下存在两种方言,而“民族语”则视之为丹麦语和日德兰语两种独立语言。[151]
“民族语”网站也显示,389种语言(约占总数6%)的使用者数达100万以上。所有这些语言的使用者总数占世界总人口的94%,而剩下94%的语言的使用者只占世界人口的6%。右表是“民族语”估算得出世界上使用者数前十的语言及其使用者数(2009年数据)。[151]
语言学家马克斯·魏因赖希有句十分有名的论述,“语言就是有着陆军和海军的方言”(a language is a dialect with an army and navy.)[154],尽管如此,语言与方言之间并无明显界限,而政治上的边界往往会影响语言变体作为语言或方言的区分。例如,客家语、粤语和官话常被视作汉语的方言,尽管其差异更甚于挪威语及其衍生语言瑞典语之间的差异。南斯拉夫内战以前,塞尔维亚-克罗地亚语被视为同一语言的两种方言,但现在克罗地亚语和塞尔维亚语分别使用拉丁字母和西里尔字母,同时也被视为不同的语言。换言之,语言的区分不仅取决于文化差异、文字系统、相互理解性,也取决于政治考量。[155]
世界上的语言可以依据其共同祖语等亲缘关系,大致按照语门>语系>语族>语支>语言>方言的层次划入不同的语言系属分类,实际上分类层次可能更多更复杂。目前已被认定的语言系属有上百种,但随着今后研究深入发掘更多证据,一些系属可能会被划入更大的分类里面。同时,目前也有数十种语言被列为孤立语言,尚无法找到它们与其他语言之间的关联,如西班牙的巴斯克语、美国新墨西哥州的祖尼语、墨西哥的塔拉斯坎语、日本的阿伊努语和巴基斯坦的布鲁夏斯基语等等。[156]还有一些小语系未列出。
印欧语系语言的使用者最多,达全球人口的46%[157],其中包括了英语、西班牙语、俄语、印度斯坦语(印地语和乌尔都语)等主要语言。它们首先经民族大迁徙(公元400—800年)扩散到欧亚大陆各处,[158][159]而后又随着欧洲的殖民扩张在非洲和美洲取得了政治上乃至规模上的主导地位。汉藏语系语言占全球人口的20%[157],主要分布在东亚,包括汉语的官话、客家话、粤语,及其他数百种更小的语言。[160][161]
非洲大地上存在更多的语言系属,其中分布最广的是尼日尔-刚果语系,包括斯瓦希里语、修纳语和约鲁巴语等,占世界人口的6.9%。[157]亚非语系在非洲的规模则稍微少一些,但其中闪米特语族也有大量使用者,包括阿拉伯语、希伯来语等,以及分布于撒哈拉沙漠的豪萨语和柏柏尔语族诸语。[160][161]
南岛语系的使用者占全球人口的5.5%,覆盖了从马达加斯加到东南亚各群岛乃至大洋洲的广阔范围。[157]南岛语系包括了马拉加斯语、毛利语、萨摩亚语以及印度尼西亚和台湾的原住民语言等。南岛语于公元前3000年左右发源于台湾,后利用先进的航海技术沿诸多岛链扩散到大洋洲各处。其他主要的语言系属包括南亚的达罗毗荼语系(包括卡纳达语、淡米尔语和泰卢固语等)、中亚的突厥语族(属阿尔泰语系,如土耳其语)以及东南亚的南亚语系(如高棉语)和侗傣语系(如泰语)。[160][161]
有些地方语言多样性非常丰富,如美洲、巴布亚新几内亚、西非和南亚等,会存在上百种小的语言系属。尽管人数上并不占优,这些地方的语言占据了世界语言总量的多数。主要有南美洲的克丘马拉语系、阿拉瓦克语系和图皮-瓜拉尼语族,中美洲的犹他-阿兹特克语系、欧托-曼格语系、马雅语系,以及北美洲的纳-德内语系、易洛魁语系和阿尔冈昆语族等原住民语言。在澳大利亚,大部分原住民语言都属于帕马-恩永甘语系。而新几内亚除了南岛语,存在大量小系属和语言岛。[156]
当一门语言的绝大部分使用者死亡或者转向说另外一门语言时,这门语言就陷入濒危状态。如果不再有人那它当作母语,那么它就会成为死语;再往下去,如果完全没有人使用这门语言,那么它就会灭绝。语言灭绝一再在人类历史上发生,但20世纪以来的新殖民主义和全球化加剧了这一趋势,经济上强大的语言凌驾再其他语言之上,使用人数较少的语言濒临危机。[4]
目前尚不清楚世界上总共有多少种语言,其统计取决于很多因素。一般认为截至2010年,世界上共有6,000[162]至7,000种语言,其中50%至90%将在2100年前灭绝。[4]世界上50%的人口使用排名前20种语言,每种语言都超过5000万人,而其他许多语言都只在小范围使用,其中大部分语言的使用者不到1万人。[157]
联合国教科文组织将语言濒危程度分为五级:“脆弱”(儿童只在家庭使用)、“危险”(没有儿童使用)、“重大危险”(主要使用者为老人)、“极度危险”(主要使用者仅为老人,且不作为第一语言使用)和“灭绝”。尽管一直有思潮认为将语言统一为英语或者世界语等通用语言会更好,但普遍观点认为语言的消失会损害世界文化多样性。而反观圣经旧约中关于巴别塔的叙述,人们也普遍认为语言多样性会导致政治冲突,但也有观点认为这与世界上许多重大暴力事件的事实相违背,如南北战争和南斯拉夫内战,又或者是卢旺达的种族灭绝,发生这些事件的地区语言多样性都比较低;而很多稳定的政治单位都是高度多语化的。[163]
许多项目致力于振兴濒危语言和促进少数民族语言的教育和识字来预防或减缓这种损失。在世界范围内也许多国家专门立法保护和稳定原住民言语共同体的语言。少数语言学家认为语言丧失作为一种自然过程不应该人为抵消,为后代记录濒危语言足矣。[164]