人工智能对齐

人工智能对齐（英语：AI alignment）是指引导人工智能系统的行为，使其符合设计者的利益和预期目标。^[a]一个已对齐的人工智能的行为会向着预期方向发展；而未对齐的人工智能的行为虽然也具备特定目标，但此目标并非设计者所预期。^[b]

人工智能系统的对齐十分难以实现，一个未对齐的系统可能会在某时刻发生故障，或是产生有害后果。对人工智能的设计者而言，从设计之初就考虑到未来可能发生的所有情况是不现实的。因此，比较常见的办法是简单的指定某个特定目标。然而，人工智能系统可能会从中找到某些漏洞，从而选择可能会造成危害的方法（例如奖励作弊（英语：Misaligned_goals_in_artificial_intelligence#Specification_gaming））来更有效率的达成预期目标。^[2]^[4]^[5]^[6]人工智能也可能发展出预期之外的工具行为，例如它们可能会倾向于摄取尽可能多的控制权，以增加达成目标的可能性。^[2]^[7]^[5]^[4]此外，在人工系统运行过程中，面对新的事态和数据分布，它也可能会发展出全新的、在其部署前无法预料到的目标。^[5]^[3]在目前部署的商业系统，例如机器人^[8]、语言模型^[9]^[10]^[11]、自动驾驶汽车^[12]、社交媒体推荐引擎^[9]^[4]^[13]中，上述问题已有显现。鉴于这些问题部分源于系统所具备的高性能，因此未来功能更强大的人工智能系统可能更容易受到这些问题的影响。^[6]^[5]^[2]对于上述问题，人工智能研究学界和联合国呼吁加强相关的技术研究和政策制定，以保证人工智能系统符合人类价值。^[c]

人工智能安全（英语：AI safety）是致力于建立安全的人工智能系统的研究，人工智能对齐是是其子领域之一。^[5]^[16]其它从属于人工智能安全的子领域还包括稳健性、运行监控和能力控制（英语：AI capability control）。^[5]^[17]人工智能对齐的主要研究内容包括向人工智能灌输复杂的价值观念、发展诚实的人工智能、监管方式的扩展、对人工智能模型的审核与阐释，以及对人工智能系统有害倾向的防范，例如防止其发展出对控制权的渴求。^[5]^[17]与人工智能对齐相关的研究包括人工智能的可解释性^[18]、稳健性（英语：Robust optimization）^[5]^[16]、异常检测、不确定性量化（英语：Uncertainty quantification）^[18]、形式验证^[19]、偏好学习（英语：Preference learning）^[20]^[21]^[22]、安全攸关系统工程^[5]^[23]、博弈论^[24]^[25]、公平性（英语：Fairness (machine learning)）^[16]^[26]，以及相关的社会科学研究。^[27]

[a]

[b]

[2]

[4]

[5]

[6]

[7]

[3]

[8]

[9]

[10]

[11]

[12]

[13]

[c]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]