Anthropic公布「AI宪法」 规范聊天机器人行为
人工智能(AI)浪潮席卷全球,但如同其他新兴技术一般,其发展与应用所衍生出的社会与道德问题,是业界与大众必须一同面对的挑战。由OpenAI前工程师成立的新创企业Anthropic,就想出了一种创新性的方法,也就是制定一部「宪法」供AI系统遵循,并基于透明原则,公布了条文内容。
综合VentureBeat与The Verge报导,Anthropic先前推出名为Claude的AI聊天机器人,可用于生成文字、图片与程序码,目标应用于包括教育、娱乐与社会公益在内的多元领域。根据初期使用者回馈,相较于同类型产品,Claude不仅比较好交谈,而且也比较不会给出带有伤害性的回应。
其他聊天机器人如ChatGPT,主要是仰赖审查员给予回馈,据此修正回覆内容,也就是所谓的「从人类回馈中进行强化学习」(RLHF)。而Claude的做法,则是一种Anthropic称为Constitutional AI、「让AI遵循特定一套规则」的训练方式。虽然还是需要一定的人工评估,但机器人基本上可以自我管理。
这部宪法概述了Claude在与使用者互动时,必须遵守的一套价值与原则,例如有帮助、无害与诚实,或是必须考虑到非西方使用者的感受,以及不要表现得太像真人,避免使用者将其拟人化,又或是指导Claude要如何处理敏感话题、尊重使用者隐私并避免出现违法行为。
这部宪法的制定,参考了联合国《世界人权宣言》,以及各式各样的AI道德研究与平台内容政策,连苹果(Apple)的服务条款也在其中,并由Anthropic研究人员、政策专家与营运主管历时数月,对Claude的行为与表现进行测试微调。
Anthropic表示,多亏有宪法以及从真人回馈中学习的能力,Claude可说是市场上可靠性与可控性最高的AI系统之一。不过也坦承,目前的宪法版本还没完成,很可能也还没有做到最好。
Anthropic共同创始人Jared Kaplan表示,之所以公开Claude背后依循的宪法条文,是基于透明性的精神,希望这项研究能够帮助AI社群,开发出更多有益的模型,并令这些模型的价值更为明晰,同时激起外界对于宪法设计的更多研究与讨论。
Kaplan强调,虽然Anthropic发明了Constitutional AI这种训练方法,但依旧不认为,最终应该要由哪些价值来引导AI,是一家私人企业可以专断决定的。这部宪法中目前有的条文,是按照Anthropic自身的期许来制定的,但还是希望有更多意见参与,未来也会持续对条文进行更新修正。
Kaplan透露,目前公司还正持续研究一些问题,例如如何更民主化的产出宪法条文,以及如何针对特定的使用案例,提供特别版本的宪法条文等。
责任编辑:毛履万亿







