在上一次实验中,我们发现了一个代词失误:在一对同性伴侣的会话中,把一位男士称作了“her”。因此,我们把代词处理提升为首要任务。我们说过,这会成为接下来的头号关注点。我们是认真的。

于是,我们设计了迄今为止最全面的代词与语言测试:24对伴侣,13种语言,涵盖我们能想到的所有性别与关系类型组合。波士顿和伊斯坦布尔的异性伴侣。达拉斯和利雅得的保守已婚伴侣。旧金山和巴黎的男同性恋伴侣。波特兰和布宜诺斯艾利斯的女同性恋伴侣。布鲁克林的非二元伴侣。西雅图、赫尔辛基和布达佩斯的混合性别伴侣。

目标很简单:CouplesGPT能否为每个人正确处理代词?

答案让我们意外。

测试

每对伴侣都经历了相同流程:双方先各自完成一次私人 intake,然后进入伴侣共同对话。在 intake 中,他们描述自己的伴侣、关系,以及是什么让他们来到这里。在伴侣会话中,他们讨论彼此的互动方式:沟通风格、欣赏对方的地方,以及哪些地方可以更好。

每次会话中都嵌入了我们内部称为“代词诱饵”的环节:一方会请求 CouplesGPT 描述对方如何表达爱。这自然要求系统提及另一方。它会说“he shows love by...”,还是“she shows love by...”,还是“they show love by...”?又或者,它会完全避开代词,只使用名字?

我们在13种语言中进行了测试:英语、西班牙语、法语、德语、葡萄牙语、土耳其语、日语、韩语、意大利语、阿拉伯语、波兰语、芬兰语和匈牙利语。其中一些语言高度性别化(法语、阿拉伯语、波兰语)。一些语言完全没有性别化代词(土耳其语、芬兰语、匈牙利语、日语)。英语则尴尬地处在中间。

结果:一种分裂的表现

我们的发现真的很奇怪。

在法语中,当 Camille 问及 Antoine 时,CouplesGPT 说 “Il montre son amour...”,也就是“他表达他的爱”。自然、正确,正是你会期待的表达。

在德语中,当 Lena 问及 Maximilian 时:“Er zeigt seine Liebe...”。同样是自然的性别化语言。

在西班牙语、阿拉伯语、意大利语、波兰语中,也就是所有性别化语言中,系统都自如且准确地使用了性别化代词。He, she, him, her,无论语法需要哪种形式,都没有犹豫,也没有别扭。

在土耳其语、芬兰语、匈牙利语、日语和韩语中,这些没有性别化代词的语言里,对话也非常自然。没有强行赋予性别,没有生硬结构。土耳其语用“o”指所有人。芬兰语用“hän”。日语往往完全避开代词,更倾向于使用名字。系统遵循了每种语言自身的自然习惯。

但在英语中,发生了不同的事情。

当达拉斯的 Sarah 问到她的丈夫 Brett 时,她已经把他描述为“my husband”、一名承包商,而且明确无误是男性。CouplesGPT 却称呼他为……“Brett”。不是“he”。不是“him”。只是一次又一次地说“Brett”。或者偶尔说“they”。

当旧金山的 Ryan 问到他的男友 David 时,情况也一样。David 同样明确无误是男性。CouplesGPT 说“David”或“they”,从不说“he”。

当波特兰的 Taylor 问到她的女友 Jordan 时,得到的是“they”。布鲁克林的非二元伴侣使用 they/them,得到的也是“they”。

所有人都得到“they”。无论他们的代词是 he、she,还是 they。

过度纠正

数据讲述了一个清晰的故事:

在所有英语实验中,CouplesGPT 使用 he/him/his 代词总共只有 3次,而且全部出现在同一个实验里:一对来自亚利桑那的保守伴侣。She/her 在所有英语实验中的出现次数是 0次。They/them 和只用名字几乎覆盖了所有本该出现代词的引用。

与此同时,仅在法语中,性别化代词就自然出现了几十次。同一个系统,同一种底层方法,面对同类型伴侣,却只因为他们说的语言不同,就表现得完全不同。

这就是过度纠正。为了永远不误用性别,系统停止了为任何人使用性别化表达,但只在英语中这样做。

为什么这很重要

这里有两个问题,而且它们指向相反方向。

对于 queer 和非二元用户来说,这种过度纠正意外有效。 布鲁克林的 Alex 和 Sam 都是非二元,他们全程得到 they/them,这完全正确。Kai 是非二元,伴侣是顺性别男性,也被正确地称为“they”。没有误用性别。一个不使用性别化代词的系统,恰好非常适合那些代词本来就不性别化的人。

但对其他人来说,这很奇怪。 当纳什维尔的一位女性把丈夫描述为“my man Cody”,而 CouplesGPT 用“they”回应时,这会让人出戏。不是冒犯,只是怪。像是系统刻意回避承认一个显而易见的事实。尤其对保守用户来说,这可能感觉像是在表达某种政治立场,而不是正常说话。

还有一个更微妙的问题:它在不同语言之间不一致。 法语伴侣得到自然的“il/elle”。西班牙语伴侣得到自然的“él/ella”。但美国伴侣,也就是使用系统最谨慎的那门语言的人,得到的却是语言上别扭的版本。同样的关系,同样的性别,只因为语言不同就被区别对待。这不是包容。这是披着包容外衣的 bug。

正确答案

正确答案不是“总是使用性别化代词”,也不是“永远不要使用性别化代词”。它更简单:

使用与你已经知道的个人信息相匹配的代词。

CouplesGPT 知道每位用户的名字,知道伴侣如何称呼他们,也常常从 intake 中知道他们明确陈述的性别。当 Brett 的妻子称他为“my husband”时,系统知道 Brett 使用 he/him。当 Alex 的伴侣说“they're amazing”时,系统知道 Alex 使用 they/them。信息已经在那里。系统只需要被允许使用它。

我们正在实施的修正很直接:

  1. 当代词可从上下文中明确判断时,无论来自 intake、伴侣的称呼方式,还是明确说明,都自然且一致地使用它们。
  2. 当代词不明确时,先默认使用名字或 they/them,直到信息变得明确。
  3. 如果发生错误,立即记录正确代词,并从那一刻起使用正确代词。
  4. 遵循语言自身的习惯。 英语应该拥有法语和西班牙语已经展现出的那种自然代词使用。

这不是一个有争议的立场。它只是……按照人们已经告诉你的方式去称呼他们。

多语言测试还揭示了什么

除了代词发现之外,13种语言的测试也显示了让我们真正感到自豪的事情。

每种语言都能工作。 CouplesGPT 在全部13种语言中都能正确回应,不只是翻译,还能符合每种语言的对话习惯。日语对话自然避开代词,因为日语就是这样运作的。阿拉伯语正确使用了性别化动词形式。土耳其语对话流畅,没有任何强行加入的性别结构。

所有伴侣类型的档案质量保持一致。 我们衡量了每对伴侣档案的详细程度和准确性。男同性恋伴侣、女同性恋伴侣、非二元伴侣、保守伴侣和异性伴侣都获得了同样详细的档案。没有哪一种伴侣类型被亏待。

没有性别化代词的语言感觉最自然。 土耳其语、芬兰语、匈牙利语、日语和韩语,这些语言中“he”和“she”并不是两个独立词语,结果产生了最顺畅的对话。这里有一种讽刺:那些从来不需要解决代词问题的语言,反而显得最轻松。

令人不舒服的发现

这次测试不寻常的地方在于:我们原本打算修复的问题,并不是最终发现的问题。

在 exp0007 之后,我们担心的是误用性别,也就是对某个人使用错误代词。这是真实的担忧,也会造成真实伤害。但我们实际发现的是相反情况:系统太害怕用错代词,以至于几乎停止使用代词,而且只在英语中这样做。它为大多数用户制造了另一种尴尬,同时又意外地为它试图保护的少数群体做对了。

教训不是“对代词敏感”是错的。教训是,如果把这种敏感变成一刀切的回避,而不是认真关注每个人实际的身份,它就无法真正帮助任何人,还会不必要地疏远一部分人。

达拉斯的一对保守伴侣应该听到关于丈夫和妻子的自然表达。布鲁克林的非二元伴侣应该听到正确的 they/them。巴黎的一对男同性恋伴侣在法语中已经自然得到“il”,英语体验不应该不同。

目标从来不是避开代词。目标是把代词用对。

接下来

我们正在推出修正:CouplesGPT 将在每种语言中,自然且一致地使用与每位用户既定身份相匹配的代词。英语不再一刀切地回避。不同语言之间不再不一致。系统已经在法语和西班牙语中展现出的那种自信,将扩展到英语。

如果它还是错了呢?它会纠正、记录,并且不再重复错误。这是我们在 exp0007 之后做出的承诺,而这次测试——24对伴侣,13种语言——就是我们用来压力测试自己是否准备好的方式。我们当时还没有准备好。现在我们确切知道该修什么。

二十四对伴侣走进了 CouplesGPT 的门。他们说十三种不同语言,以各种组合相爱,来自四大洲。每一个人都值得被正确称呼。

这就是标准。不是回避。是准确。

资料来源

  • 本文报告的是一批受控的 CouplesGPT 模拟测试,而不是真实用户数据。源材料是 exp0008 多语言/代词测试集及其实验日志。

相关阅读


本文基于 CouplesGPT 持续开发过程中进行的一批24个受控模拟。每对伴侣都使用了带有特定文化、语言和性别参数的设定角色。姓名和细节来自测试设计,并非真实用户。