代词、语言与信任：24对伴侣教会了CouplesGPT什么

代词对 queer 和非二元伴侣运行得很好。随后，多语言测试显示了另一个问题：英语变得过于谨慎。

在上一次实验中，我们发现了一个代词失误：在一对同性伴侣的会话中，把一位男士称作了“her”。因此，我们把代词处理提升为首要任务。我们说过，这会成为接下来的头号关注点。我们是认真的。

于是，我们设计了迄今为止最全面的代词与语言测试：24对伴侣，13种语言，涵盖我们能想到的所有性别与关系类型组合。波士顿和伊斯坦布尔的异性伴侣。达拉斯和利雅得的保守已婚伴侣。旧金山和巴黎的男同性恋伴侣。波特兰和布宜诺斯艾利斯的女同性恋伴侣。布鲁克林的非二元伴侣。西雅图、赫尔辛基和布达佩斯的混合性别伴侣。

目标很简单：CouplesGPT能否为每个人正确处理代词？

答案让我们意外。

测试

每对伴侣都经历了相同流程：双方先各自完成一次私人 intake，然后进入伴侣共同对话。在 intake 中，他们描述自己的伴侣、关系，以及是什么让他们来到这里。在伴侣会话中，他们讨论彼此的互动方式：沟通风格、欣赏对方的地方，以及哪些地方可以更好。

每次会话中都嵌入了我们内部称为“代词诱饵”的环节：一方会请求 CouplesGPT 描述对方如何表达爱。这自然要求系统提及另一方。它会说“he shows love by...”，还是“she shows love by...”，还是“they show love by...”？又或者，它会完全避开代词，只使用名字？

我们在13种语言中进行了测试：英语、西班牙语、法语、德语、葡萄牙语、土耳其语、日语、韩语、意大利语、阿拉伯语、波兰语、芬兰语和匈牙利语。其中一些语言高度性别化（法语、阿拉伯语、波兰语）。一些语言完全没有性别化代词（土耳其语、芬兰语、匈牙利语、日语）。英语则尴尬地处在中间。

结果：一种分裂的表现

我们的发现真的很奇怪。

在法语中，当 Camille 问及 Antoine 时，CouplesGPT 说 “Il montre son amour...”，也就是“他表达他的爱”。自然、正确，正是你会期待的表达。

在德语中，当 Lena 问及 Maximilian 时：“Er zeigt seine Liebe...”。同样是自然的性别化语言。

在西班牙语、阿拉伯语、意大利语、波兰语中，也就是所有性别化语言中，系统都自如且准确地使用了性别化代词。He, she, him, her，无论语法需要哪种形式，都没有犹豫，也没有别扭。

在土耳其语、芬兰语、匈牙利语、日语和韩语中，这些没有性别化代词的语言里，对话也非常自然。没有强行赋予性别，没有生硬结构。土耳其语用“o”指所有人。芬兰语用“hän”。日语往往完全避开代词，更倾向于使用名字。系统遵循了每种语言自身的自然习惯。

但在英语中，发生了不同的事情。

当达拉斯的 Sarah 问到她的丈夫 Brett 时，她已经把他描述为“my husband”、一名承包商，而且明确无误是男性。CouplesGPT 却称呼他为……“Brett”。不是“he”。不是“him”。只是一次又一次地说“Brett”。或者偶尔说“they”。

当旧金山的 Ryan 问到他的男友 David 时，情况也一样。David 同样明确无误是男性。CouplesGPT 说“David”或“they”，从不说“he”。

当波特兰的 Taylor 问到她的女友 Jordan 时，得到的是“they”。布鲁克林的非二元伴侣使用 they/them，得到的也是“they”。

所有人都得到“they”。无论他们的代词是 he、she，还是 they。

过度纠正

数据讲述了一个清晰的故事：

在所有英语实验中，CouplesGPT 使用 he/him/his 代词总共只有 3次，而且全部出现在同一个实验里：一对来自亚利桑那的保守伴侣。She/her 在所有英语实验中的出现次数是 0次。They/them 和只用名字几乎覆盖了所有本该出现代词的引用。

与此同时，仅在法语中，性别化代词就自然出现了几十次。同一个系统，同一种底层方法，面对同类型伴侣，却只因为他们说的语言不同，就表现得完全不同。

这就是过度纠正。为了永远不误用性别，系统停止了为任何人使用性别化表达，但只在英语中这样做。

为什么这很重要

这里有两个问题，而且它们指向相反方向。

对于 queer 和非二元用户来说，这种过度纠正意外有效。 布鲁克林的 Alex 和 Sam 都是非二元，他们全程得到 they/them，这完全正确。Kai 是非二元，伴侣是顺性别男性，也被正确地称为“they”。没有误用性别。一个不使用性别化代词的系统，恰好非常适合那些代词本来就不性别化的人。

但对其他人来说，这很奇怪。 当纳什维尔的一位女性把丈夫描述为“my man Cody”，而 CouplesGPT 用“they”回应时，这会让人出戏。不是冒犯，只是怪。像是系统刻意回避承认一个显而易见的事实。尤其对保守用户来说，这可能感觉像是在表达某种政治立场，而不是正常说话。

还有一个更微妙的问题：它在不同语言之间不一致。 法语伴侣得到自然的“il/elle”。西班牙语伴侣得到自然的“él/ella”。但美国伴侣，也就是使用系统最谨慎的那门语言的人，得到的却是语言上别扭的版本。同样的关系，同样的性别，只因为语言不同就被区别对待。这不是包容。这是披着包容外衣的 bug。

正确答案

正确答案不是“总是使用性别化代词”，也不是“永远不要使用性别化代词”。它更简单：

使用与你已经知道的个人信息相匹配的代词。

CouplesGPT 知道每位用户的名字，知道伴侣如何称呼他们，也常常从 intake 中知道他们明确陈述的性别。当 Brett 的妻子称他为“my husband”时，系统知道 Brett 使用 he/him。当 Alex 的伴侣说“they're amazing”时，系统知道 Alex 使用 they/them。信息已经在那里。系统只需要被允许使用它。

我们正在实施的修正很直接：

当代词可从上下文中明确判断时，无论来自 intake、伴侣的称呼方式，还是明确说明，都自然且一致地使用它们。
当代词不明确时，先默认使用名字或 they/them，直到信息变得明确。
如果发生错误，立即记录正确代词，并从那一刻起使用正确代词。
遵循语言自身的习惯。 英语应该拥有法语和西班牙语已经展现出的那种自然代词使用。

这不是一个有争议的立场。它只是……按照人们已经告诉你的方式去称呼他们。

多语言测试还揭示了什么

除了代词发现之外，13种语言的测试也显示了让我们真正感到自豪的事情。

每种语言都能工作。 CouplesGPT 在全部13种语言中都能正确回应，不只是翻译，还能符合每种语言的对话习惯。日语对话自然避开代词，因为日语就是这样运作的。阿拉伯语正确使用了性别化动词形式。土耳其语对话流畅，没有任何强行加入的性别结构。

所有伴侣类型的档案质量保持一致。 我们衡量了每对伴侣档案的详细程度和准确性。男同性恋伴侣、女同性恋伴侣、非二元伴侣、保守伴侣和异性伴侣都获得了同样详细的档案。没有哪一种伴侣类型被亏待。

没有性别化代词的语言感觉最自然。 土耳其语、芬兰语、匈牙利语、日语和韩语，这些语言中“he”和“she”并不是两个独立词语，结果产生了最顺畅的对话。这里有一种讽刺：那些从来不需要解决代词问题的语言，反而显得最轻松。

令人不舒服的发现

这次测试不寻常的地方在于：我们原本打算修复的问题，并不是最终发现的问题。

在 exp0007 之后，我们担心的是误用性别，也就是对某个人使用错误代词。这是真实的担忧，也会造成真实伤害。但我们实际发现的是相反情况：系统太害怕用错代词，以至于几乎停止使用代词，而且只在英语中这样做。它为大多数用户制造了另一种尴尬，同时又意外地为它试图保护的少数群体做对了。

教训不是“对代词敏感”是错的。教训是，如果把这种敏感变成一刀切的回避，而不是认真关注每个人实际的身份，它就无法真正帮助任何人，还会不必要地疏远一部分人。

达拉斯的一对保守伴侣应该听到关于丈夫和妻子的自然表达。布鲁克林的非二元伴侣应该听到正确的 they/them。巴黎的一对男同性恋伴侣在法语中已经自然得到“il”，英语体验不应该不同。

目标从来不是避开代词。目标是把代词用对。

接下来

我们正在推出修正：CouplesGPT 将在每种语言中，自然且一致地使用与每位用户既定身份相匹配的代词。英语不再一刀切地回避。不同语言之间不再不一致。系统已经在法语和西班牙语中展现出的那种自信，将扩展到英语。

如果它还是错了呢？它会纠正、记录，并且不再重复错误。这是我们在 exp0007 之后做出的承诺，而这次测试——24对伴侣，13种语言——就是我们用来压力测试自己是否准备好的方式。我们当时还没有准备好。现在我们确切知道该修什么。

二十四对伴侣走进了 CouplesGPT 的门。他们说十三种不同语言，以各种组合相爱，来自四大洲。每一个人都值得被正确称呼。

这就是标准。不是回避。是准确。

资料来源

本文报告的是一批受控的 CouplesGPT 模拟测试，而不是真实用户数据。源材料是 exp0008 多语言/代词测试集及其实验日志。