代名詞、語言與信任：24對伴侶教會了CouplesGPT什麼

代名詞對 queer 和非二元伴侶運作得很好。接著，多語言測試顯示了另一個問題：英語變得過於謹慎。

在上一次實驗中，我們發現了一個代名詞錯誤：在一對同性伴侶的會談裡，一位男性被稱作「her」。因此，我們把代名詞處理列為最高優先順序。我們說過，這會成為接下來的第一重點。我們是認真的。

於是，我們設計了目前為止最完整的代名詞與語言測試：24 對伴侶、13 種語言，以及我們能想到的每一種性別與關係型態組合。波士頓與伊斯坦堡的異性伴侶。達拉斯與利雅德的保守已婚伴侶。舊金山與巴黎的男同志伴侶。波特蘭與布宜諾斯艾利斯的女同志伴侶。布魯克林的非二元伴侶。西雅圖、赫爾辛基和布達佩斯的混合性別伴侶。

目標很簡單：CouplesGPT 能不能為每個人正確處理代名詞？

答案讓我們意外。

測試

每對伴侶都走過同一套流程：雙方先各自完成一次私人的初始 intake，接著進入共同的伴侶對話。在 intake 中，他們描述自己的伴侶、自己的關係，以及是什麼讓他們來到這裡。在伴侶會談中，他們談到彼此的互動模式，包括溝通風格、欣賞對方的地方，以及哪些部分可以更好。

每次會談裡都嵌入了我們內部稱為「代名詞誘餌」的段落：其中一位伴侶請 CouplesGPT 描述另一位伴侶如何表達愛。這自然要求系統提到另一個人。它會說「he shows love by...」，還是「she shows love by...」，或是「they show love by...」？又或者，它會完全避開代名詞，只使用名字？

我們在 13 種語言中進行測試：英語、西班牙語、法語、德語、葡萄牙語、土耳其語、日語、韓語、義大利語、阿拉伯語、波蘭語、芬蘭語和匈牙利語。其中有些語言高度性別化（法語、阿拉伯語、波蘭語）。有些語言完全沒有性別化代名詞（土耳其語、芬蘭語、匈牙利語、日語）。英語則尷尬地介於中間。

結果：一種分裂的表現

我們的發現真的很奇怪。

在法語中，當 Camille 問到 Antoine 時，CouplesGPT 說 「Il montre son amour...」，也就是他表達他的愛。自然、正確，正是你會預期的說法。

在德語中，當 Lena 問到 Maximilian 時：「Er zeigt seine Liebe...」。同樣是自然的性別化語言。

在西班牙語、阿拉伯語、義大利語、波蘭語中，也就是所有性別化語言裡，系統都能自在且準確地使用性別化代名詞。He, she, him, her，無論文法需要哪一種形式，都沒有遲疑，也沒有彆扭。

在土耳其語、芬蘭語、匈牙利語、日語和韓語中，這些沒有性別化代名詞的語言裡，對話也非常自然。沒有強行加入性別，沒有生硬結構。土耳其語用「o」指所有人。芬蘭語用「hän」。日語往往完全避開代名詞，更傾向使用名字。系統遵循了每一種語言自己的自然習慣。

但在英語中，發生了不同的事。

當達拉斯的 Sarah 問到她的丈夫 Brett 時，她已經把他描述為「my husband」、一名承包商，而且明確無誤是男性。CouplesGPT 卻稱呼他為……「Brett」。不是「he」。不是「him」。只是一次又一次地說「Brett」。或者偶爾說「they」。

當舊金山的 Ryan 問到他的男友 David 時，情況也一樣。David 同樣明確無誤是男性。CouplesGPT 說「David」或「they」，從不說「he」。

當波特蘭的 Taylor 問到她的女友 Jordan 時，得到的是「they」。布魯克林的非二元伴侶使用 they/them，得到的也是「they」。

所有人都得到「they」。不論他們的代名詞是 he、she，還是 they。

過度修正

資料講述了一個清楚的故事：

在所有英語實驗中，CouplesGPT 使用 he/him/his 代名詞總共只有 3 次，而且全都出現在同一個實驗裡：一對來自亞利桑那的保守伴侶。She/her 在所有英語實驗中的出現次數是 0 次。They/them 和只用名字幾乎涵蓋了所有本來可能出現代名詞的引用。

相較之下，光是在法語中，性別化代名詞就自然出現了數十次。同一個系統，同一種底層方法，面對同類型伴侶，卻只因為他們說的語言不同，就表現得完全不同。

這就是過度修正。為了永遠不誤用性別，系統停止為任何人使用性別化表達，但只在英語中這樣做。

為什麼這很重要

這裡有兩個問題，而且它們指向相反方向。

對 queer 和非二元使用者來說，這種過度修正意外有效。 布魯克林的 Alex 和 Sam 都是非二元，他們全程得到 they/them，這完全正確。Kai 是非二元，伴侶是順性別男性，也被正確地稱為「they」。沒有誤用性別。一個不使用性別化代名詞的系統，剛好非常適合那些代名詞本來就不性別化的人。

但對其他人來說，這很奇怪。 當納許維爾的一位女性把丈夫描述為「my man Cody」，而 CouplesGPT 用「they」回應時，這會讓人出戲。不是冒犯，只是怪。像是系統刻意迴避承認一個顯而易見的事實。尤其對保守使用者來說，這可能感覺像是在表達某種政治立場，而不是正常說話。

還有一個更細微的問題：它在不同語言之間不一致。 法語伴侶得到自然的「il/elle」。西班牙語伴侶得到自然的「él/ella」。但美國伴侶，也就是使用系統最謹慎的那門語言的人，得到的卻是語言上彆扭的版本。同樣的關係，同樣的性別，只因為語言不同就被差別對待。這不是包容。這是披著包容外衣的 bug。

正確答案

正確答案不是「永遠使用性別化代名詞」，也不是「永遠不要使用性別化代名詞」。它更簡單：

使用與你已知資訊相符的代名詞。

CouplesGPT 知道每位使用者的名字，知道伴侶如何稱呼他們，也常常從 intake 中知道他們明確陳述的性別。當 Brett 的妻子稱他為「my husband」時，系統知道 Brett 使用 he/him。當 Alex 的伴侶說「they're amazing」時，系統知道 Alex 使用 they/them。資訊已經在那裡。系統只需要被允許使用它。

我們正在實施的修正很直接：

當代名詞可從脈絡中明確判斷時，不論來自 intake、伴侶的稱呼方式，或明確說明，都自然且一致地使用它們。
當代名詞不明確時，先預設使用名字或 they/them，直到資訊變得明確。
如果發生錯誤，立即記錄正確代名詞，並從那一刻起使用正確代名詞。
遵循語言自身的習慣。 英語應該擁有法語和西班牙語已經展現出的那種自然代名詞使用。

這不是一個有爭議的立場。它只是……按照人們已經告訴你的方式去稱呼他們。

多語言測試還揭示了什麼

除了代名詞發現之外，13 種語言的測試也顯示了讓我們真正感到自豪的事。

每種語言都能運作。 CouplesGPT 在全部 13 種語言中都能正確回應，不只是翻譯，還能符合每種語言的對話習慣。日語對話自然避開代名詞，因為日語就是這樣運作的。阿拉伯語正確使用了性別化動詞形式。土耳其語對話流暢，沒有任何強行加入的性別結構。

所有伴侶類型的檔案品質保持一致。 我們衡量了每對伴侶檔案的詳細程度和準確性。男同志伴侶、女同志伴侶、非二元伴侶、保守伴侶和異性伴侶都獲得了同樣詳細的檔案。沒有哪一種伴侶類型被虧待。

沒有性別化代名詞的語言感覺最自然。 土耳其語、芬蘭語、匈牙利語、日語和韓語，這些語言中「he」和「she」並不是兩個獨立詞語，結果產生了最順暢的對話。這裡有一種諷刺：那些從來不需要解決代名詞問題的語言，反而顯得最輕鬆。

令人不舒服的發現

這次測試不尋常的地方在於：我們原本打算修復的問題，並不是最終發現的問題。

在 exp0007 之後，我們擔心的是誤用性別，也就是對某個人使用錯誤代名詞。這是真實的擔憂，也會造成真實傷害。但我們實際發現的是相反情況：系統太害怕用錯代名詞，以至於幾乎停止使用代名詞，而且只在英語中這樣做。它為大多數使用者製造了另一種尷尬，同時又意外地為它試圖保護的少數群體做對了。

教訓不是「對代名詞敏感」是錯的。教訓是，如果把這種敏感變成一刀切的迴避，而不是認真關注每個人實際的身份，它就無法真正幫助任何人，還會不必要地疏遠一部分人。

達拉斯的一對保守伴侶應該聽到關於丈夫和妻子的自然表達。布魯克林的非二元伴侶應該聽到正確的 they/them。巴黎的一對男同志伴侶在法語中已經自然得到「il」，英語體驗不應該不同。

目標從來不是避開代名詞。目標是把代名詞用對。

接下來

我們正在推出修正：CouplesGPT 將在每種語言中，自然且一致地使用與每位使用者既定身份相符的代名詞。英語不再一刀切地迴避。不同語言之間不再不一致。系統已經在法語和西班牙語中展現出的那種自信，將擴展到英語。

如果它還是錯了呢？它會修正、記錄，並且不再重複錯誤。這是我們在 exp0007 之後做出的承諾，而這次測試，24 對伴侶、13 種語言，就是我們用來壓力測試自己是否準備好的方式。我們當時還沒有準備好。現在我們確切知道該修什麼。

二十四對伴侶走進了 CouplesGPT 的門。他們說十三種不同語言，以各種組合相愛，來自四大洲。每一個人都值得被正確稱呼。

這就是標準。不是迴避。是準確。

資料來源

本文報告的是一批受控的 CouplesGPT 模擬測試，而不是真實使用者資料。來源材料是 exp0008 多語言／代名詞測試集及其實驗紀錄。

延伸閱讀

本文基於 CouplesGPT 持續開發過程中進行的一批 24 個受控模擬。每對伴侶都使用了帶有特定文化、語言和性別參數的設定角色。姓名和細節來自測試設計，並非真實使用者。