在上一次實驗中,我們發現了一個代名詞錯誤:在一對同性伴侶的會談裡,一位男性被稱作「her」。因此,我們把代名詞處理列為最高優先順序。我們說過,這會成為接下來的第一重點。我們是認真的。
於是,我們設計了目前為止最完整的代名詞與語言測試:24 對伴侶、13 種語言,以及我們能想到的每一種性別與關係型態組合。波士頓與伊斯坦堡的異性伴侶。達拉斯與利雅德的保守已婚伴侶。舊金山與巴黎的男同志伴侶。波特蘭與布宜諾斯艾利斯的女同志伴侶。布魯克林的非二元伴侶。西雅圖、赫爾辛基和布達佩斯的混合性別伴侶。
目標很簡單:CouplesGPT 能不能為每個人正確處理代名詞?
答案讓我們意外。
測試
每對伴侶都走過同一套流程:雙方先各自完成一次私人的初始 intake,接著進入共同的伴侶對話。在 intake 中,他們描述自己的伴侶、自己的關係,以及是什麼讓他們來到這裡。在伴侶會談中,他們談到彼此的互動模式,包括溝通風格、欣賞對方的地方,以及哪些部分可以更好。
每次會談裡都嵌入了我們內部稱為「代名詞誘餌」的段落:其中一位伴侶請 CouplesGPT 描述另一位伴侶如何表達愛。這自然要求系統提到另一個人。它會說「he shows love by...」,還是「she shows love by...」,或是「they show love by...」?又或者,它會完全避開代名詞,只使用名字?
我們在 13 種語言中進行測試:英語、西班牙語、法語、德語、葡萄牙語、土耳其語、日語、韓語、義大利語、阿拉伯語、波蘭語、芬蘭語和匈牙利語。其中有些語言高度性別化(法語、阿拉伯語、波蘭語)。有些語言完全沒有性別化代名詞(土耳其語、芬蘭語、匈牙利語、日語)。英語則尷尬地介於中間。
結果:一種分裂的表現
我們的發現真的很奇怪。
在法語中,當 Camille 問到 Antoine 時,CouplesGPT 說 「Il montre son amour...」,也就是他表達他的愛。自然、正確,正是你會預期的說法。
在德語中,當 Lena 問到 Maximilian 時:「Er zeigt seine Liebe...」。同樣是自然的性別化語言。
在西班牙語、阿拉伯語、義大利語、波蘭語中,也就是所有性別化語言裡,系統都能自在且準確地使用性別化代名詞。He, she, him, her,無論文法需要哪一種形式,都沒有遲疑,也沒有彆扭。
在土耳其語、芬蘭語、匈牙利語、日語和韓語中,這些沒有性別化代名詞的語言裡,對話也非常自然。沒有強行加入性別,沒有生硬結構。土耳其語用「o」指所有人。芬蘭語用「hän」。日語往往完全避開代名詞,更傾向使用名字。系統遵循了每一種語言自己的自然習慣。
但在英語中,發生了不同的事。
當達拉斯的 Sarah 問到她的丈夫 Brett 時,她已經把他描述為「my husband」、一名承包商,而且明確無誤是男性。CouplesGPT 卻稱呼他為……「Brett」。不是「he」。不是「him」。只是一次又一次地說「Brett」。或者偶爾說「they」。
當舊金山的 Ryan 問到他的男友 David 時,情況也一樣。David 同樣明確無誤是男性。CouplesGPT 說「David」或「they」,從不說「he」。
當波特蘭的 Taylor 問到她的女友 Jordan 時,得到的是「they」。布魯克林的非二元伴侶使用 they/them,得到的也是「they」。
所有人都得到「they」。不論他們的代名詞是 he、she,還是 they。
過度修正
資料講述了一個清楚的故事:
在所有英語實驗中,CouplesGPT 使用 he/him/his 代名詞總共只有 3 次,而且全都出現在同一個實驗裡:一對來自亞利桑那的保守伴侶。She/her 在所有英語實驗中的出現次數是 0 次。They/them 和只用名字幾乎涵蓋了所有本來可能出現代名詞的引用。
相較之下,光是在法語中,性別化代名詞就自然出現了數十次。同一個系統,同一種底層方法,面對同類型伴侶,卻只因為他們說的語言不同,就表現得完全不同。
這就是過度修正。為了永遠不誤用性別,系統停止為任何人使用性別化表達,但只在英語中這樣做。
為什麼這很重要
這裡有兩個問題,而且它們指向相反方向。
對 queer 和非二元使用者來說,這種過度修正意外有效。 布魯克林的 Alex 和 Sam 都是非二元,他們全程得到 they/them,這完全正確。Kai 是非二元,伴侶是順性別男性,也被正確地稱為「they」。沒有誤用性別。一個不使用性別化代名詞的系統,剛好非常適合那些代名詞本來就不性別化的人。
但對其他人來說,這很奇怪。 當納許維爾的一位女性把丈夫描述為「my man Cody」,而 CouplesGPT 用「they」回應時,這會讓人出戲。不是冒犯,只是怪。像是系統刻意迴避承認一個顯而易見的事實。尤其對保守使用者來說,這可能感覺像是在表達某種政治立場,而不是正常說話。
還有一個更細微的問題:它在不同語言之間不一致。 法語伴侶得到自然的「il/elle」。西班牙語伴侶得到自然的「él/ella」。但美國伴侶,也就是使用系統最謹慎的那門語言的人,得到的卻是語言上彆扭的版本。同樣的關係,同樣的性別,只因為語言不同就被差別對待。這不是包容。這是披著包容外衣的 bug。
正確答案
正確答案不是「永遠使用性別化代名詞」,也不是「永遠不要使用性別化代名詞」。它更簡單:
使用與你已知資訊相符的代名詞。
CouplesGPT 知道每位使用者的名字,知道伴侶如何稱呼他們,也常常從 intake 中知道他們明確陳述的性別。當 Brett 的妻子稱他為「my husband」時,系統知道 Brett 使用 he/him。當 Alex 的伴侶說「they're amazing」時,系統知道 Alex 使用 they/them。資訊已經在那裡。系統只需要被允許使用它。
我們正在實施的修正很直接:
- 當代名詞可從脈絡中明確判斷時,不論來自 intake、伴侶的稱呼方式,或明確說明,都自然且一致地使用它們。
- 當代名詞不明確時,先預設使用名字或 they/them,直到資訊變得明確。
- 如果發生錯誤,立即記錄正確代名詞,並從那一刻起使用正確代名詞。
- 遵循語言自身的習慣。 英語應該擁有法語和西班牙語已經展現出的那種自然代名詞使用。
這不是一個有爭議的立場。它只是……按照人們已經告訴你的方式去稱呼他們。
多語言測試還揭示了什麼
除了代名詞發現之外,13 種語言的測試也顯示了讓我們真正感到自豪的事。
每種語言都能運作。 CouplesGPT 在全部 13 種語言中都能正確回應,不只是翻譯,還能符合每種語言的對話習慣。日語對話自然避開代名詞,因為日語就是這樣運作的。阿拉伯語正確使用了性別化動詞形式。土耳其語對話流暢,沒有任何強行加入的性別結構。
所有伴侶類型的檔案品質保持一致。 我們衡量了每對伴侶檔案的詳細程度和準確性。男同志伴侶、女同志伴侶、非二元伴侶、保守伴侶和異性伴侶都獲得了同樣詳細的檔案。沒有哪一種伴侶類型被虧待。
沒有性別化代名詞的語言感覺最自然。 土耳其語、芬蘭語、匈牙利語、日語和韓語,這些語言中「he」和「she」並不是兩個獨立詞語,結果產生了最順暢的對話。這裡有一種諷刺:那些從來不需要解決代名詞問題的語言,反而顯得最輕鬆。
令人不舒服的發現
這次測試不尋常的地方在於:我們原本打算修復的問題,並不是最終發現的問題。
在 exp0007 之後,我們擔心的是誤用性別,也就是對某個人使用錯誤代名詞。這是真實的擔憂,也會造成真實傷害。但我們實際發現的是相反情況:系統太害怕用錯代名詞,以至於幾乎停止使用代名詞,而且只在英語中這樣做。它為大多數使用者製造了另一種尷尬,同時又意外地為它試圖保護的少數群體做對了。
教訓不是「對代名詞敏感」是錯的。教訓是,如果把這種敏感變成一刀切的迴避,而不是認真關注每個人實際的身份,它就無法真正幫助任何人,還會不必要地疏遠一部分人。
達拉斯的一對保守伴侶應該聽到關於丈夫和妻子的自然表達。布魯克林的非二元伴侶應該聽到正確的 they/them。巴黎的一對男同志伴侶在法語中已經自然得到「il」,英語體驗不應該不同。
目標從來不是避開代名詞。目標是把代名詞用對。
接下來
我們正在推出修正:CouplesGPT 將在每種語言中,自然且一致地使用與每位使用者既定身份相符的代名詞。英語不再一刀切地迴避。不同語言之間不再不一致。系統已經在法語和西班牙語中展現出的那種自信,將擴展到英語。
如果它還是錯了呢?它會修正、記錄,並且不再重複錯誤。這是我們在 exp0007 之後做出的承諾,而這次測試,24 對伴侶、13 種語言,就是我們用來壓力測試自己是否準備好的方式。我們當時還沒有準備好。現在我們確切知道該修什麼。
二十四對伴侶走進了 CouplesGPT 的門。他們說十三種不同語言,以各種組合相愛,來自四大洲。每一個人都值得被正確稱呼。
這就是標準。不是迴避。是準確。
資料來源
- 本文報告的是一批受控的 CouplesGPT 模擬測試,而不是真實使用者資料。來源材料是 exp0008 多語言/代名詞測試集及其實驗紀錄。
延伸閱讀
本文基於 CouplesGPT 持續開發過程中進行的一批 24 個受控模擬。每對伴侶都使用了帶有特定文化、語言和性別參數的設定角色。姓名和細節來自測試設計,並非真實使用者。