代名詞、語言同信任：24對伴侶教會咗CouplesGPT乜嘢

代名詞對 queer 同非二元伴侶運作得好好。之後，多語言測試顯示另一個問題：英語變得過份謹慎。

喺上一個實驗入面，我哋發現咗一個代名詞錯誤：喺一對同性伴侶嘅會談中，一位男性被稱為「her」。所以，我哋將代名詞處理放到最高優先次序。當時我哋話，呢件事會成為之後嘅第一重點。呢句說話係認真嘅。

於是，我哋設計咗目前為止最完整嘅代名詞同語言測試：24 對伴侶、13 種語言，以及我哋諗得到嘅每一種性別同關係型態組合。波士頓同伊斯坦堡嘅異性伴侶。達拉斯同利雅德嘅保守已婚伴侶。三藩市同巴黎嘅男同志伴侶。波特蘭同布宜諾斯艾利斯嘅女同志伴侶。布魯克林嘅非二元伴侶。西雅圖、赫爾辛基同布達佩斯嘅混合性別伴侶。

目標好簡單：CouplesGPT 可唔可以為每個人正確處理代名詞？

答案令我哋意外。

測試

每對伴侶都經過同一個流程：雙方先各自完成一次私人的初始 intake，然後進入共同嘅伴侶對話。喺 intake 入面，佢哋描述自己嘅伴侶、關係，以及點解會嚟到呢度。喺伴侶會談入面，佢哋講到彼此嘅互動模式，包括溝通風格、欣賞對方嘅地方，同埋有咩可以做得更好。

每次會談入面都放咗一段我哋內部稱為「代名詞誘餌」嘅情節：其中一位伴侶請 CouplesGPT 描述另一位伴侶點樣表達愛。呢件事自然要求系統提到另一個人。佢會講「he shows love by...」，定係「she shows love by...」，又或者「they show love by...」？定係會完全避開代名詞，只用名？

我哋喺 13 種語言入面測試：英語、西班牙語、法語、德語、葡萄牙語、土耳其語、日語、韓語、意大利語、阿拉伯語、波蘭語、芬蘭語同匈牙利語。其中有啲語言高度性別化（法語、阿拉伯語、波蘭語）。有啲語言完全冇性別化代名詞（土耳其語、芬蘭語、匈牙利語、日語）。英語就尷尬地企喺中間。

結果：一種分裂嘅表現

我哋發現嘅嘢真係幾奇怪。

喺法語入面，當 Camille 問到 Antoine，CouplesGPT 講 「Il montre son amour...」，即係佢以男性形式表達愛。自然、正確，正正係你會預期嘅講法。

喺德語入面，當 Lena 問到 Maximilian：「Er zeigt seine Liebe...」。同樣係自然嘅性別化語言。

喺西班牙語、阿拉伯語、意大利語、波蘭語入面，亦即所有性別化語言入面，系統都可以自然同準確咁使用性別化代名詞。He, she, him, her，文法需要邊一種形式，就用邊一種。冇遲疑，亦冇尷尬。

喺土耳其語、芬蘭語、匈牙利語、日語同韓語入面，呢啲冇性別化代名詞嘅語言入面，對話亦都非常自然。冇強行加入性別，冇生硬句式。土耳其語用「o」指所有人。芬蘭語用「hän」。日語好多時會完全避開代名詞，較多用名字。系統跟到每種語言本身嘅自然習慣。

但喺英語入面，出現咗另一種情況。

當達拉斯嘅 Sarah 問到佢丈夫 Brett，佢已經形容 Brett 做「my husband」、一名承包商，而且明確無誤係男性。CouplesGPT 卻稱呼佢做……「Brett」。唔係「he」。唔係「him」。只係一次又一次講「Brett」。或者間中講「they」。

當三藩市嘅 Ryan 問到佢男友 David，情況都一樣。David 同樣明確無誤係男性。CouplesGPT 講「David」或者「they」，從來唔講「he」。

當波特蘭嘅 Taylor 問到佢女友 Jordan，就係「they」。布魯克林嘅非二元伴侶使用 they/them，得到嘅亦係「they」。

所有人都得到「they」。無論佢哋嘅代名詞係 he、she，定係 they。

過度修正

數據講咗一個好清楚嘅故事：

喺所有英語實驗入面，CouplesGPT 使用 he/him/his 代名詞總共只有 3 次，而且全部出現喺同一個實驗：一對來自亞利桑那嘅保守伴侶。She/her 喺所有英語實驗入面出現 0 次。They/them 同只用名字幾乎涵蓋咗所有本來可能出現代名詞嘅引用。

相比之下，單係法語入面，性別化代名詞就自然出現咗幾十次。同一個系統，同一種底層方法，面對同類型伴侶，卻只因為佢哋講嘅語言唔同，就表現得完全唔同。

呢個就係過度修正。為咗永遠唔誤用性別，系統停止為任何人使用性別化表達，但只係喺英語入面咁做。

點解呢件事重要

呢度有兩個問題，而且佢哋指向相反方向。

對 queer 同非二元使用者嚟講，呢種過度修正意外地有效。 布魯克林嘅 Alex 同 Sam 都係非二元，佢哋全程得到 they/them，呢個完全正確。Kai 係非二元，伴侶係順性別男性，亦都被正確稱為「they」。冇誤用性別。一個唔使用性別化代名詞嘅系統，啱啱好適合代名詞本身就唔性別化嘅人。

但對其他人嚟講，呢件事好奇怪。 當納什維爾一位女性將丈夫形容為「my man Cody」，而 CouplesGPT 用「they」回應，會令人出戲。唔係冒犯，只係怪。好似系統刻意迴避承認一件好明顯嘅事。尤其對保守使用者嚟講，呢種講法可能似係政治表態，而唔係正常對話。

仲有一個更細微嘅問題：佢喺唔同語言之間唔一致。 法語伴侶得到自然嘅「il/elle」。西班牙語伴侶得到自然嘅「él/ella」。但美國伴侶，即係使用系統最謹慎嗰種語言嘅人，得到嘅反而係語言上彆扭嘅版本。同一段關係，同樣嘅性別，只因為語言唔同就被唔同對待。呢個唔係包容。呢個係披住包容外衣嘅 bug。

正確答案

正確答案唔係「永遠使用性別化代名詞」，亦唔係「永遠唔好使用性別化代名詞」。答案其實簡單啲：

使用同你已經知道嘅個人資訊相符嘅代名詞。

CouplesGPT 知道每位使用者嘅名字，知道伴侶點樣稱呼佢哋，亦好多時會從 intake 入面知道佢哋明確陳述嘅性別。當 Brett 嘅妻子稱佢做「my husband」，系統知道 Brett 使用 he/him。當 Alex 嘅伴侶講「they're amazing」，系統知道 Alex 使用 they/them。資訊已經喺度。系統只需要被允許使用。

我哋正喺度實施嘅修正好直接：

當代名詞可以由脈絡清楚判斷，無論來自 intake、伴侶嘅稱呼方式，定係明確說明，都自然同一致咁使用。
當代名詞唔清楚，先預設使用名字或者 they/them，直到資訊變得清楚。
如果發生錯誤，立即記錄正確代名詞，並由嗰一刻開始使用正確代名詞。
跟返語言本身嘅習慣。 英語應該有法語同西班牙語已經展現到嗰種自然代名詞使用。

呢個唔係有爭議嘅立場。只不過係……按照人哋已經話畀你知嘅方式去稱呼佢哋。

多語言測試仲揭示咗咩

除咗代名詞發現之外，13 種語言嘅測試亦顯示咗一啲令我哋真正自豪嘅事。

每種語言都運作到。 CouplesGPT 喺全部 13 種語言入面都可以正確回應，唔單止係翻譯，仲能夠符合每種語言嘅對話習慣。日語對話自然避開代名詞，因為日語本身就係咁運作。阿拉伯語正確使用性別化動詞形式。土耳其語對話流暢，冇任何強行加入嘅性別結構。

所有伴侶類型嘅檔案質素保持一致。 我哋量度咗每對伴侶檔案嘅詳細程度同準確性。男同志伴侶、女同志伴侶、非二元伴侶、保守伴侶同異性伴侶都獲得同樣詳細嘅檔案。冇任何一種伴侶類型被虧待。

冇性別化代名詞嘅語言感覺最自然。 土耳其語、芬蘭語、匈牙利語、日語同韓語，呢啲語言入面「he」同「she」根本唔係兩個獨立詞語，結果產生咗最順暢嘅對話。呢度有一種諷刺：從來唔需要解決代名詞問題嘅語言，反而顯得最輕鬆。

令人唔舒服嘅發現

今次測試唔尋常嘅地方係：我哋原本打算修復嘅問題，並唔係最後發現嘅問題。

喺 exp0007 之後，我哋擔心嘅係誤用性別，即係對某個人使用錯誤代名詞。呢個係真實嘅擔憂，亦會造成真實傷害。但我哋實際發現嘅係相反情況：系統太驚用錯代名詞，以至幾乎停止使用代名詞，而且只係喺英語入面咁做。佢為大多數使用者製造咗另一種尷尬，同時又意外地為佢試圖保護嘅少數群體做啱咗。

教訓唔係「對代名詞敏感」係錯。教訓係，如果將呢種敏感變成一刀切嘅迴避，而唔係認真關注每個人實際身份，佢就冇辦法真正幫到任何人，仲會不必要咁疏遠一部分人。

達拉斯一對保守伴侶應該聽到關於丈夫同妻子嘅自然表達。布魯克林嘅非二元伴侶應該聽到正確嘅 they/them。巴黎一對男同志伴侶喺法語入面已經自然得到「il」，英語體驗唔應該唔同。

目標從來唔係避開代名詞。目標係將代名詞用啱。

接下來

我哋正推出修正：CouplesGPT 會喺每種語言中，自然同一致咁使用同每位使用者既定身份相符嘅代名詞。英語唔再一刀切迴避。唔同語言之間唔再唔一致。系統已經喺法語同西班牙語入面展現到嘅信心，會延伸到英語。

如果佢仍然錯咗呢？佢會修正、記錄，並且唔再重複錯誤。呢個係我哋喺 exp0007 之後作出嘅承諾，而今次測試，24 對伴侶、13 種語言，就係我哋用嚟壓力測試自己係咪準備好嘅方式。當時我哋未準備好。依家我哋清楚知道要修咩。

二十四對伴侶走進 CouplesGPT 嘅門。佢哋講十三種唔同語言，以各種組合相愛，來自四大洲。每一個人都值得被正確稱呼。

呢個就係標準。唔係迴避。係準確。

資料來源

本文報告嘅係一批受控 CouplesGPT 模擬測試，而唔係真實使用者資料。來源材料係 exp0008 多語言／代名詞測試集及其實驗紀錄。

延伸閱讀

本文基於 CouplesGPT 持續開發過程中進行嘅一批 24 個受控模擬。每對伴侶都使用帶有特定文化、語言同性別參數嘅設定角色。姓名同細節來自測試設計，並非真實使用者。