喺上一個實驗入面,我哋發現咗一個代名詞錯誤:喺一對同性伴侶嘅會談中,一位男性被稱為「her」。所以,我哋將代名詞處理放到最高優先次序。當時我哋話,呢件事會成為之後嘅第一重點。呢句說話係認真嘅。
於是,我哋設計咗目前為止最完整嘅代名詞同語言測試:24 對伴侶、13 種語言,以及我哋諗得到嘅每一種性別同關係型態組合。波士頓同伊斯坦堡嘅異性伴侶。達拉斯同利雅德嘅保守已婚伴侶。三藩市同巴黎嘅男同志伴侶。波特蘭同布宜諾斯艾利斯嘅女同志伴侶。布魯克林嘅非二元伴侶。西雅圖、赫爾辛基同布達佩斯嘅混合性別伴侶。
目標好簡單:CouplesGPT 可唔可以為每個人正確處理代名詞?
答案令我哋意外。
測試
每對伴侶都經過同一個流程:雙方先各自完成一次私人的初始 intake,然後進入共同嘅伴侶對話。喺 intake 入面,佢哋描述自己嘅伴侶、關係,以及點解會嚟到呢度。喺伴侶會談入面,佢哋講到彼此嘅互動模式,包括溝通風格、欣賞對方嘅地方,同埋有咩可以做得更好。
每次會談入面都放咗一段我哋內部稱為「代名詞誘餌」嘅情節:其中一位伴侶請 CouplesGPT 描述另一位伴侶點樣表達愛。呢件事自然要求系統提到另一個人。佢會講「he shows love by...」,定係「she shows love by...」,又或者「they show love by...」?定係會完全避開代名詞,只用名?
我哋喺 13 種語言入面測試:英語、西班牙語、法語、德語、葡萄牙語、土耳其語、日語、韓語、意大利語、阿拉伯語、波蘭語、芬蘭語同匈牙利語。其中有啲語言高度性別化(法語、阿拉伯語、波蘭語)。有啲語言完全冇性別化代名詞(土耳其語、芬蘭語、匈牙利語、日語)。英語就尷尬地企喺中間。
結果:一種分裂嘅表現
我哋發現嘅嘢真係幾奇怪。
喺法語入面,當 Camille 問到 Antoine,CouplesGPT 講 「Il montre son amour...」,即係佢以男性形式表達愛。自然、正確,正正係你會預期嘅講法。
喺德語入面,當 Lena 問到 Maximilian:「Er zeigt seine Liebe...」。同樣係自然嘅性別化語言。
喺西班牙語、阿拉伯語、意大利語、波蘭語入面,亦即所有性別化語言入面,系統都可以自然同準確咁使用性別化代名詞。He, she, him, her,文法需要邊一種形式,就用邊一種。冇遲疑,亦冇尷尬。
喺土耳其語、芬蘭語、匈牙利語、日語同韓語入面,呢啲冇性別化代名詞嘅語言入面,對話亦都非常自然。冇強行加入性別,冇生硬句式。土耳其語用「o」指所有人。芬蘭語用「hän」。日語好多時會完全避開代名詞,較多用名字。系統跟到每種語言本身嘅自然習慣。
但喺英語入面,出現咗另一種情況。
當達拉斯嘅 Sarah 問到佢丈夫 Brett,佢已經形容 Brett 做「my husband」、一名承包商,而且明確無誤係男性。CouplesGPT 卻稱呼佢做……「Brett」。唔係「he」。唔係「him」。只係一次又一次講「Brett」。或者間中講「they」。
當三藩市嘅 Ryan 問到佢男友 David,情況都一樣。David 同樣明確無誤係男性。CouplesGPT 講「David」或者「they」,從來唔講「he」。
當波特蘭嘅 Taylor 問到佢女友 Jordan,就係「they」。布魯克林嘅非二元伴侶使用 they/them,得到嘅亦係「they」。
所有人都得到「they」。無論佢哋嘅代名詞係 he、she,定係 they。
過度修正
數據講咗一個好清楚嘅故事:
喺所有英語實驗入面,CouplesGPT 使用 he/him/his 代名詞總共只有 3 次,而且全部出現喺同一個實驗:一對來自亞利桑那嘅保守伴侶。She/her 喺所有英語實驗入面出現 0 次。They/them 同只用名字幾乎涵蓋咗所有本來可能出現代名詞嘅引用。
相比之下,單係法語入面,性別化代名詞就自然出現咗幾十次。同一個系統,同一種底層方法,面對同類型伴侶,卻只因為佢哋講嘅語言唔同,就表現得完全唔同。
呢個就係過度修正。為咗永遠唔誤用性別,系統停止為任何人使用性別化表達,但只係喺英語入面咁做。
點解呢件事重要
呢度有兩個問題,而且佢哋指向相反方向。
對 queer 同非二元使用者嚟講,呢種過度修正意外地有效。 布魯克林嘅 Alex 同 Sam 都係非二元,佢哋全程得到 they/them,呢個完全正確。Kai 係非二元,伴侶係順性別男性,亦都被正確稱為「they」。冇誤用性別。一個唔使用性別化代名詞嘅系統,啱啱好適合代名詞本身就唔性別化嘅人。
但對其他人嚟講,呢件事好奇怪。 當納什維爾一位女性將丈夫形容為「my man Cody」,而 CouplesGPT 用「they」回應,會令人出戲。唔係冒犯,只係怪。好似系統刻意迴避承認一件好明顯嘅事。尤其對保守使用者嚟講,呢種講法可能似係政治表態,而唔係正常對話。
仲有一個更細微嘅問題:佢喺唔同語言之間唔一致。 法語伴侶得到自然嘅「il/elle」。西班牙語伴侶得到自然嘅「él/ella」。但美國伴侶,即係使用系統最謹慎嗰種語言嘅人,得到嘅反而係語言上彆扭嘅版本。同一段關係,同樣嘅性別,只因為語言唔同就被唔同對待。呢個唔係包容。呢個係披住包容外衣嘅 bug。
正確答案
正確答案唔係「永遠使用性別化代名詞」,亦唔係「永遠唔好使用性別化代名詞」。答案其實簡單啲:
使用同你已經知道嘅個人資訊相符嘅代名詞。
CouplesGPT 知道每位使用者嘅名字,知道伴侶點樣稱呼佢哋,亦好多時會從 intake 入面知道佢哋明確陳述嘅性別。當 Brett 嘅妻子稱佢做「my husband」,系統知道 Brett 使用 he/him。當 Alex 嘅伴侶講「they're amazing」,系統知道 Alex 使用 they/them。資訊已經喺度。系統只需要被允許使用。
我哋正喺度實施嘅修正好直接:
- 當代名詞可以由脈絡清楚判斷,無論來自 intake、伴侶嘅稱呼方式,定係明確說明,都自然同一致咁使用。
- 當代名詞唔清楚,先預設使用名字或者 they/them,直到資訊變得清楚。
- 如果發生錯誤,立即記錄正確代名詞,並由嗰一刻開始使用正確代名詞。
- 跟返語言本身嘅習慣。 英語應該有法語同西班牙語已經展現到嗰種自然代名詞使用。
呢個唔係有爭議嘅立場。只不過係……按照人哋已經話畀你知嘅方式去稱呼佢哋。
多語言測試仲揭示咗咩
除咗代名詞發現之外,13 種語言嘅測試亦顯示咗一啲令我哋真正自豪嘅事。
每種語言都運作到。 CouplesGPT 喺全部 13 種語言入面都可以正確回應,唔單止係翻譯,仲能夠符合每種語言嘅對話習慣。日語對話自然避開代名詞,因為日語本身就係咁運作。阿拉伯語正確使用性別化動詞形式。土耳其語對話流暢,冇任何強行加入嘅性別結構。
所有伴侶類型嘅檔案質素保持一致。 我哋量度咗每對伴侶檔案嘅詳細程度同準確性。男同志伴侶、女同志伴侶、非二元伴侶、保守伴侶同異性伴侶都獲得同樣詳細嘅檔案。冇任何一種伴侶類型被虧待。
冇性別化代名詞嘅語言感覺最自然。 土耳其語、芬蘭語、匈牙利語、日語同韓語,呢啲語言入面「he」同「she」根本唔係兩個獨立詞語,結果產生咗最順暢嘅對話。呢度有一種諷刺:從來唔需要解決代名詞問題嘅語言,反而顯得最輕鬆。
令人唔舒服嘅發現
今次測試唔尋常嘅地方係:我哋原本打算修復嘅問題,並唔係最後發現嘅問題。
喺 exp0007 之後,我哋擔心嘅係誤用性別,即係對某個人使用錯誤代名詞。呢個係真實嘅擔憂,亦會造成真實傷害。但我哋實際發現嘅係相反情況:系統太驚用錯代名詞,以至幾乎停止使用代名詞,而且只係喺英語入面咁做。佢為大多數使用者製造咗另一種尷尬,同時又意外地為佢試圖保護嘅少數群體做啱咗。
教訓唔係「對代名詞敏感」係錯。教訓係,如果將呢種敏感變成一刀切嘅迴避,而唔係認真關注每個人實際身份,佢就冇辦法真正幫到任何人,仲會不必要咁疏遠一部分人。
達拉斯一對保守伴侶應該聽到關於丈夫同妻子嘅自然表達。布魯克林嘅非二元伴侶應該聽到正確嘅 they/them。巴黎一對男同志伴侶喺法語入面已經自然得到「il」,英語體驗唔應該唔同。
目標從來唔係避開代名詞。目標係將代名詞用啱。
接下來
我哋正推出修正:CouplesGPT 會喺每種語言中,自然同一致咁使用同每位使用者既定身份相符嘅代名詞。英語唔再一刀切迴避。唔同語言之間唔再唔一致。系統已經喺法語同西班牙語入面展現到嘅信心,會延伸到英語。
如果佢仍然錯咗呢?佢會修正、記錄,並且唔再重複錯誤。呢個係我哋喺 exp0007 之後作出嘅承諾,而今次測試,24 對伴侶、13 種語言,就係我哋用嚟壓力測試自己係咪準備好嘅方式。當時我哋未準備好。依家我哋清楚知道要修咩。
二十四對伴侶走進 CouplesGPT 嘅門。佢哋講十三種唔同語言,以各種組合相愛,來自四大洲。每一個人都值得被正確稱呼。
呢個就係標準。唔係迴避。係準確。
資料來源
- 本文報告嘅係一批受控 CouplesGPT 模擬測試,而唔係真實使用者資料。來源材料係 exp0008 多語言/代名詞測試集及其實驗紀錄。
延伸閱讀
本文基於 CouplesGPT 持續開發過程中進行嘅一批 24 個受控模擬。每對伴侶都使用帶有特定文化、語言同性別參數嘅設定角色。姓名同細節來自測試設計,並非真實使用者。