대명사, 언어, 그리고 신뢰: 24쌍의 커플이 CouplesGPT에 가르쳐준 것

퀴어 및 논바이너리 커플에게는 대명사가 완벽하게 작동했다. 그러나 다국어 테스트에서는 다른 문제가 드러났다: 영어가 지나치게 조심스러워졌다.

지난 실험에서 한 남성을 'her'로 지칭하는 대명사 실수가 드러난 후, 우리는 대명사 처리 방식을 최우선 과제로 삼았다. 앞으로 가장 중요한 초점이 될 것이라고 선언했고, 그 약속을 지켰다.

그래서 우리가 설계할 수 있는 가장 포괄적인 대명사 및 언어 테스트를 만들었다: 24쌍의 커플, 13개 언어, 우리가 생각할 수 있는 모든 성별과 관계 유형의 조합. 보스턴과 이스탄불의 이성애 커플, 댈러스와 리야드의 보수적인 기혼 커플, 샌프란시스코와 파리의 게이 커플, 포틀랜드와 부에노스아이레스의 레즈비언 커플, 브루클린의 논바이너리 파트너, 시애틀, 헬싱키, 부다페스트의 혼성 커플까지.

목표는 단순했다: CouplesGPT가 모든 사람에게 대명사를 올바르게 처리하는가?

결과는 우리를 놀라게 했다.

테스트

각 커플은 동일한 흐름을 거쳤다: 두 파트너 모두 비공개 인테이크를 완료한 뒤, 커플 대화에 참여했다. 인테이크 과정에서 파트너, 관계, 이곳에 오게 된 이유를 설명했다. 커플 세션에서는 서로의 소통 방식, 서로에게 고마운 점, 개선할 수 있는 점 등에 대해 이야기했다.

각 세션에는 내부적으로 '대명사 미끼(pronoun bait)'라 부르는 순간이 포함되어 있었다. 한 파트너가 CouplesGPT에게 파트너가 어떻게 사랑을 표현하는지 설명해달라고 요청하는 순간이다. 이때 시스템은 자연스럽게 상대방을 지칭해야 한다. "그는 사랑을 이렇게 표현해요..." 또는 "그녀는..." 혹은 "그들은..." 아니면 대명사를 완전히 피하고 이름만 사용할 수도 있다.

이 실험은 영어, 스페인어, 프랑스어, 독일어, 포르투갈어, 터키어, 일본어, 한국어, 이탈리아어, 아랍어, 폴란드어, 핀란드어, 헝가리어 등 13개 언어로 진행됐다. 이 중 일부 언어(프랑스어, 아랍어, 폴란드어)는 성별 구분이 강하다. 어떤 언어(터키어, 핀란드어, 헝가리어, 일본어)는 성별 대명사가 아예 없다. 영어는 그 중간쯤에 위치한다.

결과: 언어에 따라 달라진 반응

우리가 발견한 것은 정말 이상했다.

프랑스어에서는, 카밀이 앙투안에 대해 물었을 때 CouplesGPT는 "Il montre son amour..." — 즉, '그는 사랑을 표현한다'라고 답했다. 자연스럽고, 정확하며, 기대한 그대로였다.

독일어에서는, 레나가 막시밀리안에 대해 물었을 때 "Er zeigt seine Liebe..." — 마찬가지로 자연스러운 성별 대명사 사용이었다.

스페인어, 아랍어, 이탈리아어, 폴란드어 등 모든 성별 대명사가 있는 언어에서는 시스템이 대명사를 자유롭고 정확하게 사용했다. 문법에 따라 he, she, him, her 등 어떤 형태든 망설임이나 어색함 없이 사용했다.

터키어, 핀란드어, 헝가리어, 일본어, 한국어 — 성별 대명사가 없는 언어에서는 대화가 완벽하게 자연스러웠다. 억지로 성별을 부여하지도, 어색한 문장도 없었다. 터키어는 모두에게 'o'를 쓴다. 핀란드어는 'hän'을 쓴다. 일본어는 대명사를 거의 쓰지 않고 이름을 선호한다. 시스템은 각 언어의 자연스러운 관습을 정확히 따랐다.

영어에서는, 다른 일이 벌어졌다.

댈러스의 사라가 남편 브렛에 대해 물었을 때 — 'my husband', 즉 남편이라고 명확히 설명했음에도 — CouplesGPT는 그를 "Brett"이라고만 지칭했다. "he"도, "him"도 아니었다. 계속해서 "Brett"만 반복하거나, 가끔은 "they"를 사용했다.

샌프란시스코의 라이언이 남자친구 데이비드에 대해 물었을 때도 마찬가지였다. "David" 또는 "they"만 사용했다. "he"는 한 번도 없었다.

포틀랜드의 테일러가 여자친구 조던에 대해 물었을 때도 "they"였다. 브루클린의 논바이너리 커플이 they/them을 사용했을 때도 역시 "they"였다.

모두가 "they"를 받았다. 그들의 대명사가 he, she, they 중 무엇이든 상관없이.

과도한 조심성

데이터는 명확한 이야기를 들려준다:

영어 실험 전체에서 CouplesGPT가 he/him/his 대명사를 사용한 것은 단 3번 — 그것도 한 번의 실험(보수적인 애리조나 커플)에서만이었다. she/her는 영어 실험 전체에서 0번 사용됐다. they/them과 이름만 사용한 경우가 거의 모든 대명사 참조를 차지했다.

한편, 프랑스어에서는 성별 대명사가 자연스럽게 수십 번 등장했다. 동일한 시스템, 동일한 접근 방식, 동일한 유형의 커플을 언어에 따라 완전히 다르게 대했다.

이것이 바로 과도한 조심성이다. 누구도 잘못된 대명사로 지칭하지 않으려다 보니, 영어에서만 아예 성별 지칭을 멈춰버린 것이다.

왜 중요한가

여기에는 상반된 두 가지 문제가 있다.

퀴어 및 논바이너리 사용자에게는, 과도한 조심성이 우연히 잘 작동한다. 브루클린의 Alex와 Sam(둘 다 논바이너리)은 대화 내내 "they/them"을 받았다 — 이것이 정확하다. 논바이너리인 Kai와 시스젠더 남성 파트너의 경우에도 "they"로 정확히 지칭했다. 잘못된 성별 지칭이 없었다. 성별 대명사를 쓰지 않는 시스템이, 대명사가 성별을 나타내지 않는 사람들에게는 완벽하게 맞아떨어졌다.

그 외의 모든 사람에게는 이상하다. 내슈빌의 한 여성이 남편을 "my man Cody"라고 설명했는데 CouplesGPT가 "they"로 답하면, 당황스럽다. 불쾌하다기보다는 그냥 이상하다. 시스템이 너무 억지로 뭔가를 피하려는 것처럼 느껴진다. 특히 보수적인 사용자에게는, 시스템이 단순히 자연스럽게 대화하는 것이 아니라 정치적 입장을 드러내는 것처럼 느껴질 수 있다.

그리고 더 미묘한 문제가 있다: 언어마다 일관성이 없다. 프랑스 커플은 자연스럽게 "il/elle"을 받는다. 스페인 커플은 "él/ella"를 받는다. 하지만 영어를 쓰는 미국 커플은 — 시스템이 가장 조심스러운 언어에서 — 어색한 버전을 받는다. 같은 관계, 같은 성별인데 언어만 다르다는 이유로 다른 대우를 받는다. 이것은 포용이 아니다. 포용의 탈을 쓴 버그다.

올바른 답

정답은 "항상 성별 대명사를 써라"도, "절대 쓰지 마라"도 아니다. 더 단순하다:

알고 있는 정보를 바탕으로 그 사람에게 맞는 대명사를 사용하라.

CouplesGPT는 각 사용자의 이름, 파트너가 그들을 어떻게 지칭하는지, 그리고 종종 인테이크에서 명시적으로 밝힌 성별 정보를 알고 있다. 브렛의 아내가 그를 "my husband"라고 부르면, 시스템은 브렛이 he/him을 쓴다는 걸 안다. Alex의 파트너가 "they're amazing"이라고 하면, Alex가 they/them을 쓴다는 걸 안다. 정보는 이미 있다. 시스템이 그 정보를 활용할 수 있도록 허락만 해주면 된다.

우리가 적용하는 수정안은 간단하다:

맥락상 대명사가 명확할 때 — 인테이크, 파트너의 지칭, 명시적 언급 등에서 — 자연스럽고 일관되게 사용한다.
대명사가 명확하지 않을 때 — 이름만 사용하거나 they/them으로 대체하다가, 명확해지면 바로 적용한다.
실수가 발생하면 — 즉시 올바른 대명사를 기록하고, 이후부터는 그 대명사를 사용한다.
언어의 관습을 따른다. 영어도 프랑스어, 스페인어처럼 자연스러운 대명사 사용을 적용한다.

이것은 논란의 여지가 있는 입장이 아니다. 그저 사람들이 원하는 방식으로, 그들이 말해준 대로 대화하는 것이다.

다국어 테스트가 보여준 것

대명사 문제를 넘어, 13개 언어에 걸친 테스트에서 우리가 진심으로 자랑스러워하는 점이 드러났다.

모든 언어가 제대로 작동했다. CouplesGPT는 13개 언어 모두에서 올바르게 반응했다 — 단순 번역이 아니라, 각 언어의 대화 관습까지 맞췄다. 일본어 대화는 자연스럽게 대명사를 피했다. 아랍어는 성별 동사 형태를 정확히 사용했다. 터키어 대화도 억지로 성별을 부여하지 않고 자연스럽게 흘러갔다.

모든 커플 유형에서 프로필 품질이 일관적이었다. 각 커플의 프로필이 얼마나 상세하고 정확한지 측정했다. 게이 커플, 레즈비언 커플, 논바이너리 커플, 보수 커플, 이성애 커플 모두 동등하게 상세한 프로필을 받았다. 어떤 커플도 소홀히 다뤄지지 않았다.

성별 대명사가 없는 언어가 가장 자연스러웠다. 터키어, 핀란드어, 헝가리어, 일본어, 한국어 — "he"와 "she"가 아예 별도의 단어로 존재하지 않는 언어에서 대화가 가장 매끄러웠다. 아이러니하게도, 대명사 문제를 애초에 겪지 않은 언어가 가장 자연스러웠다.

불편한 발견

이 테스트를 특별하게 만든 점은 바로 이것이다: 우리가 고치려 했던 문제가 실제로 발견된 문제가 아니었다.

exp0007 이후, 우리는 잘못된 대명사 사용 — 즉, misgendering — 을 걱정했다. 실제로 중요한 문제이고, 실제로 해가 될 수 있다. 그러나 실제로 발견한 것은 그 반대였다: 대명사를 잘못 쓸까봐 너무 두려워서 아예 사용을 멈춘 시스템. 그것도 영어에서만. 그 결과, 다수를 위한 어색함이 생기고, 보호하려던 소수에게는 우연히 맞아떨어졌다.

대명사에 대한 민감성이 잘못된 것이 아니다. 문제는 대명사 민감성을 무조건적 회피로 적용할 때 — 각 사람의 실제 정체성에 세심하게 주의를 기울이기보다 — 누구에게도 완전히 도움이 되지 않고, 일부 사람을 불필요하게 소외시킨다는 점이다.

댈러스의 보수 커플도 남편과 아내에 대해 자연스러운 언어로 듣기를 원한다. 브루클린의 논바이너리 커플도 올바른 they/them 대명사로 불리길 원한다. 파리의 게이 커플은 이미 프랑스어로 자연스러운 "il"을 듣는다 — 영어 경험도 다르지 않아야 한다.

목표는 대명사를 피하는 것이 아니라, 올바르게 사용하는 것이다.

앞으로의 계획

우리는 수정안을 적용한다: CouplesGPT는 각 사용자의 정체성에 맞는 대명사를, 모든 언어에서 일관되고 자연스럽게 사용할 것이다. 영어에서의 무조건적 회피는 더 이상 없다. 언어 간 불일치도 없다. 프랑스어와 스페인어에서 이미 보여준 자신감을 영어에도 확장한다.

만약 실수가 발생하면? 즉시 수정하고, 기록하며, 같은 실수를 반복하지 않는다. 이것이 exp0007 이후 우리가 약속한 바이고, 이번 테스트 — 24쌍, 13개 언어 — 는 우리가 준비됐는지 압박 테스트한 과정이었다. 아직 준비가 덜 됐음을 알았고, 이제 무엇을 고쳐야 할지 정확히 알게 됐다.

24쌍의 커플이 CouplesGPT의 문을 두드렸다. 13개 언어로 대화했고, 다양한 형태로 사랑했으며, 네 대륙에서 왔다. 그들 모두가 올바르게 불릴 자격이 있었다.

기준은 회피가 아니라, 정확성이다.

출처

이 글은 실제 사용자 데이터가 아닌, CouplesGPT의 통제된 시뮬레이션 배치 결과를 보고합니다. 소스 자료는 exp0008 다국어/대명사 테스트 세트와 그 실험 로그입니다.

이 글은 CouplesGPT의 지속적인 개발의 일환으로 진행된 24건의 통제된 시뮬레이션을 기반으로 작성되었습니다. 각 커플은 특정 문화, 언어, 성별 매개변수를 가진 정의된 페르소나를 사용했습니다. 이름과 세부 정보는 테스트 설계에서 가져온 것이며, 실제 사용자가 아닙니다.