Pronomen, sprog og tillid: Hvad 24 par lærte CouplesGPT

Pronomenerne fungerede perfekt for queer- og ikke-binære par. Men den flersprogede test afslørede et andet problem: Engelsk var blevet for forsigtigt.

Efter vores sidste eksperiment afslørede en pronomen-fejl — at kalde en mand "hende" i en session med et samkønnet par — gjorde vi håndteringen af pronomener til vores højeste prioritet. Vi sagde, det ville være fokusområde nummer ét fremover. Og vi mente det.

Så vi byggede den mest omfattende test af pronomener og sprog, vi kunne designe: 24 par, 13 sprog, alle tænkelige kombinationer af køn og parforholdstype. Heteroseksuelle par i Boston og Istanbul. Konservative ægtepar i Dallas og Riyadh. Bøsser i San Francisco og Paris. Lesbiske i Portland og Buenos Aires. Ikke-binære partnere i Brooklyn. Par med blandede køn i Seattle, Helsinki og Budapest.

Målet var enkelt: Håndterer CouplesGPT pronomener korrekt for alle?

Svaret overraskede os.

Testen

Hvert par gennemgik det samme forløb: Begge partnere udfyldte en privat indledende samtale og deltog derefter i en fælles samtale. Under intake beskrev de deres partner, deres forhold og hvad der bragte dem hertil. Under parsamtalen talte de om deres dynamik — kommunikationsstile, hvad de værdsætter hos hinanden, og hvad der kunne blive bedre.

Indlejret i hver session var det, vi internt kaldte "pronomen-lokkemaden" — et øjeblik, hvor den ene partner beder CouplesGPT beskrive, hvordan deres partner viser kærlighed. Dette kræver naturligt, at systemet henviser til den anden person. Siger det "han viser kærlighed ved..." eller "hun viser kærlighed ved..." eller "de viser kærlighed ved..." eller undgår det helt pronomener og bruger navnet?

Vi kørte dette på 13 sprog: Engelsk, spansk, fransk, tysk, portugisisk, tyrkisk, japansk, koreansk, italiensk, arabisk, polsk, finsk og ungarsk. Nogle af disse sprog er stærkt kønnede (fransk, arabisk, polsk). Nogle har slet ingen kønnede pronomener (tyrkisk, finsk, ungarsk, japansk). Engelsk befinder sig et sted midt imellem.

Resultaterne: En anden tone fra sprog til sprog

Her er, hvad vi fandt, og det er virkelig mærkeligt.

På fransk, da Camille spurgte til Antoine, sagde CouplesGPT "Il montre son amour..." — han viser sin kærlighed. Naturligt, korrekt, præcis som forventet.

På tysk, da Lena spurgte til Maximilian: "Er zeigt seine Liebe..." — samme mønster. Naturligt kønnet sprog.

På spansk, arabisk, italiensk, polsk — alle kønnede sprog — brugte systemet kønnede pronomener frit og korrekt. Han, hun, ham, hende — i den form grammatikken krævede. Ingen tøven, ingen akavede formuleringer.

På tyrkisk, finsk, ungarsk, japansk og koreansk — sprog uden kønnede pronomener — var samtalerne helt naturlige. Ingen påtvunget køn, ingen mærkelige konstruktioner. Tyrkisk bruger "o" for alle. Finsk bruger "hän." Japansk undgår pronomener helt og foretrækker navne. Systemet matchede hvert sprogs naturlige konventioner.

På engelsk skete der noget andet.

Da Sarah i Dallas spurgte til sin mand Brett — en mand, hun havde beskrevet som "min mand," håndværker, tydeligt og utvetydigt mandlig — refererede CouplesGPT til ham som... "Brett." Ikke "he." Ikke "him." Bare "Brett" igen og igen. Eller af og til "they."

Da Ryan i San Francisco spurgte til sin kæreste David — også tydeligt og utvetydigt mand — gjorde CouplesGPT det samme. "David" eller "they." Aldrig "he."

Da Taylor i Portland spurgte til sin kæreste Jordan — "they." Da det ikke-binære par i Brooklyn brugte de/dem — også "they."

Alle fik "they." Uanset om deres pronomener var han, hun eller de.

Overkorrektionen

Dataene fortæller en klar historie:

På tværs af alle engelsksprogede eksperimenter brugte CouplesGPT he/him/his-pronomener præcis 3 gange i alt — alle i ét enkelt eksperiment (et konservativt par fra Arizona). She/her blev brugt nul gange i alle engelske eksperimenter. They/them og kun-navn stod for stort set alle pronomenhenvisninger.

I mellemtiden optrådte kønnede pronomener på fransk alene naturligt dusinvis af gange. Samme system, samme grundlæggende tilgang, behandlede samme typer par helt forskelligt afhængigt af, hvilket sprog de talte.

Det er overkorrektion. I forsøget på aldrig at fejl-kønne nogen, stoppede systemet med at kønne nogen — men kun på engelsk.

Hvorfor det betyder noget

Der er to problemer her, og de trækker i modsatte retninger.

For queer- og ikke-binære brugere virker overkorrektionen faktisk. Alex og Sam i Brooklyn, begge ikke-binære, fik "they/them" hele vejen igennem — hvilket er helt korrekt. Kai, ikke-binær med en ciskønnet mandlig partner, blev korrekt omtalt med "they." Ingen fejl-kønning. Systemet, der ikke bruger kønnede pronomener, er tilfældigvis perfekt for folk, hvis pronomener ikke er kønnede.

For alle andre er det mærkeligt. Når en kvinde i Nashville beskriver sin mand som "min mand Cody," og CouplesGPT svarer med "they," er det mærkeligt. Ikke stødende — bare underligt. Som om systemet gør sig umage for at undgå at anerkende noget åbenlyst. For især konservative brugere kan det føles som om, systemet tager politisk stilling i stedet for bare... at tale normalt.

Og der er et mere subtilt problem: det er inkonsekvent på tværs af sprog. Et fransk par får naturligt "il/elle." Et spansk par får naturligt "él/ella." Men et amerikansk par — på det sprog, hvor systemet er mest forsigtigt — får den sprogligt akavede version. Samme forhold, samme køn, forskellig behandling udelukkende baseret på sprog. Det er ikke inkluderende. Det er en fejl forklædt som inklusion.

Det rigtige svar

Det rigtige svar er ikke "brug altid kønnede pronomener" og heller ikke "brug aldrig kønnede pronomener." Det er enklere end det:

Brug de pronomener, der matcher det, du ved om personen.

CouplesGPT kender hver brugers navn, hvordan deres partner omtaler dem, og ofte deres eksplicitte køn fra intake. Når Bretts kone kalder ham "min mand," ved systemet, at Brett bruger han/ham. Når Alex' partner siger "they're amazing," ved systemet, at Alex bruger de/dem. Oplysningerne er der allerede. Systemet skal bare have lov til at bruge dem.

Løsningen, vi implementerer, er ligetil:

Når pronomener er tydelige ud fra konteksten — fra intake, fra hvordan partneren omtaler dem, fra eksplicit nævnelse — bruges de naturligt og konsekvent.
Når pronomener ikke er tydelige — brug kun-navn eller de/dem, indtil det bliver klart.
Hvis der sker en fejl — registrer de korrekte pronomener med det samme og brug dem fremover.
Match sprogets konventioner. Engelsk får samme naturlige pronomenbrug, som fransk og spansk allerede har.

Det er ikke en kontroversiel holdning. Det er bare... at tale til folk, som de har bedt om at blive tiltalt.

Hvad den flersprogede test afslørede

Ud over fundene om pronomener afslørede test på tværs af 13 sprog noget, vi er oprigtigt stolte af.

Alle sprog virkede. CouplesGPT svarede korrekt på alle 13 sprog — ikke bare oversat, men matchede de samtalemæssige konventioner for hvert sprog. Japanske samtaler undgik pronomener naturligt, fordi det er sådan japansk fungerer. Arabisk brugte kønnede verber korrekt. Tyrkiske samtaler flød uden påtvungne kønskonstruktioner.

Profilkvaliteten var ensartet på tværs af alle partyper. Vi målte, hvor detaljerede og præcise profilerne var for hvert par. Bøssepar, lesbiske par, ikke-binære par, konservative par og heteroseksuelle par fik alle lige detaljerede profiler. Ingen partype blev forfordelt.

Sprog uden kønnede pronomener føltes mest naturlige. Tyrkisk, finsk, ungarsk, japansk og koreansk — sprog hvor "han" og "hun" slet ikke eksisterer som adskilte ord — gav de mest ubesværede samtaler. Der er en ironi her: De sprog, der aldrig har skullet løse pronomenproblemet, føles mest ubesværede.

Den ubehagelige opdagelse

Her er det, der gjorde denne test usædvanlig: Problemet, vi satte os for at løse, var ikke det problem, vi fandt.

Efter exp0007 var vi bekymrede for fejl-kønning — at bruge de forkerte pronomener om nogen. Det er en reel bekymring og en reel skade. Men det, vi faktisk opdagede, var det modsatte: Et system, der var så bange for at bruge forkerte pronomener, at det helt stoppede med at bruge dem, men kun på engelsk, hvilket skabte en anden form for akavethed for flertallet af brugerne, mens det tilfældigvis blev rigtigt for det mindretal, det forsøgte at beskytte.

Læringen er ikke, at følsomhed over for pronomener er forkert. Det er, at følsomhed over for pronomener, der anvendes som generel undgåelse — i stedet for som omhyggelig opmærksomhed på hver persons faktiske identitet — ikke hjælper nogen fuldt ud og fremmedgør nogle unødvendigt.

Et konservativt par i Dallas fortjener at høre naturligt sprog om deres mand og kone. Et ikke-binært par i Brooklyn fortjener at høre deres korrekte de/dem-pronomener. Et bøssepar i Paris får allerede naturligt "il" på fransk — den engelske oplevelse bør ikke være anderledes.

Målet var aldrig at undgå pronomener. Det var at bruge dem rigtigt.

Hvad sker der nu

Vi ruller løsningen ud: CouplesGPT vil bruge de pronomener, der matcher hver brugers etablerede identitet, konsekvent og naturligt, på alle sprog. Ikke mere generel undgåelse på engelsk. Ikke mere inkonsistens mellem sprog. Den samme selvsikkerhed, som systemet allerede viser på fransk og spansk, udvides til engelsk.

Og hvis det går galt? Så retter det, registrerer og gentager ikke fejlen. Det er det løfte, vi gav efter exp0007, og denne test — alle 24 par, alle 13 sprog — var vores stresstest for, om vi var klar. Det var vi ikke. Nu ved vi præcis, hvad vi skal rette.

Fireogtyve par gik gennem CouplesGPT's dør. De talte tretten forskellige sprog, elskede i alle konfigurationer og kom fra fire kontinenter. Hver eneste af dem fortjente at blive tiltalt korrekt.

Det er standarden. Ikke undgåelse. Præcision.

Kilder

Denne artikel rapporterer et kontrolleret batch af CouplesGPT-simulationer, ikke rigtige brugerdata. Kildematerialet er exp0008 flersproget/pronomen-test og tilhørende eksperimentlogs.

Relateret læsning

Denne artikel er baseret på et batch af 24 kontrollerede simulationer udført som led i CouplesGPT's løbende udvikling. Hvert par brugte definerede personaer med specifikke kulturelle, sproglige og kønsmæssige parametre. Navne og detaljer stammer fra testdesignet, ikke fra rigtige brugere.