Setelah eksperimen terakhir kami mengungkapkan kesalahan pronomina — menyebut seorang pria "her" dalam sesi pasangan sesama jenis — kami menjadikan penanganan pronomina sebagai prioritas utama. Kami bilang ini akan menjadi fokus nomor satu ke depan. Dan kami benar-benar serius.

Jadi kami membangun uji pronomina dan bahasa paling komprehensif yang bisa kami rancang: 24 pasangan, 13 bahasa, setiap kombinasi gender dan tipe hubungan yang bisa kami pikirkan. Pasangan hetero di Boston dan Istanbul. Pasangan menikah konservatif di Dallas dan Riyadh. Pasangan gay di San Francisco dan Paris. Pasangan lesbian di Portland dan Buenos Aires. Pasangan non-biner di Brooklyn. Pasangan campuran gender di Seattle, Helsinki, dan Budapest.

Tujuannya sederhana: apakah CouplesGPT menangani pronomina dengan benar untuk semua orang?

Jawabannya mengejutkan kami.

Uji Coba

Setiap pasangan menjalani alur yang sama: kedua pasangan mengisi intake pribadi, lalu bergabung dalam percakapan berdua. Saat intake, mereka mendeskripsikan pasangan, hubungan mereka, dan alasan mereka datang. Dalam sesi pasangan, mereka membahas dinamika mereka — gaya komunikasi, apa yang mereka hargai dari satu sama lain, apa yang bisa diperbaiki.

Di setiap sesi, kami menyisipkan apa yang secara internal kami sebut "umpan pronomina" — momen di mana salah satu pasangan meminta CouplesGPT mendeskripsikan bagaimana pasangannya menunjukkan cinta. Ini secara alami mengharuskan sistem merujuk pada orang lain. Apakah ia berkata "he shows love by..." atau "she shows love by..." atau "they show love by..." atau justru menghindari pronomina sama sekali dan hanya menggunakan nama?

Kami menjalankan ini dalam 13 bahasa: Inggris, Spanyol, Prancis, Jerman, Portugis, Turki, Jepang, Korea, Italia, Arab, Polandia, Finlandia, dan Hungaria. Beberapa bahasa sangat bergender (Prancis, Arab, Polandia). Beberapa sama sekali tidak punya pronomina gender (Turki, Finlandia, Hungaria, Jepang). Bahasa Inggris berada di posisi tengah yang canggung.

Hasil: Sikap yang berubah menurut bahasa

Inilah yang kami temukan, dan hasilnya benar-benar aneh.

Dalam bahasa Prancis, ketika Camille bertanya tentang Antoine, CouplesGPT berkata "Il montre son amour..." — dia (laki-laki) menunjukkan cintanya. Alami, benar, persis seperti yang diharapkan.

Dalam bahasa Jerman, ketika Lena bertanya tentang Maximilian: "Er zeigt seine Liebe..." — sama saja. Bahasa gender yang alami.

Dalam bahasa Spanyol, Arab, Italia, Polandia — semua bahasa bergender — sistem menggunakan pronomina gender dengan bebas dan benar. He, she, him, her — sesuai kebutuhan tata bahasa. Tanpa ragu, tanpa kejanggalan.

Dalam bahasa Turki, Finlandia, Hungaria, Jepang, dan Korea — bahasa yang tidak punya pronomina gender — percakapan berlangsung sangat alami. Tidak ada pemaksaan gender, tidak ada konstruksi aneh. Turki menggunakan "o" untuk semua orang. Finlandia menggunakan "hän." Bahasa Jepang menghindari pronomina sama sekali, lebih suka menggunakan nama. Sistem menyesuaikan dengan kebiasaan alami tiap bahasa.

Dalam bahasa Inggris, terjadi sesuatu yang berbeda.

Ketika Sarah di Dallas bertanya tentang suaminya Brett — pria yang ia sebut "my husband," seorang kontraktor, jelas dan tegas laki-laki — CouplesGPT menyebutnya... "Brett." Bukan "he." Bukan "him." Hanya "Brett" berulang kali. Atau kadang-kadang "they."

Ketika Ryan di San Francisco bertanya tentang pacarnya David — juga jelas laki-laki — CouplesGPT melakukan hal yang sama. "David" atau "they." Tidak pernah "he."

Ketika Taylor di Portland bertanya tentang pacarnya Jordan — "they." Ketika pasangan non-biner di Brooklyn menggunakan they/them — juga "they."

Semua orang mendapat "they." Tidak peduli apakah pronomina mereka he, she, atau they.

Koreksi Berlebihan

Data menunjukkan cerita yang jelas:

Di seluruh eksperimen berbahasa Inggris, CouplesGPT menggunakan pronomina he/him/his tepat 3 kali — semuanya dalam satu eksperimen (pasangan konservatif di Arizona). She/her digunakan nol kali di seluruh eksperimen bahasa Inggris. They/them dan hanya nama mendominasi hampir semua referensi pronomina.

Sementara itu, dalam bahasa Prancis saja, pronomina gender muncul secara alami puluhan kali. Sistem yang sama, pendekatan yang sama, memperlakukan tipe pasangan yang sama secara sangat berbeda hanya berdasarkan bahasa yang mereka gunakan.

Ini adalah koreksi berlebihan. Dalam upaya untuk tidak pernah salah gender, sistem berhenti menggunakan gender sama sekali — tapi hanya dalam bahasa Inggris.

Kenapa Ini Penting

Ada dua masalah di sini, dan keduanya bertolak belakang.

Untuk pengguna queer dan non-biner, koreksi berlebihan ini justru berhasil. Alex dan Sam di Brooklyn, keduanya non-biner, mendapat "they/them" sepanjang percakapan — dan itu memang benar. Kai, non-biner dengan pasangan laki-laki cis, juga dirujuk dengan "they." Tidak ada salah gender. Sistem yang enggan menggunakan pronomina gender ternyata sempurna untuk orang yang memang tidak menggunakan pronomina gender.

Untuk yang lain, ini terasa aneh. Ketika seorang wanita di Nashville menyebut suaminya "my man Cody" dan CouplesGPT membalas dengan "they," itu terasa janggal. Bukan menyinggung — hanya aneh. Seolah sistem sengaja menghindari sesuatu yang jelas. Bagi pengguna konservatif, ini bisa terasa seperti pernyataan politik, bukan sekadar... berbicara secara alami.

Dan ada isu yang lebih halus: ini tidak konsisten antar bahasa. Pasangan Prancis mendapat "il/elle" yang alami. Pasangan Spanyol mendapat "él/ella" yang alami. Tapi pasangan Amerika — berbicara dalam bahasa yang paling hati-hati — mendapat versi yang canggung secara linguistik. Hubungan sama, gender sama, perlakuan berbeda hanya karena bahasa. Itu bukan inklusif. Itu bug yang menyamar sebagai inklusivitas.

Jawaban yang Tepat

Jawaban yang tepat bukanlah "selalu gunakan pronomina gender" dan bukan pula "jangan pernah gunakan pronomina gender." Lebih sederhana dari itu:

Gunakan pronomina yang sesuai dengan informasi yang diketahui tentang orang tersebut.

CouplesGPT tahu nama setiap pengguna, bagaimana pasangan mereka menyebut mereka, dan sering kali gender yang disebutkan secara eksplisit saat intake. Ketika istri Brett menyebutnya "my husband," sistem tahu Brett menggunakan he/him. Ketika pasangan Alex berkata "they're amazing," sistem tahu Alex menggunakan they/them. Informasinya sudah ada. Sistem hanya perlu izin untuk menggunakannya.

Perbaikan yang kami lakukan sangat jelas:

  1. Jika pronomina jelas dari konteks — dari intake, dari cara pasangan menyebut, dari penyebutan eksplisit — gunakan secara alami dan konsisten.
  2. Jika pronomina tidak jelas — gunakan nama saja atau they/them sampai jelas.
  3. Jika terjadi kesalahan — catat pronomina yang benar segera dan gunakan selanjutnya.
  4. Ikuti kebiasaan bahasa. Bahasa Inggris mendapat penggunaan pronomina alami yang sama seperti Prancis dan Spanyol.

Ini bukan posisi kontroversial. Ini hanya... berbicara kepada orang seperti yang mereka inginkan.

Apa yang Diungkap Uji Multibahasa

Selain temuan soal pronomina, pengujian di 13 bahasa mengungkap sesuatu yang benar-benar kami banggakan.

Semua bahasa berjalan lancar. CouplesGPT merespons dengan benar di semua 13 bahasa — bukan sekadar menerjemahkan, tapi menyesuaikan dengan kebiasaan percakapan tiap bahasa. Percakapan Jepang menghindari pronomina karena memang begitu cara kerja bahasa Jepang. Bahasa Arab menggunakan bentuk kata kerja gender dengan benar. Percakapan Turki mengalir tanpa konstruksi gender yang dipaksakan.

Kualitas profil konsisten di semua tipe pasangan. Kami mengukur seberapa detail dan akurat profil untuk tiap pasangan. Pasangan gay, lesbian, non-biner, konservatif, dan hetero semuanya mendapat profil yang sama detailnya. Tidak ada tipe pasangan yang dirugikan.

Bahasa tanpa pronomina gender terasa paling alami. Turki, Finlandia, Hungaria, Jepang, dan Korea — bahasa yang "he" dan "she" tidak ada sebagai kata terpisah — menghasilkan percakapan paling mulus. Ada ironi di sini: bahasa yang tidak pernah punya masalah pronomina justru terasa paling mudah.

Temuan yang Tidak Nyaman

Inilah yang membuat uji ini unik: masalah yang ingin kami perbaiki ternyata bukan masalah utama yang kami temukan.

Setelah exp0007, kami khawatir soal salah gender — menggunakan pronomina yang salah untuk seseorang. Itu kekhawatiran nyata dan bisa berdampak. Tapi yang kami temukan justru sebaliknya: sistem yang begitu takut salah pronomina sampai berhenti menggunakannya sama sekali, tapi hanya dalam bahasa Inggris, menciptakan kejanggalan baru bagi mayoritas pengguna, sementara secara tidak sengaja benar untuk minoritas yang ingin dilindungi.

Pelajarannya bukan bahwa sensitivitas pronomina itu salah. Tapi sensitivitas pronomina yang diterapkan sebagai penghindaran total — bukan perhatian pada identitas tiap orang — tidak sepenuhnya membantu siapa pun dan justru membuat sebagian orang merasa asing tanpa perlu.

Pasangan konservatif di Dallas berhak mendengar bahasa alami tentang suami dan istri mereka. Pasangan non-biner di Brooklyn berhak mendengar pronomina they/them yang benar. Pasangan gay di Paris sudah mendapat "il" yang alami dalam bahasa Prancis — pengalaman bahasa Inggris seharusnya tidak berbeda.

Tujuannya bukan menghindari pronomina. Tapi menggunakannya dengan benar.

Apa Selanjutnya

Kami sedang meluncurkan perbaikan: CouplesGPT akan menggunakan pronomina yang sesuai dengan identitas tiap pengguna, secara konsisten dan alami, di setiap bahasa. Tidak ada lagi penghindaran total di bahasa Inggris. Tidak ada lagi inkonsistensi antar bahasa. Keyakinan yang sudah ada di Prancis dan Spanyol, kini diperluas ke bahasa Inggris.

Dan jika salah? Sistem akan mengoreksi, mencatat, dan tidak mengulang kesalahan. Itu komitmen kami setelah exp0007, dan uji ini — 24 pasangan, 13 bahasa — adalah cara kami menguji kesiapan. Ternyata belum siap. Sekarang kami tahu persis apa yang harus diperbaiki.

Dua puluh empat pasangan melewati pintu CouplesGPT. Mereka berbicara dalam tiga belas bahasa, mencintai dalam segala konfigurasi, dan berasal dari empat benua. Setiap dari mereka berhak dipanggil dengan benar.

Itulah standarnya. Bukan penghindaran. Akurasi.

Sumber

  • Artikel ini melaporkan batch simulasi CouplesGPT yang terkontrol, bukan data pengguna nyata. Materi sumber adalah set uji multibahasa/pronomina exp0008 dan log eksperimennya.

Bacaan terkait


Artikel ini didasarkan pada batch 24 simulasi terkontrol yang dilakukan sebagai bagian dari pengembangan CouplesGPT. Setiap pasangan menggunakan persona yang ditentukan dengan parameter budaya, bahasa, dan gender spesifik. Nama dan detail berasal dari desain uji, bukan pengguna nyata.