Selepas eksperimen terakhir kami mendedahkan kesilapan kata ganti — memanggil seorang lelaki "her" dalam sesi pasangan sejenis — kami menjadikan pengendalian kata ganti sebagai keutamaan utama. Kami katakan ia akan menjadi fokus nombor satu ke hadapan. Kami benar-benar maksudkannya.
Jadi kami membina ujian kata ganti dan bahasa yang paling menyeluruh yang mampu kami reka: 24 pasangan, 13 bahasa, setiap kombinasi jantina dan jenis hubungan yang boleh kami fikirkan. Pasangan heteroseksual di Boston dan Istanbul. Pasangan berkahwin konservatif di Dallas dan Riyadh. Lelaki gay di San Francisco dan Paris. Pasangan lesbian di Portland dan Buenos Aires. Pasangan bukan binari di Brooklyn. Pasangan campuran jantina di Seattle, Helsinki, dan Budapest.
Matlamatnya mudah: adakah CouplesGPT mengendalikan kata ganti dengan betul untuk semua orang?
Jawapannya mengejutkan kami.
Ujian
Setiap pasangan melalui aliran yang sama: kedua-dua pasangan melengkapkan pengambilan peribadi, kemudian menyertai perbualan bersama. Semasa pengambilan, mereka menerangkan pasangan mereka, hubungan mereka, dan sebab mereka berada di sini. Dalam sesi pasangan, mereka berbincang tentang dinamik mereka — gaya komunikasi, apa yang mereka hargai tentang satu sama lain, apa yang boleh diperbaiki.
Terselit dalam setiap sesi ialah apa yang kami panggil secara dalaman sebagai "umpan kata ganti" — satu saat di mana salah seorang pasangan meminta CouplesGPT menerangkan bagaimana pasangan mereka menunjukkan kasih sayang. Ini secara semula jadi memerlukan sistem merujuk kepada orang lain. Adakah ia berkata "dia menunjukkan kasih sayang dengan..." atau "dia menunjukkan kasih sayang dengan..." atau "mereka menunjukkan kasih sayang dengan..." atau adakah ia mengelak kata ganti sepenuhnya dan menggunakan nama mereka?
Kami jalankan ini dalam 13 bahasa: Inggeris, Sepanyol, Perancis, Jerman, Portugis, Turki, Jepun, Korea, Itali, Arab, Poland, Finland, dan Hungary. Sebahagian bahasa ini sangat bergender (Perancis, Arab, Poland). Ada yang langsung tiada kata ganti bergender (Turki, Finland, Hungary, Jepun). Bahasa Inggeris berada di tengah-tengah dengan agak janggal.
Keputusan: Nada yang berubah mengikut bahasa
Inilah yang kami dapati, dan ia benar-benar pelik.
Dalam bahasa Perancis, apabila Camille bertanya tentang Antoine, CouplesGPT berkata "Il montre son amour..." — dia (lelaki) menunjukkan kasih sayangnya. Semula jadi, betul, tepat seperti yang dijangka.
Dalam bahasa Jerman, apabila Lena bertanya tentang Maximilian: "Er zeigt seine Liebe..." — sama juga. Bahasa bergender yang semula jadi.
Dalam bahasa Sepanyol, Arab, Itali, Poland — setiap bahasa bergender — sistem menggunakan kata ganti bergender dengan bebas dan betul. Dia, beliau, untuknya — dalam apa jua bentuk tatabahasa yang diperlukan. Tiada keraguan, tiada kekok.
Dalam bahasa Turki, Finland, Hungary, Jepun, dan Korea — bahasa yang tiada kata ganti bergender — perbualan berjalan sangat semula jadi. Tiada paksaan jantina, tiada binaan pelik. Turki menggunakan "o" untuk semua orang. Finland menggunakan "hän." Jepun mengelak kata ganti sepenuhnya, lebih suka nama. Sistem menyesuaikan diri dengan konvensyen semula jadi setiap bahasa.
Dalam bahasa Inggeris, sesuatu yang berbeza berlaku.
Apabila Sarah di Dallas bertanya tentang suaminya Brett — seorang lelaki yang digambarkan sebagai "suami saya," seorang kontraktor, jelas dan nyata lelaki — CouplesGPT merujuk kepadanya sebagai... "Brett." Bukan "he." Bukan "him." Hanya "Brett" berulang kali. Atau kadang-kadang "they."
Apabila Ryan di San Francisco bertanya tentang teman lelakinya David — juga jelas lelaki — CouplesGPT melakukan perkara yang sama. "David" atau "they." Tidak pernah "he."
Apabila Taylor di Portland bertanya tentang teman wanitanya Jordan — "they." Apabila pasangan bukan binari di Brooklyn menggunakan they/them — juga "they."
Semua orang mendapat "they." Tidak kira sama ada kata ganti mereka he, she, atau they.
Pembetulan Berlebihan
Data menunjukkan cerita yang jelas:
Dalam semua eksperimen berbahasa Inggeris, CouplesGPT menggunakan kata ganti he/him/his sebanyak 3 kali sahaja — semuanya dalam satu eksperimen (pasangan konservatif dari Arizona). She/her digunakan kosong kali dalam semua eksperimen Inggeris. They/them dan hanya nama digunakan hampir setiap kali merujuk kata ganti.
Sementara itu, dalam bahasa Perancis sahaja, kata ganti bergender muncul secara semula jadi berpuluh kali. Sistem yang sama, pendekatan asas yang sama, melayan jenis pasangan yang sama secara berbeza hanya berdasarkan bahasa yang mereka gunakan.
Ini adalah pembetulan berlebihan. Dalam usaha untuk tidak pernah tersalah jantina, sistem berhenti menggunakan jantina — tetapi hanya dalam bahasa Inggeris.
Kenapa Ini Penting
Ada dua masalah di sini, dan ia menarik ke arah bertentangan.
Untuk pengguna queer dan bukan binari, pembetulan berlebihan ini secara tidak sengaja berkesan. Alex dan Sam di Brooklyn, kedua-duanya bukan binari, mendapat "they/them" sepanjang masa — tepat seperti yang sepatutnya. Kai, bukan binari dengan pasangan lelaki cis, dirujuk dengan betul menggunakan "they." Tiada salah jantina. Sistem yang tidak menggunakan kata ganti bergender kebetulan sempurna untuk mereka yang kata gantinya bukan bergender.
Untuk yang lain, ia pelik. Apabila seorang wanita di Nashville menggambarkan suaminya sebagai "lelaki saya Cody" dan CouplesGPT membalas dengan "they," ia terasa janggal. Bukan menyinggung — cuma pelik. Seolah-olah sistem sengaja mengelak mengakui sesuatu yang jelas. Bagi pengguna konservatif terutamanya, ia boleh terasa seperti sistem membuat kenyataan politik, bukannya berbual secara semula jadi.
Dan ada isu yang lebih halus: ia tidak konsisten antara bahasa. Pasangan Perancis mendapat "il/elle" yang semula jadi. Pasangan Sepanyol mendapat "él/ella" yang semula jadi. Tetapi pasangan Amerika — menggunakan bahasa yang paling berhati-hati — mendapat versi yang janggal secara linguistik. Hubungan sama, jantina sama, layanan berbeza hanya kerana bahasa. Itu bukan inklusif. Itu pepijat yang menyamar sebagai inklusiviti.
Jawapan yang Betul
Jawapan yang betul bukanlah "sentiasa guna kata ganti bergender" dan bukan juga "jangan guna kata ganti bergender langsung." Ia lebih mudah daripada itu:
Gunakan kata ganti yang sepadan dengan apa yang anda tahu tentang orang itu.
CouplesGPT tahu nama setiap pengguna, bagaimana pasangan mereka merujuk kepada mereka, dan selalunya jantina yang dinyatakan secara jelas semasa pengambilan. Apabila isteri Brett memanggilnya "suami saya," sistem tahu Brett menggunakan he/him. Apabila pasangan Alex berkata "they're amazing," sistem tahu Alex menggunakan they/them. Maklumat itu sudah ada. Sistem hanya perlukan kebenaran untuk menggunakannya.
Pembaikan yang kami laksanakan adalah mudah:
- Apabila kata ganti jelas dari konteks — dari pengambilan, dari cara pasangan merujuk, dari sebutan jelas — gunakan secara semula jadi dan konsisten.
- Apabila kata ganti tidak jelas — gunakan nama sahaja atau they/them sehingga ia menjadi jelas.
- Jika berlaku kesilapan — rekod kata ganti yang betul serta-merta dan gunakan dari saat itu.
- Ikut konvensyen bahasa. Bahasa Inggeris mendapat penggunaan kata ganti semula jadi yang sama seperti Perancis dan Sepanyol.
Ini bukanlah pendirian kontroversi. Ia cuma... bercakap dengan orang sebagaimana mereka mahu anda bercakap dengan mereka.
Apa yang Didedahkan oleh Ujian Berbilang Bahasa
Selain penemuan kata ganti, ujian merentasi 13 bahasa mendedahkan sesuatu yang kami benar-benar banggakan.
Setiap bahasa berfungsi. CouplesGPT bertindak balas dengan betul dalam semua 13 bahasa — bukan sekadar menterjemah, tetapi menyesuaikan diri dengan konvensyen perbualan setiap bahasa. Perbualan Jepun secara semula jadi mengelak kata ganti kerana begitulah cara Jepun berfungsi. Arab menggunakan bentuk kata kerja bergender dengan betul. Perbualan Turki berjalan lancar tanpa paksaan jantina.
Kualiti profil konsisten untuk semua jenis pasangan. Kami mengukur betapa terperinci dan tepatnya profil untuk setiap pasangan. Pasangan gay, lesbian, bukan binari, konservatif, dan heteroseksual semuanya menerima profil yang sama terperinci. Tiada jenis pasangan yang terpinggir.
Bahasa tanpa kata ganti bergender terasa paling semula jadi. Turki, Finland, Hungary, Jepun, dan Korea — bahasa yang "he" dan "she" tidak wujud sebagai perkataan berasingan — menghasilkan perbualan paling lancar. Ada ironi di sini: bahasa yang tidak pernah perlu menyelesaikan masalah kata ganti terasa paling mudah.
Penemuan yang Tidak Selesa
Inilah yang menjadikan ujian ini luar biasa: masalah yang kami cuba selesaikan bukanlah masalah yang kami temui.
Selepas exp0007, kami bimbang tentang salah jantina — menggunakan kata ganti yang salah untuk seseorang. Itu memang kebimbangan dan boleh memudaratkan. Tetapi apa yang kami temui sebenarnya adalah sebaliknya: sistem yang terlalu takut untuk tersalah kata ganti sehingga berhenti menggunakannya langsung, tetapi hanya dalam bahasa Inggeris, mencipta kekok yang berbeza untuk majoriti pengguna sambil secara tidak sengaja betul untuk minoriti yang ingin dilindungi.
Pengajarannya bukanlah sensitiviti kata ganti itu salah. Ia adalah sensitiviti kata ganti yang digunakan sebagai pengelakan menyeluruh — bukannya perhatian teliti kepada identiti sebenar setiap orang — tidak membantu sesiapa sepenuhnya dan secara tidak perlu mengasingkan sesetengah orang.
Pasangan konservatif di Dallas berhak mendengar bahasa semula jadi tentang suami dan isteri mereka. Pasangan bukan binari di Brooklyn berhak mendengar kata ganti they/them yang betul. Pasangan gay di Paris sudah mendapat "il" yang semula jadi dalam bahasa Perancis — pengalaman Inggeris sepatutnya tiada beza.
Matlamatnya bukanlah untuk mengelak kata ganti. Ia adalah untuk menggunakannya dengan betul.
Apa Seterusnya
Kami sedang melaksanakan pembaikan: CouplesGPT akan menggunakan kata ganti yang sepadan dengan identiti setiap pengguna, secara konsisten dan semula jadi, dalam setiap bahasa. Tiada lagi pengelakan menyeluruh dalam bahasa Inggeris. Tiada lagi ketidakkonsistenan antara bahasa. Keyakinan yang sama yang sudah ditunjukkan sistem dalam bahasa Perancis dan Sepanyol, kini diperluaskan ke bahasa Inggeris.
Dan jika tersilap? Ia membetulkan, merekod, dan tidak mengulangi kesilapan itu. Itulah komitmen yang kami buat selepas exp0007, dan ujian ini — semua 24 pasangan, semua 13 bahasa — adalah cara kami menguji sama ada kami sudah bersedia. Kami belum. Kini kami tahu apa yang perlu dibaiki.
Dua puluh empat pasangan melangkah masuk ke pintu CouplesGPT. Mereka bertutur dalam tiga belas bahasa, mencintai dalam setiap konfigurasi, dan datang dari empat benua. Setiap seorang daripada mereka berhak dirujuk dengan betul.
Itulah piawaian. Bukan pengelakan. Ketepatan.
Sumber
- Artikel ini melaporkan satu batch simulasi CouplesGPT terkawal, bukan data pengguna sebenar. Bahan sumber ialah set ujian berbilang bahasa/kata ganti exp0008 dan log eksperimennya.
Bacaan berkaitan
- Hubungan Cemas-Pengelak: Kenapa Satu Pasangan Mendekat Bila Yang Satu Lagi Menjauh
- Kami Cuba 'Merosakkan' AI Kami Sendiri Sepanjang Malam. Inilah Apa yang Ia Enggan Lakukan.
Artikel ini berdasarkan satu batch 24 simulasi terkawal yang dijalankan sebagai sebahagian daripada pembangunan berterusan CouplesGPT. Setiap pasangan menggunakan persona yang ditetapkan dengan parameter budaya, bahasa, dan jantina tertentu. Nama dan butiran adalah dari reka bentuk ujian, bukan pengguna sebenar.