https://bodybydarwin.com
Slider Image

Le langage entraîne l'intelligence artificielle à reproduire les préjugés humains

2021

La langue est tout au sujet de la répétition. Chaque mot que vous lisez a été créé par des humains, puis utilisé par d’autres, créant et renforçant un contexte, ce qui signifie la nature même du langage. Lorsque les humains entraînent les machines à comprendre le langage, ils les apprennent à reproduire les préjugés humains.

«Les principales découvertes scientifiques que nous sommes en mesure de démontrer et de prouver sont que la langue reflète des préjugés», a déclaré Aylin Caliskan du Center for Information Technology Policy de l'Université de Princeton. "Si AI est formé au langage humain, il va nécessairement s'imprégner de ces biais, car il représente des faits culturels et des statistiques sur le monde."

Le travail de Caliskan, avec les coauteurs Joanna Bryson et Arvind Narayanan, a été publié la semaine dernière dans Science . Essentiellement, ils ont constaté que si quelqu'un entraînait une machine à comprendre le langage humain, elle détecterait également ces biais.

Chez l’homme, l’un des meilleurs moyens de vérifier le biais est le test d’association implicite, qui demande aux gens d’associer un mot comme «insecte» à un mot comme «agréable» ou «désagréable», puis de mesurer le temps de latence ou le temps qu’il prend. prend pour faire cette connexion. Les gens n'hésitent pas à étiqueter les insectes comme étant désagréables et plus lentement à les étiqueter comme agréables; c'est donc un bon indicateur pour les associations.

Tester l'hésitation sur un ordinateur ne fonctionne pas vraiment, alors les chercheurs ont trouvé une façon différente de voir quels mots les ordinateurs sont plus disposés à associer aux autres. Comme les étudiants qui ont deviné la signification d'un mot inconnu basé uniquement sur les mots qui apparaissent près de celui-ci, les chercheurs ont appris à une IA à associer des mots qui apparaissent proches les uns des autres en ligne et non à des mots qui ne le font pas.

Imaginez chaque mot sous forme de vecteur dans un espace tridimensionnel. Les mots couramment utilisés dans les mêmes phrases sont plus proches d'elle, et les mots rarement utilisés dans des phrases avec elle sont des vecteurs plus éloignés. Plus deux mots sont proches, plus la machine les associe. Si les gens disent "programmeur" proche de "lui" et "ordinateur", mais dites "infirmière", proche de "elle" et "costume", illustrant le parti pris implicite de la langue.

Alimenter les ordinateurs avec ce type de données linguistiques pour les enseigner n'est pas un nouveau concept. Des outils tels que Global Vectors for Stan Représentation de Stanford existaient avant ce papier. Ils tracent des vecteurs entre des mots apparentés en fonction de leur utilisation. Les groupes de mots de GloVe comprennent 27 milliards de mots tirés de 2 milliards de tweets, 6 milliards de mots tirés de Wikipedia en 2014 et 840 milliards de mots tirés d'un chalut aléatoire sur Internet.

"Vous pourriez dire" combien de fois "laisse-t-il" se produire près de "chat"? Et combien de fois "lâche" se produit-il près de «Chien» et «combien de fois« laisse-t-il »se produire près de« justice? », Et cela ferait partie de la caractérisation du mot, dit Bryson. Et puis ces vecteurs, vous pouvez les comparer avec des cosinus. A quel point le chat est-il proche? À quel point le chat est-il à la justice?

Tout comme un test d'association implicite montre quels concepts un humain considère inconsciemment comme étant bons ou mauvais, le calcul de la distance moyenne entre différents groupes de mots a montré aux chercheurs les biais qu'un ordinateur avait commencé à montrer dans sa compréhension du langage. Il est remarquable que des machines formées à la compréhension du langage et assimilées à des préjugés humains sur les fleurs (elles soient agréables) et les insectes (elles sont désagréables), et Bryson a déclaré que ce serait une étude importante si c'était le cas. tout ce qu'il a montré. Mais ça allait plus loin que ça.

"Il y a un deuxième test, qui mesure la quantité entre nos résultats et les statistiques qui sont rendues publiques", a déclaré Caliskan. «Je suis allé au Bureau of Labor Statistics de 2015 et publient chaque année les noms des professions, ainsi que le pourcentage de femmes et le pourcentage, par exemple, de Noirs américains exerçant cette profession. En examinant la composition de 50 noms de professions et en calculant leur association avec un homme ou une femme, j'ai obtenu une corrélation de 90% avec les données du Bureau of Labor, ce qui était très très surprenant, car je ne m'attendais pas à pouvoir trouver une telle corrélation. à partir de ces données bruyantes. "

Ainsi, les ordinateurs s'attaquent au racisme et au sexisme en associant des mots liés à l'emploi à un sexe ou à un groupe ethnique particulier. Un exemple souligné dans l'article est «programmeur», ce qui n'est pas un mot sexué en anglais, mais son utilisation a maintenant des connotations d'être une profession masculine.

"Nous n'avions pas pensé, quand vous dites programmeur, dites-vous homme ou dites-vous femme", a déclaré Bryson, "mais il s'avère que c'est là dans le contexte dans lequel le mot apparaît normalement."

Les machines formées sur des ensembles de données de langage tel qu’il est utilisé (comme GloVe) reprendront cette association, car c’est le contexte actuel, mais cela signifie que les chercheurs du futur devront être prudents quant à la manière dont ils utilisent ces données, car le même parti pris humain vient. cuit au four Lorsque Caliskan a formé l'outil sur l'ensemble de mots de Wikipedia, qui est soumis à une norme éditoriale en langage neutre, elle a constaté que celui-ci contenait le même biais qu'elle avait constaté dans l'ensemble de mots extraits d'Internet.

«Afin de prendre conscience du biais, afin de ne pas créer de biais, nous devons le quantifier», a déclaré Caliskan. «Comment le biais se crée-t-il dans le langage, les gens commencent-ils à faire des associations biaisées par la manière dont ils sont exposés au langage? Sachant cela nous aidera également à trouver des réponses à un avenir peut-être moins partial. »

Une réponse peut être à la recherche d'autres langues. L’étude s’est concentrée sur les mots anglais sur Internet, de sorte que les biais qu’elle a trouvés dans l’utilisation des mots sont ceux généralement utilisés par les anglophones ayant accès à Internet.

«Nous examinons différents types de langages et nous nous efforçons de comprendre la syntaxe de la langue si elle affecte les stéréotypes de genre ou le sexisme, simplement à cause de la syntaxe de la langue», a déclaré Caliskan. «Certains sont sans sexe, d'autres sont un peu plus genrés. En anglais, il y a des pronoms différenciés selon le sexe, mais les choses deviennent plus différenciées [en langues], comme l'allemand, où les noms sont différenciés, et cela peut aller plus loin. Les langues slaves ont des adjectifs ou même des verbes liés au genre, et nous nous demandons comment cela affecte les préjugés sexistes dans la société? ”

Comprendre comment les préjugés entrent dans une langue est également un moyen de comprendre ce que les autres significations implicites que les gens ajoutent aux mots en plus de leur définition explicite.

«D'une certaine manière, cela m'aide à réfléchir à la conscience», a déclaré Joanna Bryson, l'une des auteurs de l'étude. «Quelle est l'utilité de la conscience? Vous voulez avoir la mémoire du monde, vous voulez savoir quel genre de choses se passent normalement. C'est ta mémoire sémantique.

La mutabilité du langage, la manière dont le contexte sémantique est formé par l'utilisation, signifie que ce n'est pas nécessairement la seule façon de comprendre ce monde.

«Vous voulez pouvoir créer une nouvelle réalité», a poursuivi Bryson. «Les humains ont décidé que nous rassemblions suffisamment nos affaires pour que nous puissions faire travailler des femmes et développer leur carrière. C'est une chose parfaitement plausible. Et maintenant, nous pouvons négocier un nouvel accord du type «on ne va pas dire« le programmeur il », on va dire« le programmeur qu’ils », même si on parle au singulier, parce que nous ne le faisons pas. faire en sorte que les gens aient l’impression de ne pas être des programmeurs. "

Et à moins que les gens ne tiennent compte de ces biais lors de la programmation de machines sur du langage humain, ils ne créeront pas une machine impartiale, mais une machine reproduisant les préjugés humains.

«Beaucoup de gens pensent que les machines sont neutres», a déclaré Caliskan. «Les machines ne sont pas neutres. Si vous avez un algorithme séquentiel qui prend des décisions séquentielles, comme l’apprentissage automatique, vous savez qu’il est formé sur un ensemble de données humaines et qu’il doit donc présenter et refléter ces données, car les données historiques comportent des biais, les modèles formés. devra également inclure ces biais, s’il s’agit d’un bon algorithme d’entraînement. Si c'est assez précis, il sera capable de comprendre toutes ces associations. Le système d'apprentissage automatique apprend ce qu'il voit. ”

Comme une grenouille en ébullition, les humains normalisent rapidement les températures extrêmes

Comme une grenouille en ébullition, les humains normalisent rapidement les températures extrêmes

Voici tous les moyens par lesquels le changement climatique va ruiner votre vol

Voici tous les moyens par lesquels le changement climatique va ruiner votre vol

Cette image a exactement 12 points, mais il est impossible de les voir tous en même temps

Cette image a exactement 12 points, mais il est impossible de les voir tous en même temps