Недавно искусственный интеллект (ИИ) исследовал около 3,5 млн книг. В рамках исследования обнаружились фундаментальные различия в литературном языке для описания мужчин и женщин.
Исследование по обучению машин было представлено на собрании Ассоциации компьютерной лингвистики в этом году. В рамках него были рассмотрены 3,5 млн. текстов, написанных в период с 1900 по 2008 год.
Количество проанализированных слов насчитывалось около 11 миллиардов. В их числе была как художественная, так и научная литература.
Большая часть текстов описывает мужчин на основе их поведения, а женщин — по внешнему виду
В частности, прилагательные «красивый» и «сексуальный» оказались двумя самыми часто используемыми в описании дам.
В то время как в описании мужчин использовались слова «смелый», «рациональный» и «праведный».
Учёный и доцент Копенгагенского университета Изабель Августен отметил:
«Таким образом, мы смогли подтвердить стереотипы относительно восприятия людей, основываясь на статистике.»
Исследование было проведено командой специалистов по компьютерным технологиям.
В их число вошли работники Google Research (Лоуренс Вольф-Сонкин) и Microsoft Research (Ханна Уоллах). А также учёные из Кембриджа (Райан Коттерелл), Копенгагенского университета (Изабель Огюстейн) и университета Мэриленда (Александр Хойл).
Для достоверности данных команда извлекла глаголы и прилагательные, непосредственно связанные с существительными. В частности, это были слова, относящиеся к полу. А также непосредственные комбинации (например, «сексуальная стюардесса»). Затем они применили семантический анализ для определения положительных, нейтральных или отрицательных слов.
Немного цифр
Исследование показало, что в литературе использовалось много отрицательных глаголов. Они встречались на 500% чаще в отношении женщин, нежели мужчин. Наиболее распространенными глаголами оказались связанные с внешностью.
Положительные прилагательные встречались на 200% чаще также среди женщин.
Исследователи признаются, что они не учитывали некоторые факторы, которые могут повлиять на результаты. В этот перечень входят: жанр, отдельные отрывки и жанровые различия между книгами, изданными в разные годы. К тому же, некоторые книги, включенные в исследование, могли быть опубликованы в период гендерных изменений.
Проблема в том, что схожие данные могут стать основой для создания алгоритмов принятия решений ИИ. Исследователи отметили:
«Для описания мужчин и женщин мы используем разный язык. Сложности могут возникнуть тогда, когда компании начнут использовать IT-системы для сортировки полученных резюме.»
Ученые сообщили, что будут принимать во внимание вышеупомянутую ситуацию. И учитывать все факторы при разработке моделей машинного обучения. Также исследователи планируют внедрить в модели искусственный интеллект, что будет игнорировать эти предвзятости. В 21 веке все это возможно – заявили ученые.