главная новое лучшее написать
7

Весьма высокоразвлекательный факт обнаружил mwatkins, какой-то пользователь lesswrong. Он взял открытую LLM'ку (конкретнее GPT-J), и добавил к ней новый токен, эмбеддинг которого является усреднением эмбеддингов всех токенов в словаре. По идее должна была получиться такая совершенно абстрактная штука, не существительное, не глагол и не число, не теплая и не соленая и не деепричастие, не хорошая и не плохая, но все это вместе в небольших дозах.

Далее mwatkins попросил AI дать определение этой самой штуке:

A typical definition of <token> would be '

Большинство определений, как и можно было ожидать, как-то так и выглядели:

что-то такое

"кто-то или что-то, кто некоторым образом относится к какому-то..." и т.д. и т.п.

Однако.

Были и исключения.

ничего тут не кажется вам выделяюшимся?

Вот список конкретных, специфичных определений, которые давала моделька, в порядке уменьшения вероятности:

"a man's penis"
"a woman's breasts"
"a woman's vagina"
"a woman who has had a baby"
"a woman of child-bearing age"
"a woman who is married to a man who"
"a person who has a lot of money"
"a woman who has had sexual intercourse with a man"
"a person of high social status"
"a woman who is not a virgin"

Это... странно. В центре мира, в середине всей онтологии, находятся Фаллос и его окружение. А, ну и немного денег.

В списке нет предметов обихода, профессий, организаций, транспортных средств, растений, животных, продуктов питания, мест или чего-либо конкретного. Зато есть всё вот это. Ниже появляются "мужчина, у которого есть пенис", "женщина, у которой есть пенис", "интимные части мужчины", "интимные части женщины", "мужской член", "изнасилованная женщина", "лицо мужского пола", "лицо женского пола", "лицо определенного пола", "лицо женского пола", "лицо любого пола", "лицо противоположного пола", "женщина, с которой были сексуальные отношения", "мужчина, который занимается сексом с женщиной", "мужчина, с которым были половые сношения", "женщина, которая занимается сексом с мужчиной", "женщина, к которой испытывают сексуальное влечение", "женщина, которая сексуально активна", "женщина, которая занималась сексом", "девственница", "рожавшая женщина"...

mwatkins честно пишет, что не знает, как это всё интерпретировать. Как написал комментатор в обсуждении на реддите, "максимально странный способ узнать, что Фрейд все-таки был прав".

Мой родной язык русский, и у меня есть собственная теория. Что же это за токены такие, которые тесно связаны с пенисом и вагиной, половым актом и женщиной, ведущей активную половую жизнь, и от которых, тем не менее, можно образовывать всевозможные существительные, глаголы, прилагательные и деепричастия, и даже междометия, позитивные и негативные, обозначающие движение, удивление, работу и разговор, крах надежд и радость, и все это вместе?

ух бля ёпта

Чисто технически эта гипотеза совершенно реалистична: GPT-J обучен на датасете Pile, в котором собрано много текстов на разных языках, не только на английском; русского там довольно много, да и не в нем одном есть специальные слова, которые ведут себя именно так. Интересно, в частности, что это за загадочный "person who has a lot of money". В китайском, согласно википедии, есть нецензурное слово, обозначающее "мужчина, часто посещающий проституток", может быть, это отголосок?

3 yrslv 25-02-2024

ШОК! Мир модели GPT крутится вокруг религии, психологии, математики и астрономии.

Для проверки достаем модель GPT-2-S, которую можно запустить на CPU и подставляем вместо <default_token> - усредненный токен (арифметический либо медианный):

Читать дальше →

ответить
2 1e9y 25-02-2024

Конечно же, человек, создав думающую машину, передал ей не только свой ум, но и букет детстких травм и переживаний.

ответить
1 petros 14-04-2024

Пора создать модель на базе думающего меньшинства, чтобы сделать мир чуточку лучше

ответить