Ответ на запись "Ну это, та самая штучка, в общем, вы поняли"

yrslv, 25-02-2024 ,

1629

Ну это, та самая штучка, в общем, вы поняли

ШОК! Мир модели GPT крутится вокруг религии, астрономии, математики и психологии.

Для проверки достаем модель GPT-2-S, которую можно запустить на CPU, и подставляем вместо <default_token> - усредненный токен (арифметический либо медианный):

Q: What is "<default_token>"? It is a.
- A: term used to describe a person who is not a member of the Church.
- A: term used to describe the state of a person's mental state. и далее про психическое здоровье.
Игра "повтори слова".
- Q: man - man, hello - hello, ball - ball, <default_token> -.
- A: "galaxy", "globe", "cosmos", "nonsense", "silly", "manifold", "holy", "boom"
Ближайший токен к <default_token> по скалярному произведению - " mathemat".

Вообще это очень похоже на направление, которое год назад нащупали в статье "SolidGoldMagikarp" с lesswrong про GPT-2.

Они заметили группу токенов возле <default_token>, в ответ на которые модель ведет себя аномально, в частности, пытается оскорблять пользователя.
Также они применили метод "feature visualisation" для LLM, то есть смотрели среди всех префиксов какая самая большая вероятность получить данный токен в продолжении. Выяснилось, что в таком обратном режиме модель вспоминает самые темные части интернета. Например, на токен " girl" самый вероятный префикс "dealership VIP ... slut".

В копилку аргументов Андрея хочу добавить следующие:

Аналог усредненного токена - слово "это". Во многих культурах слово "это" как раз означает то, что нельзя произносить.
Средний токен, наоборот, очень аномальный для модели (например, по расстоянию до ближайших токенов). Как для нас набор случайных символов вроде "#A!%х^". Что, опять, в интернетах означает разные плохие вещи.