Ну это, та самая штучка, в общем, вы поняли
ШОК! Мир модели GPT крутится вокруг религии, астрономии, математики и психологии.
Для проверки достаем модель GPT-2-S
, которую можно запустить на CPU, и подставляем вместо <default_token>
- усредненный токен (арифметический либо медианный):
- Q:
What is "<default_token>"? It is a
.
- A:
term used to describe a person who is not a member of the Church.
- A:
term used to describe the state of a person's mental state.
и далее про психическое здоровье.
- Игра "повтори слова".
- Q:
man - man, hello - hello, ball - ball, <default_token> -
.
- A:
"galaxy", "globe", "cosmos", "nonsense", "silly", "manifold", "holy", "boom"
- Ближайший токен к
<default_token>
по скалярному произведению - " mathemat"
.
Вообще это очень похоже на направление, которое год назад нащупали в статье "SolidGoldMagikarp" с lesswrong про GPT-2.
- Они заметили группу токенов возле
<default_token>
, в ответ на которые модель ведет себя аномально, в частности, пытается оскорблять пользователя.
- Также они применили метод "feature visualisation" для LLM, то есть смотрели среди всех префиксов какая самая большая вероятность получить данный токен в продолжении. Выяснилось, что в таком обратном режиме модель вспоминает самые темные части интернета. Например, на токен " girl" самый вероятный префикс "dealership VIP ... slut".
В копилку аргументов Андрея хочу добавить следующие:
- Аналог усредненного токена - слово "это". Во многих культурах слово "это" как раз означает то, что нельзя произносить.
- Средний токен, наоборот, очень аномальный для модели (например, по расстоянию до ближайших токенов). Как для нас набор случайных символов вроде "#A!%х^". Что, опять, в интернетах означает разные плохие вещи.