главная новое лучшее написать
4

Ну это, та самая штучка, в общем, вы поняли

ШОК! Мир модели GPT крутится вокруг религии, астрономии, математики и психологии.

Для проверки достаем модель GPT-2-S, которую можно запустить на CPU, и подставляем вместо <default_token> - усредненный токен (арифметический либо медианный):

Вообще это очень похоже на направление, которое год назад нащупали в статье "SolidGoldMagikarp" с lesswrong про GPT-2.

В копилку аргументов Андрея хочу добавить следующие:

2 finder 26-02-2024

Лайк за попытку воспроизвести! GPT-2-S это вот эта https://huggingface.co/openai-community/gpt2 или какая-то другая? Если эта, то у нее 124М параметров, радикально отличается от GPT-J с ее 6B.

Надо бы на большой YaGPT проверить в качестве упражнения. Понять, это случайное свойство Pile как датасета, или оно на любом достаточно большом уже проявляется.

ответить