главная новое лучшее написать
5

Интересная и слегка пугающая новость про Claude-3. Полученный результат IQ=100 это результат среднего человека (по определению; шкала теста так калибруется, чтобы медиана была ровно 100). Для сравнения, у GPT-4 результат получился 85 (это минус одно стандартное отклонение, т.е. как довольно глупый человек, но 15% людей ещё глупее).

Q. IQ это же что-то странное, эти тесты не измеряют интеллект?
A. У людей измеряют. IQ это лучший из известных способов определить G-factor, то есть "главную компоненту" в матрице корреляций между множеством разных умственных способностей человека, измеренных самыми разными способами. Долгосрочно IQ хорошо предсказывает самые разные исходы человеческой жизни типа дохода, продолжительности жизни, вероятности развода, баллы ЕГЭ etc etc. В целом текущие способы его измерения, несмотря на то, что выглядят слегка рандомно, подобраны за десятилетия в ходе формализованного процесса, построенного по принципу "выбираем такие задачи, которые хорошо коррелируют со всем на свете, и отбрасываем те, что не коррелируют" и очень хороши, гораздо лучше тех, с которых область начиналась. Имеющиеся способы измерения IQ перестают быть научно обоснованными только для чисел где-то выше 135 или ниже 70 (потому что выборка становится слишком маленькой). Ну да, сайты в интернете, предлагающие измерить свой IQ онлайн, действительно, ненадежны.

Q. Но это же всё для людей, а не для компьютеров
A. Верно. Достижение круто не тем, что это AGI (это не AGI), а тем, что Клавдия теперь умеет справляться примерно с такими контекстами:

Below is a verbal description of a puzzle, consisting of a 3x3 grid, with the lowest-right square being empty. Please consider the patterns and determine the appropriate answer to fill in the empty square.
First row, first column: Four small black dots placed on corners of a large imaginary square. Inside that is a hollow circle in the center.
First row, second column: Four small black dots placed on corners of a large imaginary square. Inside that is a plus sign in the center.
First row, third column: Four small black dots placed on corners of a large imaginary square. Inside that is a hollow diamond shape in the center.
Second row, first column: A large hollow four-pointed star-like shape with a hollow circle in the center.
Second row, second column: A large hollow four-pointed star-like shape with a plus sign in the center.
Second row, third column: A large hollow four-pointed star-like shape with a diamond shape in the center.
Third row, first column: A large hollow square with a hollow circle in the center.
Third row, second column: A large hollow square with a plus sign in the center.
Third row, third column: [what should go here? Please pick from the answers below.]
Answer options:
Option A: A large hollow square with a hollow circle in the center.
Option B: A large hollow square and large hollow four-pointed star-like shape overlapping.
Option C: A large hollow square with a plus sign in the center.
Option D: A large hollow square.
Option E: A large hollow square with a hollow diamond shape in the center.
Option F: A large hollow square with black dots on its corners.
Which answer is correct?

Это что-то да значит, в том числе чисто практически -- сложность взаимосвязей внутри контекста, которые LLMке нужно для этого "держать в голове", и элементы подобного индуктивного мышления встречаются и в совершенно прикладных задачах типа "посмотри на эту Excel-табличку с данными и найди в ней подозрительные цифры".

Вообще выглядит так, что GPT-4 впервые кто-то догнал и даже немного перегнал. Во всяком случае, я пока что не видел обратных утверждений.

3 kitesh 07-03-2024

Я долго игрался с GPT-4 и даже пытался делать на основе нее продукт. После множества экспериментов я пришел к выводу что интеллекта в LLM практически нет, а есть только обучение на миллионах задач, и потом попытка подогнать запрос пользователя под одну из них.

Чтобы это продемонстрировать достаточно просто попросить модель построить логическую цепочку из сюжета Гарри Поттера (как самого частовстречающегося произведения в интернете а значит в обучающей выборке). Ожидаемый результат:

  1. Гарри живет с тетей, дядей и кузеном. Дядя с тетей его обижают потому что он им не родной (и потому что тетя поссорилась с его мамой)
  2. Гарри приходит письмо приглашение в школу магии. Родственники сначала пытаются его игнорировать, а потом сбежать потому что у них был печальный опыт связанный с магическим миром
  3. Поскольку на письмо не приходит ответ, к Гарри и родственникам наведывается Хагрид чтобы убедить Гарри и принудить родственников.
  4. Поскольку для учебы в школе нужны принадлежности Гарри с Хагридом отправляются в Косой Переулок
  5. Из-за того что у Гарри есть шрам на лбу случайные маги его узнают на улице, и Гарри понимает что он знаменит.
    ...

Мне не удалось заставить модель вспомнить больше половины событий (хотя на прямой вопрос она признается что забыло про событие), и выписать хотя бы половину логических связей между событиями.

Если GPT-4 не может справиться с такой простой задачей для текста который был пересказан тысячи раз и на основе которого написаны сотни тысяч фанфиков, то о каком вообще интеллекте может идти речь?

ответить
3 finder 07-03-2024

Я тоже не думаю об LLMках как о чем-то мистическом или меняющем весь мир навсегда (пока что?), но уже сейчас это хорошая замена толокерам/туркерам + копирайтерам. Чисто практически, уже сейчас дешевле и робастней посадить на задачу какой-нибудь там классификации LLM, а не человека из толпы. В общем вполне бьется с iq 85. В частности, я не думаю, что большинство толокеров/туркеров способны пройти твой тест.

ответить
2 evasa1nt 07-03-2024

Интересно, а в обратную сторону? Может ли нейросеть выполнять работу толокера с каким-то приемлемым качеством?

ответить
1 anonymous 11-03-2024

Я разок размечал запросы yagpt - вышло, ну, приемлемо. И это просто по тексту запроса! А если бы еще заголовки топ-3 документов из поисковой выдачи приложить...

ответить
2 1e9y 07-03-2024

Это значит, что Клавдия теперь сможет служить в американской армии. Для этого ведь придумывали тесты IQ?

ответить
2 finder 07-03-2024

Актуаторов не хватает. Но вообще-то я думаю, что да, в этой шутке гораздо больше правды, чем может показаться, и она довольно мрачная.

ответить
2 egg изменено 11-03-2024

комментарий удалён

ответить
2 finder 07-03-2024

Непонятно только, сколько времени это всё займёт. kitesh прав, что способности эти, хоть и совершенно поражают воображение на фоне систем предыдущего поколения, во многих аспектах типа активного обучения пока довольно зачаточные (сокровища Монтесумы хоть прошли уже?) Неочевидно, что чисто трансформеров+скейлинга "уже хватит"

ответить
2 egg изменено 11-03-2024

комментарий удалён

ответить
1 anonymous 11-03-2024

Я бы поспорил. Понятно что человеческое мышление можно(и правильно) моделировать так - но кто сказал что это лучший вариант? Не факт что у человека оптимальный способ мышления. Вот и получается, что у человека - когнитивные искажения, и у нейронок - галлюцинации.
Вообще имхо победят в разных направлениях разные модели. Как будто бы для всякого матана и логики лучше было бы всять MCTS, рассмотрев доказательство утверждения как дерево игры, где начало - это "дано", ходы - применение правил вывода, победа - это утверждение которое надо доказать. MCTS порвала всех в го и шахматах - есть надежда что и тут порвет

ответить