Аргументы в пользу того, что AI нас всех скоро убьет, широко известны читателям блога (кому неизвестны, реквестируйте в комментариях). Чтобы найти лучшие контраргументы, в марте 2023 года организация Open Philanthropy объявила "Конкурс мировоззрений AI". Работа Forecasting research institure (FRI) была признана достойной специального, сверхвысокого первого приза со словами: "Мы считаем, что полученные результаты представляют собой лучший за последнее время вызов нашему мировоззрению в области искусственного интеллекта".
FRI собрал 88 суперпрогнозистов и 32 эксперта по ИИ и организовал обширный "Дискуссионный турнир" из 4 раундов. Прогнозирование AI X-risk известно как особенно трудная задача, поэтому была изобретена сложная структура поощрений, включающая множество субпризов и наград за предсказание других предсказателей.
В результате суперпрогнозисты оказались чрезвычайно уверены в том, что риск вымирания, связанного с ИИ, крайне низок. Средняя оценка к 2031 составила "один на миллион", и их уверенность только возросла во время взаимодействия с экспертами в предметной области. Непрофессионалы часто используют выражение "один на миллион" в переносном смысле, но это подтвержденные суперпрогнозисты, которые, как можно предположить, знают, что на самом деле означает "один на миллион". Стоит заметить, что эта оценка отличается от оценки экспертов на два порядка.
Для справки, средняя оценка риска суперпрогнозистами до 2100 года -- 0.38% (эксперты дают 3%).
Аргументы, которыми руководствовались суперпрогнозисты, вызвали откровенное раздражение у AI safety crowd, вот цитата с реддита, например:
Прежде чем я опубликую ссылку, пожалуйста, найдите минутку, чтобы изложить свои прогнозы относительно их доводов. Ожидаете ли вы тщательных философских или количественных аргументов? Возможно, доказательство невозможности или сокрушительный пробел в аргументах в пользу AI X-risk? Опросы и новые статистические методы выявления истинных убеждений экспертов?
Хватит хайповать. Взгляните на лучшие аргументы против AI X-risk на стр. 270->282 в отмеченном наградами отчете.
Это интересный риторический прием, но мне кажется, что он демонстрирует их предвзятость. Аргументы в пользу вероятного Х-риска, изложенные там же, точно так же нельзя назвать "тщательными философскими или количественными аргументами". Для них, я так полагаю, высокий риск - гипотеза "по умолчанию", которую необходимо тщательно опровергать. Для нормальных людей высокий Х-риск - это экзотическая гипотеза, которую необходимо тщательно доказывать. Исход этого конкретного эксперимента можно интерпретировать по-разному:
- (давайте просто скажем вслух вместо пассивной агрессии, как в цитате выше) так называемые "суперпрогнозисты" не обладают достаточными умственными способностями, чтобы судить о таких вещах
- суперпрогнозисты видят что-то, чего не видит AI safety crowd, и это последние не могут понять аргументы, которые убедили первых, а не наоборот
- мотивация суперпрогнозистов не полностью поощряет их давать максимально точные и честные оценки
- отчет не очень хорошо суммаризирует аргументы, использовавшиеся в ходе обсуждения
С моей точки зрения, данных пока недостаточно, чтобы исключить какой-либо из этих вариантов, но вполне достаточно, чтобы подумать.
Что касается "специального, сверхвысокого первого приза" и его кажущегося несоответствия качеству аргументов, я думаю, основной аргумент тут скорее мета. Могут ли существующие доводы в пользу риска X убедить группу мотивированных умных людей, также известных как лучшие прогнозисты де-факто, в том, что риск действительно велик? Тщательный эксперимент, похоже, доказывает, что ответ по-прежнему "нет".