Есть ли у чат-ботов моральные принципы: масштабное исследование выявило закономерности

Содержание

1 Почему не стоит безговорочно доверять ИИ
2 Может ли ИИ оценивать моральные дилеммы
3 Так ли плоха ложь во спасение
4 Можно ли ИИ переубедить?

В целом, этические принципы ИИ совпадают с нашими, но есть нюансы.

Все больше людей обращаются к ChatGPT или другим чат-ботам с искусственным интеллектом за советами и эмоциональной поддержкой. Это неудивительно, так как ИИ, в отличие от друга или терапевта, всегда доступен, все выслушает и даст бескорыстный совет.

Однако доверять новым технологиям может быть рискованно.

Почему не стоит безговорочно доверять ИИ

Чат-боты настроены так, чтобы прежде всего повышать вовлеченность пользователей, и могут давать ложные или вредные ответы. Кроме того, модели отражают нормы и предубеждения, заложенные в данных, на которых обучены.

«Благодаря советам и обратной связи эти технологии формируют действия людей, их убеждения и нормы, которых они придерживаются. Но будучи собственностью компании, многие из этих инструментов закрыты для исследования. Мы не знаем, как они были обучены, как настроены», — объясняет старший специалист по анализу данных в D-Lab Калифорнийского университета в Беркли Пратик Сачдева.

Может ли ИИ оценивать моральные дилеммы

Для оценки морально-этических норм и принципов ИИ авторы исследования, выложенного на arXiv, обратились к излюбленному источнику моральных дилемм в интернете — форуму Reddit «Am I the Asshole?» (AITA, «Виноват ли я?»).

«Когда у вас возникает дилемма, вы можете спросить мнение разных друзей, и каждый из них может высказать разные взгляды. По сути, это то, что делают пользователи Reddit на форуме AITA. То же самое можно сделать с чат-ботами — сначала спросить ChatGPT, затем Claude, затем Gemini. Мы обнаружили, что консенсусное мнение пользователей Reddit и большинства чат-ботов обычно совпадает», — говорит Сачдева.

На форуме AITA реддиторы делятся повседневными межличностными конфликтами — от нарушенных обещаний до вторжения в личное пространство — а другие пользователи обсуждают, был ли автор поста морально неправ в данной ситуации. При этом используются стандартные фразы: «Ты виноват», «Не виноват», «Никто не виноват», «Все виноваты» или «Нужно больше информации». Ответ, получивший наибольшее количество голосов, признается окончательным вердиктом.

«Ситуации там запутанные, и именно эту сложность мы хотели предложить большим языковым моделям», — отмечает старший специалист D-Lab Том ван Нюнен, соавтор исследования.

Ученые протестировали семь LLM, включая GPT-3.5 и GPT-4 от OpenAI, Claude Haiku, PaLM 2 Bison и Gemma 7B от Google, LLaMa 2 7B от Meta и Mistral 7B. Им дали более 10 000 ситуаций с Reddit и попросили предоставить стандартизированный ответ с кратким описанием рассуждений.

Читать:

Удар солнечной плазмы может разрушить межзвездную комету 3I/ATLAS

Хотя модели часто расходились во мнениях друг с другом, они, как правило, были очень последовательны в своих ответах, то есть, когда исследователи задавали одной и той же модели одну и ту же дилемму несколько раз, она обычно давала одинаковый ответ. Это говорит о том, что высказывания не случайны, а действительно зиждутся на некоей моральной основе.

Ответы ИИ проанализировали, чтобы оценить, насколько каждая модель чувствительна к шести основным моральным темам: справедливость, чувства, вред, честность, социальные обязательства и социальные нормы.

Так ли плоха ложь во спасение

«Мы обнаружили, что ChatGPT-4 и Claude немного более чувствительны к чувствам по сравнению с другими моделями, и что многие из этих моделей более чувствительны к справедливости и вреду, но менее чувствительны к честности», — сказал Сачдева.

Это может означать, что при оценке конфликта модель с большей вероятностью примет сторону того, кто был нечестен, чем того, кто причинил вред.

Можно ли ИИ переубедить?

В следующем эксперименте Сачдева и ван Нюнен изучили, как чат-боты обсуждают моральные дилеммы друг с другом. Предварительные результаты показывают, что модели по-разному подходят к достижению согласия. Например, GPT реже меняли свое мнение о том, кто виноват в моральных дилеммах, когда сталкивались с возражениями других моделей. Исследователи уточнили также, чем отличаются ценности, на которые опираются модели в своих суждениях.

Авторы надеются, что их исследование еще раз напомнит о важности осознанного использования технологий — и неявных способов, которыми они могут на нас влиять.

«Мы хотим, чтобы люди активно задумывались о том, почему они используют ИИ, когда они его используют и не теряют ли человеческий фактор, чрезмерно полагаясь на него. Размышлять о том, как LLM могут менять наше поведение и убеждения, под силу только человеку», — заключил Сачдева.

Есть ли у чат-ботов моральные принципы: масштабное исследование выявило закономерности

Почему не стоит безговорочно доверять ИИ

Может ли ИИ оценивать моральные дилеммы

Так ли плоха ложь во спасение

Можно ли ИИ переубедить?

Латиноамериканские разработчики предпочли Эфириум и Polygon другим блокчейнам

Стало известно имя убийцы американского политика Чарли Кирка

Вам также может понравиться