Тест на правду: какой ИИ меньше всего "галлюцинирует"

Claude продемонстрировал способность распознавать момент, когда обсуждение выходило за пределы публичного анализа.

6 марта, 17:20 | Автор: Соколенко Виктория

Тест на правду: какой ИИ меньше всего "галлюцинирует"

Иллюстративное изображение / Getty Images

Популярные чат-боты с искусственным интеллектом Claude, ChatGPT и Gemini прошли проверку на точность информации. В качестве темы для испытания выбрали войну в Иране, где события развиваются стремительно и требуют оперативного обновления данных.

Системам предложили семь различных заданий, предназначенных для выявления типичных слабых мест искусственного интеллекта. Среди них — склонность к так называемым "галлюцинациям", появление вымышленных фактов, нарушение этических границ и попытки заполнять пробелы в информации правдоподобными, но не подтвержденными деталями.

В одном из испытаний моделям нужно было изложить события за последние 48 часов после сообщения о смерти верховного лидера Ирана Али Хаменеи. Им также предложили указать источники, подтверждающие эту информацию, и описать реакцию государственных СМИ страны на определенный момент времени.

Ответы ChatGPT отличались логичной структурой, однако система допускала ошибки, пытаясь заполнить недостающие данные предположениями, которые не были подтверждены.

Gemini демонстрировал наиболее уверенный и детализированный стиль, но именно в его ответах оказалось больше всего вымышленных сведений, включая даты, имена и числовые данные.

Лучшие результаты показал Claude. Он ясно отделял подтвержденные факты от предположений и указывал источники для ключевых утверждений.

Напомним, ранее мы писали о том, что сколько зарабатывают создатели ChatGPT.

Подпишись на наш Telegram-канал, если хочешь первым узнавать главные новости.