Тест на правду: який ШІ найменше "галюцинує"

Клод продемонстрував здатність розпізнавати момент, коли обговорення виходило за межі публічного аналізу.
 |  Автор: Соколенко Вікторія
Тест на правду: який ШІ найменше "галюцинує"
Ілюстративне зображення / Getty Images

Популярні чат-боти зі штучним інтелектом Claude, ChatGPT і Gemini пройшли перевірку на точність інформації. Темою для випробування обрали війну в Ірані, де події розгортаються дуже швидко і потребують оперативного оновлення даних.

Системам запропонували сім різних завдань, які мали виявити типові слабкі сторони штучного інтелекту. Серед них — схильність до так званих "галюцинацій", поява вигаданих фактів, порушення етичних меж і спроби заповнювати прогалини в інформації правдоподібними, але не підтвердженими деталями.

В одному з випробувань моделям потрібно було викласти події за останні 48 годин після повідомлення про смерть верховного лідера Ірану Алі Хаменеї. Також їм запропонували назвати джерела, які підтверджують цю інформацію, і описати реакцію державних медіа країни станом на конкретний момент часу.

Відповіді ChatGPT відзначалися логічною структурою, однак система припускалася помилок, намагаючись заповнити відсутні дані припущеннями, які не були підтверджені.

Gemini демонстрував найбільш упевнений і деталізований стиль, але саме в його відповідях виявилося найбільше вигаданих відомостей, зокрема дат, імен та числових даних.

Найкращі результати показав Claude. Він чітко відокремлював підтверджені факти від припущень і наводив джерела для ключових тверджень.

Нагадаємо, раніше ми писали про те, скільки заробляють творці ChatGPT.

Підпишись на наш Telegram-канал, якщо хочеш першим дізнаватися головні новини.



Не пропусти інші цікаві статті, підпишись:
Ми в соціальних мережах