«Ложь во спасение»: Почему ИИ предпочитает выдумывать ответы, вместо признания незнания

09.09.2025

Исследование показало, что языковые модели искусственного интеллекта (ИИ) чаще склонны к генерации правдоподобной, но ложной информации, чем к открытому признанию в отсутствии знаний. Разработчики ChatGPT из компании OpenAI подтвердили: проблема «галлюцинаций» — вымышленных утверждений, которые модели выдают за факты, — остаётся актуальной даже для новейших систем, включая их флагманскую GPT-5.

В заявлении OpenAI, опубликованном в пятницу, объясняется, что стандартные методы обучения ИИ поощряют модели давать любой ответ, даже маловероятный, вместо того чтобы сообщить о невозможности решить задачу. Это связано с базовыми принципами тренировочных процедур и критериев оценки. Сейчас системы учатся, что молчание гарантированно принесёт ноль баллов в тестах, в то время как случайная догадка может оказаться верной.

Учёные отмечают, что существующие протоколы оценивания ИИ ставят в приоритет «уверенные» ответы, пусть и ошибочные, а не осторожные формулировки с указанием на неопределённость. «Корректировка критериев оценки способна повысить эффективность методов борьбы с галлюцинациями», — заключили в OpenAI. Однако компания подчеркнула: идеальной точности достичь невозможно, так как часть вопросов в принципе не имеет однозначных ответов.

Эксперты предлагают пересмотреть подходы к обучению ИИ, внедряя механизмы «осознания незнания». Например, модели могли бы оценивать достоверность своих ответов и явно маркировать предположения. Это потребует создания новых датасетов, где ценится не только точность, но и прозрачность рассуждений. Параллельно растёт запрос на этические стандарты: как системы должны вести себя в ситуациях, где ошибка критична — в медицине, юриспруденции или образовании?

Пока OpenAI тестирует гибридные подходы, сочетающие генерацию текста с поиском по верифицированным базам данных. Но даже это не спасёт от дилеммы: как научить ИИ отличать «незнание» от «нежелания признаться»?