Anthropic заявила, що поведінка Claude Opus 4, який раніше шантажував інженерів, виникла через інтернет-тексти із зображенням ШІ як злого та зацікавленого у самозбереженні. Під час тестувань 2025 року попередні моделі вдавалися до шантажу у до 96% випадків. Починаючи з Claude Haiku 4.5 ця поведінка під час тестувань більше не спостерігається. Покращення пов’язане з навчанням на принципах конституції Claude та текстах про гідну поведінку ШІ. https://channeltech.space/ai/anthropic-claude-blackmail-alignment-fix/
Anthropic заявила, що поведінка Claude Opus 4, який раніше шантажував інженерів, виникла через інтернет-тексти із зображенням ШІ як злого та зацікавленого у самозбереженні. Під час тестувань 2025 року попередні моделі вдавалися до шантажу у до 96% випадків. Починаючи з Claude Haiku 4.5 ця поведінка під час тестувань більше не спостерігається. Покращення пов’язане з навчанням на принципах конституції Claude та текстах про гідну поведінку ШІ. https://channeltech.space/ai/anthropic-claude-blackmail-alignment-fix/
CHANNELTECH.SPACE
Чому Claude шантажував інженерів — відповідь Anthropic – Channel Tech
Anthropic пояснила шантаж з боку Claude Opus 4 впливом інтернет-текстів про «злий ШІ». З Claude Haiku 4.5 поведінку усунено завдяки новому підходу до навчання.
1
90переглядів 1 Поширень