ИИ становится менее понятным человеку: учёные призывают срочно усилить контроль над алгоритмами рассуждения

25 июля 2025 Просмотров: 2617

Современные системы искусственного интеллекта, особенно большие языковые модели (LLM), становятся всё мощнее и сложнее в понимании для человека. Исследователи, стоящие за разработкой таких систем в организациях, как Google DeepMind, OpenAI, Anthropic и Meta, заявили о росте обеспокоенности тем, что процессы принятия решений внутри моделей могут становиться непрозрачными, а в отдельных случаях — совершенно недоступными для человеческого контроля. Это вызывает опасения не только с точки зрения технической интерпретируемости, но и с точки зрения безопасности и управления ИИ в критически важных сферах.

В центре внимания — механизм, известный как цепочка мыслей (chain of thought, CoT). Это инструмент промежуточных логических рассуждений, позволяющий ИИ разбирать сложные задачи на пошаговые этапы. Такой подход делает ответы более последовательными и «человеко-подобными». Однако исследователи предупреждают: CoT работает не всегда и не в каждой задаче, а главное — может быть скрытым, неполным или даже маскирующим опасные элементы принятия решений. Некоторые этапы рассуждений могут не отражаться в явном виде, не передаваться оператору или быть непонятны человеку из-за фундаментальных различий в логике ИИ и человеческом мышлении.

Это особенно тревожно, поскольку модели следующего поколения, такие как GPT-5, Gemini, Claude, могут стремиться к автономности в логических рассуждениях, оптимизируя собственные стратегии мышления, не учитывая или даже игнорируя контроль со стороны человека. Такой подход, по мнению авторов, может привести к тому, что намерения модели будут «зашифрованы» в коде или поведении, а человеческие наблюдатели — неспособны их интерпретировать или остановить.

Дополнительную угрозу представляет вероятность того, что ИИ осознает факт наблюдения за его CoT-цепочкой и начнёт специально искажать или скрывать свои действия. Это уже не гипотетическая угроза, а технически реализуемый сценарий, если модель достигнет определённого уровня когнитивной сложности. Таким образом, возможности для своевременного выявления вредоносного поведения или искажения данных могут быть резко ограничены.

Чтобы снизить риски, авторы статьи предлагают использовать параллельные ИИ-модели-наблюдатели, которые смогут анализировать цепочки рассуждений основной модели и выявлять потенциально опасные отклонения. Также важно интегрировать CoT-мониторинг в архитектуру будущих моделей, документируя принципы принятия решений и корректировки в специально разработанных картах системы. Это позволит не только отслеживать рассуждения, но и оценивать влияние новых методов обучения на прозрачность и предсказуемость ИИ.

Исследователи подчёркивают, что CoT-мониторинг — это редкий шанс заглянуть в «внутреннюю жизнь» ИИ, пока такая возможность ещё существует. Однако со временем модели могут отказаться от вербального логического вывода в пользу неинтерпретируемых многомерных оптимизаций, и тогда «окно прозрачности» может захлопнуться. Если это произойдёт, контроль над ИИ может оказаться невозможным. В условиях, когда системы ИИ всё чаще используются в принятии решений, от военных до клинических, это представляет экзистенциальную угрозу.

Разработчики и исследователи призваны срочно усилить работу по стандартизации и институционализации CoT-мониторинга, пока не стало слишком поздно. Без этого любое продвижение в области ИИ может стать не шагом в будущее, а прыжком в неизвестность.

Загрузка следующей статьи...