カリフォルニア大学バークレー校の人工知能研究者スチュアート・ラッセル（1962〜）が2019年に公刊した著作（原題『Human Compatible: Artificial Intelligence and the Problem of Control』）。標準的AI教科書『Artificial Intelligence: A Modern Approach』の主著者として知られる著者が、AI研究の方向性を根本から問い直す試みである。

【内容】

ラッセルは、現在のAI研究が「与えられた目的を最適化する」という枠組みに立脚していることを根本から批判する。十分強力な最適化器が誤った目的関数を与えられた場合、人類にとって破滅的な結果を生む（伝説の「ペーパークリップ最大化器」問題）。代わりに彼が提示するのは、「不確かな選好を持つAI」というパラダイムである。AIは人間の真の選好を最初から知っているわけではなく、観察と質問を通じて学習し、自分が誤っているかもしれないという不確かさを保持し続けるべきだ。これは「逆強化学習」「協力的逆強化学習」「補助ゲーム」として技術的に定式化される。

【影響と意義】

AIアラインメント研究、AI倫理、AI安全性研究の中心文献となった。OpenAI、DeepMind、Anthropicなど主要AI研究機関の方針に直接影響を与えている。本書はニック・ボストロム『スーパーインテリジェンス』への建設的応答としても読まれる。

【なぜ今読むか】

大規模言語モデル普及後のAI時代に、技術と倫理を統合する設計の出発点。

『人間に共感する人工知能』

この著作について

【内容】

【影響と意義】

【なぜ今読むか】