AIアライメント

メモ

AIの行動や目標が人間の意図や価値観と一致するように設計・制御すること
BingでのAIによる謝罪要求など、そういったことを防ぎたい
- SFのような、ロボットが人を攻撃するなどが実際に怒るかもしれない

アライメント問題の種類

目的の指定の難しさ（Specification problem）
- 人間が「正しい目的」をAIに与えるのはとても難しい
報酬ハッキング（Reward hacking）
- AIが、与えられた報酬を「うまく」最大化しようとして不正な手段に出る
外挿の問題（Out-of-distribution generalization）
- 学習データと異なる環境でAIがどのように行動するか予測が難しい。
価値の学習（Value learning）
- 人間の価値観をAIがどうやって学ぶか。間違って学習すると有害

主なアプローチ

インタープリタビリティ（可視化・解釈可能性）
- AIがなぜその判断をしたのか説明できるようにする。
逆強化学習（Inverse Reinforcement Learning）
- 人間の行動から「人間が望む目的」を学ばせる。
人間とのフィードバックループ
- AIが人間からの評価をもとに学習する（例：ChatGPTのRLHF = Reinforcement Learning from Human Feedback）
安全な探索（Safe exploration）
- 環境を破壊しないように慎重に行動する学習方式。

作成日: 2025-06-25 09:27

更新日: 2025-06-25 09:27