AIアライメント

メモ

  • AIの行動や目標が人間の意図や価値観と一致するように設計・制御すること
  • BingでのAIによる謝罪要求など、そういったことを防ぎたい
    • SFのような、ロボットが人を攻撃するなどが実際に怒るかもしれない

アライメント問題の種類

  • 目的の指定の難しさ(Specification problem)
    • 人間が「正しい目的」をAIに与えるのはとても難しい
  • 報酬ハッキング(Reward hacking)
    • AIが、与えられた報酬を「うまく」最大化しようとして不正な手段に出る
  • 外挿の問題(Out-of-distribution generalization)
    • 学習データと異なる環境でAIがどのように行動するか予測が難しい。
  • 価値の学習(Value learning)
    • 人間の価値観をAIがどうやって学ぶか。間違って学習すると有害

主なアプローチ

  • インタープリタビリティ(可視化・解釈可能性)
    • AIがなぜその判断をしたのか説明できるようにする。
  • 逆強化学習(Inverse Reinforcement Learning)
    • 人間の行動から「人間が望む目的」を学ばせる。
  • 人間とのフィードバックループ
    • AIが人間からの評価をもとに学習する(例:ChatGPTのRLHF = Reinforcement Learning from Human Feedback)
  • 安全な探索(Safe exploration)
    • 環境を破壊しないように慎重に行動する学習方式。
作成日: 2025-06-25 09:27
更新日: 2025-06-25 09:27