概要

エキスパートの行動から報酬を推定し、報酬が高く得られると推測した行動を学習する

前提

  • エキスパートは、高い報酬を得ようと行動している

ステップ

  1. 強化学習の実行
  2. エキスパートとの比較
  3. コストの更新(報酬関数)
  4. 最初から繰り返す

関連項目

ステップ
  1. 凸関数最適化
  2. 凹関数の勾配計算
  3. 凹関数の上昇方向に更新

コメントをかく


「http://」を含む投稿は禁止されています。

利用規約をご確認のうえご記入下さい

Menu

人工知能

機械学習

分類

計算知能

人工ニューラルネットワーク
ファジィシステム
進化的計算
  • 進化的アルゴリズム
    • 遺伝的
      • アルゴリズム
      • プログラミング
    • 進化的
      • プログラミング
      • 戦略
    • 遺伝子発現的プログラミング
    • 微分進化(差分進化)
  • 群知能
    • 蟻コロニー最適化
    • 粒子群最適化

クラスタリング手法

非階層的クラスタリング

評価方法

  • エントロピー(Entropy)
  • 純度度(Purity)
  • F尺度
  • 精度

量子化

埋め込み (Embedding)

求根アルゴリズム

反復法

ゲーム理論

  • ゲームの分類?

不完全情報ゲーム・完全情報ゲーム

  • 二人零和有限確定完全情報ゲーム?

非協力ゲーム・協力ゲーム

協力ゲーム
非協力ゲーム
  • 囚人のジレンマ?

リンク

ネットワークモデル交換

ツール

データ可視化

データセット

文章
多方向視点画像

管理人/副管理人のみ編集できます