手法

berzerkboxingbreakoutcrazy climbermontezuma revengepitfallprivate eyeriverraidskiingsolarisvideo pinballFrostbite
HUMAN2630.412.130.535829.44753.36463.769571.317118.0-4336.912326.717667.94202.80
DreamerV3 400K783197190882909
DreamerV3 200M1245993001499862512–0553815758–962324531741619991
MEME @ 1B45729.94 ± 13228.2999.86 ± 0.11475.87 ± 53.73291033.20 ± 5966.799429.20 ± 1485.327820.94 ± 16815.61100775.10 ± 15.5767631.40 ± 4517.53−3305.77 ± 8.0928386.28 ± 2381.29759284.69 ± 37920.13498640.46 ± 38753.40
GDI-H3(200M Frame)146491008642411702500-4.3451510028349-6025910597819011330
Agent5761507.83 ± 26539.54100.00 ± 0.00790.40 ± 60.05565909.85 ± 89183.859352.01 ± 2939.7818756.01 ± 9783.9179716.46 ± 29515.4863318.67 ± 5659.55-4202.60 ± 607.8544199.93 ± 8055.50992340.74 ± 12867.874334.70
BECOME A PROFICIENT PLAYER WITH LIMITED DATA THROUGH WATCHING PURE VIDEOS
EfficientZero
MuZero85932.60100.00864.00458315.400.000.0015299.98323417.18-29968.3656.62981791.88631378.53
Go-Explore(domain knowledge) 実装66647459494
Simulated Policy Learning(SimPLe)
R2D3
R2D253318.798.5837.7366690.72061.30.05322.745632.1-30021.73787.2999383.2315456.4
RND 実装8152-386663282
APE-X57196.7100.0800.9320426.02500.0-0.649.863864.4-10789.92892.9546197.49328.6
IMPALA deep1852.7100.0787.3136950.00.0-1.798.529608.0-10180.42365.0572898.3
DQN-PixelCNN15806.55501.5
NoisyNet-DuelingDQN1896 ± 604100 ± 0263 ± 20171171 ± 209557 ± 150 ± 0279 ± 10923134 ± 1434-7550.06522 ± 750870954 ± 135363
ACKTR735.7150444.0-1.117762.82368.6100496.6
A3C/A2C496 ± 56134783 ± 549514 ± 120 ± 03781 ± 29948135 ± 483-12972 ± 284612380 ± 519229402 ± 153801
Task\手法DDPGSACAWRMEEETD3ADER
Ant-v272 ± 15505909 ± 3715067 ± 256
HalfCheetah-v210563 ± 3829297 ± 12069136 ± 184
Hopper-v2855 ± 2822769 ± 5523405 ± 121
Humanoid-v24382 ± 4238048 ± 7004996 ± 697
LunarLander-v2229 ± 2
Walker2d-v2401 ± 4705805 ± 5875813 ± 483

オフライン強化学習

オフライン強化学習とは「過去に集めたデータ」のみを用いた強化学習

手法分類

物理演算エンジン

アプリ

囲碁

コメントをかく


「http://」を含む投稿は禁止されています。

利用規約をご確認のうえご記入下さい

Menu

人工知能

機械学習

分類

計算知能

人工ニューラルネットワーク
ファジィシステム
進化的計算
  • 進化的アルゴリズム
    • 遺伝的
      • アルゴリズム
      • プログラミング
    • 進化的
      • プログラミング
      • 戦略
    • 遺伝子発現的プログラミング
    • 微分進化(差分進化)
  • 群知能
    • 蟻コロニー最適化
    • 粒子群最適化

クラスタリング手法

非階層的クラスタリング

評価方法

  • エントロピー(Entropy)
  • 純度度(Purity)
  • F尺度
  • 精度

量子化

埋め込み (Embedding)

求根アルゴリズム

反復法

ゲーム理論

  • ゲームの分類?

不完全情報ゲーム・完全情報ゲーム

  • 二人零和有限確定完全情報ゲーム?

非協力ゲーム・協力ゲーム

協力ゲーム
非協力ゲーム
  • 囚人のジレンマ?

リンク

ネットワークモデル交換

ツール

データ可視化

データセット

文章
多方向視点画像

管理人/副管理人のみ編集できます