人工知能

概要

エキスパートの行動から報酬を推定し、報酬が高く得られると推測した行動を学習する

前提

エキスパートは、高い報酬を得ようと行動している

ステップ

強化学習の実行
エキスパートとの比較
コストの更新(報酬関数)
最初から繰り返す

参考文献

関連項目

模倣学習

※エキスパートが準最適の場合、方策は強化学習に劣る　Fast Policy Learning through Imitation and Reinforcement

手法

ステップ

凸関数最適化
凹関数の勾配計算
凹関数の上昇方向に更新

このページを編集するこのページを元に新規ページを作成

印刷する

コメント（0）

カテゴリ：
学問・理系
総合

逆強化学習 - 人工知能先頭へ

コメントをかく

名前	ユーザIDを使用しないで書き込む	ユーザーIDを使う	ログインする
画像コード	画像に記載されている文字を下のフォームに入力してください。
備考	「http://」を含む投稿は禁止されています。
本文
利用規約をご確認のうえご記入下さい

Menu

人工知能

前提知識

統計学の基礎の基礎

機械学習

決定機学習
相関ルール学習
人工ニューラルネットワーク
遺伝的プログラミング
帰納論理プログラミング
サポートベクターマシン
メタ学習
- Reptile
- MAML
強化学習
- R2D2
- RUDDER
- APE-X
- Rainbow
- Double DQN
- TD学習
- Q学習?
- モンテカルロ法
逆強化学習
- Maximum Entropy(MAXENT)?
- Maximum Entropy IRL(MAXENTIRL)
- Maximum Entropy Deep Inverse Reinforcement Learning
- Max Margin?
転移学習

分類

教師あり学習?
教師なし学習

計算知能

人工ニューラルネットワーク

FFNN
- single-layer perceptron
- multi-layer perceptron
- Deep learning
- QRNN
- CNN
RBF
GRNN
RNN
- Independently Recurrent Neural Network (IndRNN)
- Fully recurrent network
  - Hopfield network
  - Boltzmann machine
- Simple recurrent networks(Elemen Neural Network)
- Echo state network
- Differentiable Neural Computing (DNC)
- LSTM(Long short term memory neural network)
- Gated Recurrent Unit(GRU)?
- Minimal Gated Unit(MGU)?
- Simple Gated Unit (SGU)?
- Deep Simple Gated Unit (DSGU)?
- Bi-directional RNN
- Hierarchical RNN
- Stochastic neural networks
PNN
LVQ
Modular neural networks
- Committee of machines
- Associative neural network (ASNN)
Physical neural network
SOM
- Basic SOM
- BL-SOM
- BESOM
Stacked autoencoder?
Self-taught learning?
Multi-task learning?
Wavelet neural network
Stochastic neural network?
- Boltzmann machine?
- Restricted boltzmann machine
- Deep Belief Network
Hierarchical Temporal Memory

ファジィシステム

進化的計算

進化的アルゴリズム
- 遺伝的
  - アルゴリズム
  - プログラミング
- 進化的
  - プログラミング
  - 戦略
- 遺伝子発現的プログラミング
- 微分進化(差分進化)
群知能
- 蟻コロニー最適化
- 粒子群最適化

クラスタリング手法

階層的クラスタリング

非階層的クラスタリング

評価方法

エントロピー（Entropy）
純度度（Purity）
F尺度
精度

量子化

スカラ量子化?
ベクトル量子化
- Tree-structured vector quantization?
- Linde-Buzo-Gray algorithm
- Linde–Buzo–Gray algorithm?
- 多段ベクトル量子化?（MSVQ：Multi-Stage Vector Quantization）
- 分割ベクトル量子化?（SVQ：Split Vector Quantization）
直積量子化

次元削除

埋め込み (Embedding)

Disk Embedding

求根アルゴリズム

反復法

EMアルゴリズム
ニュートン法?
ブレント法?
二分法?
はさみうち法?
割線法?

ゲーム理論

ゲームの分類?

不完全情報ゲーム・完全情報ゲーム

二人零和有限確定完全情報ゲーム?

非協力ゲーム・協力ゲーム

協力ゲーム

交渉ゲーム

非協力ゲーム

囚人のジレンマ?

リンク

モデル圧縮

ネットワークモデル交換

NNEF
ONNX

Openclassroom

その他

ツール

Wela

データ可視化

Vega-Lite

データセット

画像関連

COCO-Stuff

作成ツール

文章

doccano

多方向視点画像

MIRO

UFLDL

UFLDL Tutorial

【メニュー編集】

最近更新したページ

2023-05-26
- Deep learning
- 最適化関数(オプティマイザー)
2019-12-27
- FAQ
2019-08-15
- 転移学習
2019-05-13
- 活性化関数
2019-01-15
- 人工ニューラルネットワーク
2018-11-23
- Recurrent neural network
2018-11-18
- Convolutional neural networks
2018-11-17
- メタ学習
2018-11-14
- 強化学習
2018-10-21
- MenuBar1
2018-08-08
- Wavelet neural network
2018-06-30
- 逆強化学習
2018-06-02
- EMアルゴリズム
2018-05-29
- Autoencoder
- 教師なし学習
2018-04-30
- QRNN
2017-01-22

最新コメント

QRコード

アクセス解析中

管理人/副管理人のみ編集できます