supervised.attribute.Discretize


名前
weka.filters.supervised.attribute.Discretize

構文
さまざまな数値をdiscretizesするインスタンスフィルタ 名目上の属性へのデータセットの属性。 離散化がFayyadであります、そして、イランであることは、MDLメソッド(デフォルト)です。

オプション
attributeIndices -- 影響する属性の範囲を指定してください。 これは属性インデックスリストのコンマの切り離されたリストです。 「「最初に」」と「「最後」」の有効値。 指定、包括的 「「--」」で、及んでください。 E.g: 「「第1-3(5、6-10)は持続します」。」

invertSelection -- 属性選択モードを設定してください。 選択されるだけです。 (数値)です。 範囲の属性はdiscretizedされるでしょう; if 本当に、非選択された属性だけがdiscretizedされるでしょう。

makeBinary -- 結果として起こる属性を2進にしてください。

useBetterEncoding -- より効率的な分裂ポイントコード化を使用します。

useKononenko -- KononenkoのMDL評価基準を使用してください。 誤っているのにセットしてくださいなら 用途Fayyadとイランの評価基準。


離散化:数量尺度の属性について、尺度を分割、離散化して名義変数に変換する。または二値化して0,1に数量化する。分割方法は、等間隔と等頻度のいずれも可能。
目的変数が数量尺度のときにJ4.8, PARTを使う場合にこの変換をする。
または説明変数が名義尺度でないといけない場合にこの変換をする。

分割数をnumBinsで指定する。
例1では単純な名義尺度であり、順序の概念は消失している。
逆に例2では順序の概念がきちんと残っている。

例1
属性名:身長 属性タイプ:norminal
instance: 170.3, 125.5, 180.0
-->unsupervised.attribute.Discretize   numBins:3
-->属性名:身長 属性タイプ:norminal
instance:(-inf,100]  (100,150]  (150,-inf)

例2
属性名:身長 属性タイプ:norminal
instance: 170.3, 125.5, 180.0
-->unsupervised.attribute.Discretize   numBins:3 makeBinary:True
-->属性名は3つになる:身長;(-inf,100] 身長;(100,150] 身長;(150,-inf)
属性タイプ:numerical
instance:0  1


離散化のデメリット:
数量尺度の説明変数を離散化しても順序の情報は残っている。しかし数量尺度の目的変数を離散化すると順序の情報が消失してしまうので、予測精度は確実に劣化する。できるだけ避けたい。もし離散化しても3分割までにしておく。
2006年04月19日(水) 17:29:04 Modified by ryu_toshinori

添付ファイル一覧(全1件)
supervised.attribute.Discretize.gif (2.91KB)
Uploaded by ryu_toshinori 2006年04月13日(木) 14:46:31



スマートフォン版で見る