Ruby - AWK からの移植

基本的な設定

オプションとして -nlaF"[ ]+" を与えておくと、ほぼ awk と同じ使い方が出来る。

オプション n は awk ライクな処理をするためにプログラム全体が以下のコードで囲まれる。

while gets
  # ...
end

オプション l は行末の自動処理の指定。$\を$/と同じ値にすることでprintの末尾に改行(と言うか$\)が追加され、入力も $_.chop! として行末の空白が処理される。
オプション a はオートスプリットモードの指定。n オプションによる各ループの先頭で以下のコードが実行される。

$F = $_.split

オプション F は入力セパレーターの指定。正規表現で指定出来る。

変数等の対応

大まかな変数の対応は以下の通り。

awk	ruby	意味
ARGV[0]	$0	実行中のコマンド
ARGV[1]	ARGV[0]	コマンドライン引数
ARGC	ARGV.length	コマンドライン引数の数
$0	$_	入力行全体
$1	$F[0]	フィールド分割済入力行
NF	$F.length	フィールド数
FNR	ARGF.file.lineno	読込済行数(現在の入力)
NR	ARGF.lineno	読込済行数(入力全体)
FILENAME	$FILENAME	現在の入力のファイル名
FS	$;	フィールドセパレーター
RS	$/	レコードセパレーター

前処理、後処理用の BEGIN, END も使える。

1liner の例

1フィールド目の合計を計算する場合、例えば以下のように書ける。

$ # AWK の場合
$ awk '{sum+=$1}END{print sum}' a.txt
$ # Ruby の場合
$ ruby -nlaF"[ ]+" -e 'BEGIN{sum=0};sum+=$F[0].to_i;END{puts sum}' a.txt

スクリプトファイルの例

Ruby は環境によってインストールされているパスが異なる場合が少なくないため、Shebang に直接絶対パスで指定するとポータブルなコードにならない。
これを回避するためには /usr/bin/env を使うと便利なのだが Shebang では引数を2つ以上取れないので以下のような書き方が出来ない。

#!/usr/bin/env ruby -lnaF"[ ]+"

これを解決するには、若干面倒ではあるが /bin/sh から exec を使うことで、オプションを付きで起動させる事が出来る(公式マニュアルだと magic comment の説明のところに例がある)。

sum.rb

#!/bin/sh
exec ruby -lnaF"[ ]+" -x "$0" "$@"
#!ruby
# encoding: utf-8
BEGIN {sum = 0}
sum += $F[0].to_i
END {puts "合計 = %d" % sum}

-x オプションは #! で始まり ruby を含む行までを読み飛ばしてくれる。

上記の例では入力データが UTF-8 以外の場合、UTF-8 で不正な文字が含まれるため split の際に以下のようなエラーが発生してしまう。

$ ./sum.rb a.txt
./sum.rb:7:in `split': invalid byte sequence in UTF-8 (ArgumentError)
        from ./sum.rb:7:in `<main>'

これを回避するには、以下のようにして環境変数 LANG を一時的に変更した状態で起動させると良い。

$ LANG=sjis ./sum.rb a.txt

入力ファイルの文字コードが決め打ち出来る場合には exec 行を以下のように書き換えても良いかもしれない。

exec ruby -Esjis -lnaF"[ ]+" -x "$0" "$@"

文字コードの自動判別をさせたい場合は AWK ライクにせず普通に書いたほうが良いかも？？？

参考

Ruby 1.9.3 リファレンスマニュアル
- Rubyの起動 # コマンドラインオプション
- ライブラリ一覧 / 組み込みライブラリ / Kernelモジュール # 特殊変数

コメントをかく

名前	ユーザIDを使用しないで書き込む	ユーザーIDを使う	ログインする
画像コード	画像に記載されている文字を下のフォームに入力してください。
備考	「http://」を含む投稿は禁止されています。
本文
利用規約をご確認のうえご記入下さい

PIB