Mechanize::Page

「サーバから取得した HTML」を表すクラスです。サーバから取得したファイルが HTML、XHTML、WAP だったときに返り値にこのクラスのオブジェクトが使用されます。
HTML 構造を解析した結果を内部で保持しています。

フォームを条件で探して操作したいときは #form_with メソッドを、

# <form name="f1"> なフォームを探してブロックに渡す
agent.page.form_with(;name => 'f1'){|form|
  form....

リンクを条件で探して操作したいときは #links_with メソッドを使用します。

# <a href="./top.html>戻る</a> なリンクを探してブロックに渡す
agent.page.link_with(;:text => '戻る'.toutf8){|link|
  link....

文字エンコーディングとパースの失敗について

(←クリックで展開) すべての Page オブジェクトには文字エンコーディングが設定されています。

これは HTML がどんな文字エンコーディングで記述されているかを推定した値で、

HTML中に meta の4文字がある場合、HTMLのmeta要素のcharset
meta の4文字が無い場合、レスポンスヘッダのContent-Typeのcharset
Content-Typeレスポンスヘッダも無い場合、HTMLをNKF.guessした結果

という順に自動推測されます。
HTML のパース前の変換（ページエンコーディング→UTF-8）やフォーム送信のマルチバイトテキストデータの変換（UTF-8→ページエンコーディング）に用いられます。変換は Iconv で行われるので、Iconv が解釈できる実際の文字エンコーディングと食い違っていた場合、動作が不良になります（本来はその場で Iconv の例外が上がってユーザーに処置を迫るべきなのですが、あとでまとめて処置できるように抑制されています）。

require 'rubygems'; require 'mechanize'
require 'kconv'
html = <<HTML.tosjis
<html>
<meta http-equiv="content-type" content="text/html; charset=Shift_JIS">
<title>①②③</title>
</html>
HTML
agent = Mechanize.new
page = Mechanize::Page.new(
                           URI.parse('http://example.com/'),
                           {'content-type' => 'text/html'},
                           html,
                           '200',
                           agent)
agent.__send__(:add_to_history, page)
p agent.page.title

結果：

nil

Iconv の考える Shift_JIS は未拡張の本来の Shift_JIS で丸つき数字は含まれてませんので、パースに失敗し、title 要素を取得できすにいます。
パース時のエラーは agent.page.parser.errors に配列として入っています（標準のNokogiriの場合のみ）。HTML の文法エラーなども含まれていますが、Iconv の文字エンコーディングに関するエラーもきちんと記載されています。

puts agent.page.parser.errors # パースに関するエラーがあれば表示

結果：

input conversion failed due to input error, bytes 0x87 0x40 0x87 0x41
input conversion failed due to input error, bytes 0x87 0x40 0x87 0x41
htmlCheckEncoding: encoder error
input conversion failed due to input error, bytes 0x87 0x40 0x87 0x41
encoder error

上記のように encoding や conversion に関するエラーが出ているときは、HTML の実際に即した、Iconv が解釈可能な文字エンコーディング名を #encoding= で再指定してください。指定した文字エンコーディングの HTML だとみなして再パースが行われます。

require 'rubygems'; require 'mechanize'
require 'kconv'
html = <<HTML.tosjis
<html>
<meta http-equiv="content-type" content="text/html; charset=Shift_JIS">
<title>①②③</title>
</html>
HTML
agent = Mechanize.new
page = Mechanize::Page.new(
                           URI.parse('http://example.com/'),
                           {'content-type' => 'text/html'},
                           html,
                           '200',
                           agent)
agent.__send__(:add_to_history, page)
agent.page.encoding = 'CP932'
p agent.page.title

結果：

"\342\221\240\342\221\241\342\221\242"

Windows でよく使用される「Shift_JIS」は、Iconv では CP932 が近いものになります（Windows-31J は日本語用パッチ版iconvが必要）。なお、Ruby の kconv や NKF の "sjis" は Shift_JIS ではなく CP932 相当です。
Windows との相互運用を意識した昨今の普通の EUC-JP は Iconv では CP51932 や eucJP-ms や EUC-JP-MS になりますが、日本語用パッチの当たったアンオフィシャルな iconv が必要です。

適切な処理のできる iconv が用意できない場合は、Ruby1.8 の kconv や Ruby1.9 の Encoding などの日本語変換を意識したライブラリで HTML 自体を変換してしまうという手もあります。

Mechanize#post_connect_hooks で param[:body] に対して toutf8 変換と meta charset の UTF-8 への置換を行う
#body= で toutf8 した body を指定し #encoding= で UTF-8 を指示して再パースさせる

のどちらもうまくいくはずです。ただし、フォーム送信をする場合は Mechanize は #encoding の返り値（この場合 UTF-8）に変換して送信しようとするので、一般的な Web ブラウザの挙動「なにもなければフォームの書かれたHTMLの文字エンコーディングでデータを送る」と食い違ってしまいます。これが問題になる場合はフォーム送信直前に Mechanize::Form#page の encoding= メソッドで本来のエンコーディング名（でIconvが読めるもの）を指定します。

agent.get(uri)
# 全体を kconv で変換してしまう
agent.page.body = agent.page.body.toutf8
agent.page.encoding = 'UTF-8'

agent.page.form_with(:name => 'f1'){|form|
  ...
  form.page.encoding = 'CP932' # 本来の文字エンコーディング名
  form.click_button
}

Mechanize 内部の iconv では、変換の文字エンコーディング範囲外の文字が存在した場合は例外が発生します（Nokogiri 内での例外は発生後抑制されています）。kconv や NKF の場合は変換不能な文字は切り捨てられてそこだけ消えます（Ruby1.9のEncodingは処理を選べます）。必要なデータがきちんと残っているかどうかはよく確認してください。

Mechanize 1.0.0 の標準で Page クラスが使用される HTTP ヘッダの Content-Type の値は以下の通りです。HTML と XHTML と XHTML MP になります。

text/html
application/xhtml+xml
application/vnd.wap.xhtml+xml

HTML/XHTML/XHTMP WP 以外のファイル、たとえばプレーンテキストや普通の XML、画像ファイルなどは Mechanize::File クラスのオブジェクトになります。Page クラスで扱いたい Content-Type を増やしたい場合は Mechanize::PluggableParser を参照してください。
Mechanize::File を継承しています。

new - Mechanize::Page オブジェクトを生成
at - 条件に該当する HTML ノードをひとつ返す
body - サーバから取得した HTML を返す
code - ファイル取得時の HTTP リザルトコード数字文字列を返す
content - alias #body
content_type - Content-Type ヘッダの値を返す
encoding - パースに使用した文字エンコーディングを返す
encoding= - HTML の文字エンコーディングの値を指定
form - alias #form_with
form_with - 条件を満たす最初のFormオブジェクトをページからひとつ抜き出して返す
forms - ページに存在する form 要素のフォームオブジェクトを全て配列で返す
forms_with - 条件を満たすFormオブジェクトをフォームから全て抜き出して配列で返す
frame - alias #frame_with
frame_with - 条件を満たす最初のframeを表すFrameオブジェクトをページからひとつ抜き出して返す
frames - ページに存在する frame 要素のオブジェクトを全て配列で返す
frames_with - 条件を満たすframeを表すFrameオブジェクトをフォームから全て抜き出して配列で返す
header - alias #response
iframe - alias #iframe_with
iframe_with - 条件を満たす最初のiframeを表すFrameオブジェクトをページからひとつ抜き出して返す
iframes - ページに存在する iframe 要素のオブジェクトを全て配列で返す
iframes_with - 条件を満たす最初のiframeを表すFrameオブジェクトをフォームから全て抜き出して配列で返す
link - alias #link_with
link_with - 条件を満たす最初のLinkオブジェクトをページからひとつ抜き出して返す
links - ページに存在する a 要素と area 要素のリンクオブジェクトを全て配列で返す
links_with - 条件を満たすLinkオブジェクトをフォームから全て抜き出して配列で返す
mech - ファイルを取得したときの Mechanize オブジェクトを返す
parser - HTML を HTML パーサで解析した結果のオブジェクトを返す
response - サーバからのレスポンスヘッダを返す
root - alias #parser
save_as - HTML をディスクに保存する
save - alias #save_as
search - 条件に該当する HTML ノードを全て返す
title - ページのタイトルを返す
uri - サーバにアクセスした際の URI を返す
/ - alias #search
bases - ページに存在する base 要素のオブジェクトを全て配列で返す
base_with - 条件を満たす最初のBaseオブジェクトをページからひとつ抜き出して返す
bases_with - 条件を満たすBaseオブジェクトをフォームから全て抜き出して配列で返す
body= - サーバから取得した HTML を事後で置き換える
code= - ファイル取得時の HTTP リザルトコード数字文字列を事後で書き換える
filename - 保存メソッドでのデフォルトで使用されるファイルパスを返す
filename= - 保存メソッドでのデフォルトで使用されるファイルパスを指定する
images - ページに存在する img 要素のオブジェクトを全て配列で返す
image_urls - ページに存在する画像の URL を全て配列で返す
labels - ページに存在する label 要素のオブジェクトを全て配列で返す
labels_hash - ラベル文字列とLabelオブジェクトの対応を格納したHashを返す
mech= - このページからアクセスを行う際の Mechanize オブジェクトを指定
meta - ページに存在する meta 要素でリフレッシュに関わるものをオブジェクトにして全て配列で返す
response= - サーバからのレスポンスヘッダを事後で書き換える
uri= - サーバにアクセスした際の URI を事後で書き換える

Mechanize::Page.new(uri=nil, response=nil, body=nil, code=nil, mech=nil)

Mechanize::Page.new(uri=nil, response=nil, body=nil, code=nil, mech=nil){|page| optional_non_ensure_block}

ページを表す Mechanize::Page オブジェクトを生成します。ユーザーが使用することは通常ありません。
4つの引数に関しては継承もとの Mechanize::File.new を参照してください。
この Page.new の response 引数には、HTML であることを確定するために {'content-type' => 'text/html'} が必須です。ヘッダ名は小文字を推奨します。「空のページ」等の作成は、ヘッダがなくても動作する継承もとの Mechanize::File.new が簡便なのでお勧めです。
File に無かった第 5引数の mech はこのページのリンクのクリックやフォーム送信に使用する Mechanize オブジェクトです。これを指定しないとこのクラスのメソッドからサーバアクセスができないので実質必須です。
よく使われる記述は以下のようなものです。

# example.com.html の内容を http://example.com/ のページとみなす
page = Mechanize::Page.new(
                           URI.parse('http://example.com/'),
                           {'content-type' => 'text/html'},
                           File.open('example.com.html', 'rb'){|f| f.read},
                           '200',
                           agent)
# 自作のページを履歴に登録する
agent.__send__(:add_to_history, page)
agent.page.uri #=> http://example.com/

第 2引数 response の content-type の値に text/html か application/xhtml+xml か application/vnd.wap.xhtml+xml が含まれていない場合、Mechanize::ContentTypeError? が発生します。

at(xpath_or_css)

引数の条件に該当する HTML ノードを #parser から探し、合致する最初のものをひとつ返します。
parser.at(xpath_or_css) を行っています。Mechanize#html_parser がパースで返すオブジェクトの at メソッドの解説を参照してください。
デフォルトパーサの Nokogiri の場合、XPath か CSS3 記法で HTML のノード検索ができます。

body

サーバから取得した HTML（やXHTMLなど）を返します。
継承元の Mechanize::File#body を参照してください。
文字エンコーディング自体は変化していませんが、Ruby1.9 の場合、ASCII-8BIT に force_encoding されています。内部処理上はこれでも問題ないのですが、外部から Page#body として利用するような場合は気をつけてください。

code

このファイルをサーバから取得した際のリザルトコードを "200" などの 3桁の数字の文字列で返します。
継承元の Mechanize::File#code を参照してください。

content

alias #body

content_type

#response から "content-type" という小文字キーを探し、その値の文字列を返します。存在しない場合は nil を返します。
通常、レスポンスヘッダの Content-Type ヘッダの値が返ります。charset トークンなどもそのまま返されます。

Content-Type: text/html; charset=utf-8

というレスポンスヘッダだった場合、この content_type メソッドは "text/html" ではなく "text/html; charset=utf-8" という文字列を返します。

encoding

#parser のパース時に使用した（とparserが主張する）文字エンコーディング名を文字列で返します。
Mechanize#html_parser が Nokogiri ではない場合、nil が返ります。
HTML に meta charset

<meta http-equiv="content-type" content="text/html; charset=UTF-8">

が存在した場合はおおむねそれと同じものが返りますが（例の場合"UTF-8"）、トラブル時にはこの meta charset を読む行為ごとミスってることが多いので、パースのトラブル時の原因究明にはあまり向きません。実際の HTML の値が必要な場合は人力で直接 HTML に当たってください。再設定は #encoding= で行います。

encoding=(encoding_name)

HTML をパースするのに妥当な文字エンコーディングの値を明示的に文字列で再設定し、#parser を更新します。

agent.get(x_sjis_html)
p agent.page.encoding #=> "x-sjis"
agent.page.encoding = 'CP932'
p agent.page.encoding #=> "CP932"

引数 encoding_name は iconv にそのまま渡されるので、Mechanize の動作しているマシンにインストールされている iconv が解釈可能で動作可能なエンコーディング名をうまく指定してください。CP932 や EUC-JP、ISO-2202-JP、UTF-8、Windows-1252 などはおそらくどんな環境でも有効でしょう（iconvでのShift_JISは①②㍻㌔などの拡張文字を含んでいないのでエラーになります。CP932を指定してください）。
文字エンコーディング指定後、その新しい文字エンコーディングを使用して #parser が更新されます。ただし、引数 encoding_name が #encoding の返り値の文字列を大文字小文字無視で含んでいる場合（/#{encoding}/i =~ encoding_name）、再パースは行われません。
どんな場合でも必ず encoding_name とみなして再パースを行って欲しいという場合は、事前に手動でインスタンス変数 @parser を消去します。

agent.page.instance_variable_set(:@parser, nil)
agent.page.encoding = "Iconv的に正しいHTMLの文字エンコーディング名"

また、再パースしても既存のフォームやリンクを保持したインスタンス変数はリセットされません。#forms や #links などがページの返り値表示時に呼ばれてしまう irb で時々問題になります。なにか問題が起きた場合は該当するインスタンス変数を instance_variable_set で nil にするか、該当インスタンス変数の生成自体をなんとかして抑制してください。

irb> agent.get(bad_uri)
（formsやlinksの結果がinpsectで自動表示される）
irb> agent.page.encoding = 'correct encoding'
irb> agent.page.links... # @links が再パース前にセットされているので昔の変なまま
irb> agent.history.clear
irb> agent.get(bad_uri); nil
irb> agent.page.encoding = 'correct encoding'
irb> agent.page.links...

form

alias #form_with

form_with(pattern)

form_with(pattern){|tgt| optional_non_ensure_block}

{メソッド名 => 返り値} という条件を満たす Mechanize::Form オブジェクトを #forms から探し、最初のものを返します。
動作は Mechanize::Form#xxxx_with を参照してください。

有効なメソッドと値のペアは Mechanize::Form のメソッドと返り値になります。

# name が f1 なフォームを探してブロックに渡す
agent.page.form_with(:name => 'f1'){|form|
  form.field_with...
}

# action 属性が /search なフォームを探す
form = agent.page.form_with(:action => '/search')

forms

#parser から form 要素を検索し、出現順に Mechanize::Form オブジェクトにして配列で返します。
form 要素が無かった場合は空の配列 [] を返します。
内部変数 @forms に配列がキャッシュされているので、このメソッド使用後に #parser が更新されても反映されません。
条件による抽出は #form_with と #forms_with で行うことができます。

forms_with(pattern)

forms_with(pattern){|tgt| optional_non_ensure_block}

{メソッド名 => 返り値} という条件を満たす Mechanize::Form オブジェクトを #forms から探し、全てを配列で返します。
動作は Mechanize::Form#xxxxs_with を、条件については #form_with を参照してください。

frame

alias #frame_with

frame_with(pattern)

frame_with(pattern){|tgt| optional_non_ensure_block}

{メソッド名 => 返り値} という条件を満たす Mechanize::Page::Frame オブジェクトを #frames から探し、最初のものを返します。
動作は Mechanize::Form#xxxx_with を参照してください。
有効なメソッドと値のペアは Mechanize::Page::Frame のメソッドと返り値になります。

# src が left.html で指し示されるフレームの HTML を取得
agent.page.frame_with(:src => 'left.html').click
# name が left であるフレームの HTML を取得
agent.page.frame_with(:name => 'left').click

frames

#parser から frame 要素を検索し、出現順に Mechanize::Page::Frame オブジェクトにして配列で返します。
frame 要素が無かった場合は空の配列 [] を返します。
内部変数 @frames に配列がキャッシュされているので、このメソッド使用後に #parser が更新されても反映されません。
条件による抽出は #frame_with と #frames_with で行うことができます。

frames_with(pattern)

frames_with(pattern){|tgt| optional_non_ensure_block}

{メソッド名 => 返り値} という条件を満たす Mechanize::Page::Frame オブジェクトを #frames から探し、全てを配列で返します。
動作は Mechanize::Form#xxxxs_with を、条件については #frame_with を参照してください。

header

alias #response

iframe

alias #iframe_with

iframe_with(pattern)

iframe_with(pattern){|tgt| optional_non_ensure_block}

{メソッド名 => 返り値} という条件を満たす Mechanize::Page::Frame オブジェクトを #iframes から探し、最初のものを返します（IFrameクラスというものはありません）。
動作は Mechanize::Form#xxxx_with を参照してください。
有効なメソッドと値のペアは Mechanize::Page::Frame のメソッドと返り値になります。

# src が inner.html で指し示されるインラインフレームの HTML を取得
agent.page.iframe_with(:src => 'inner.html').click

iframes

#parser から iframe 要素を検索し、出現順に Mechanize::Page::Frame オブジェクトにして配列で返します（IFrameクラスというものはありません）。
iframe 要素が無かった場合は空の配列 [] を返します。
内部変数 @iframes に配列がキャッシュされているので、このメソッド使用後に #parser が更新されても反映されません。
条件による抽出は #iframe_with と #iframes_with で行うことができます。

iframes_with(pattern)

iframes_with(pattern){|tgt| optional_non_ensure_block}

{メソッド名 => 返り値} という条件を満たす Mechanize::Page::Frame オブジェクトを #iframes から探し、全てを配列で返します（IFrameクラスというものはありません）。
動作は Mechanize::Form#xxxxs_with を、条件については #iframe_with を参照してください。

link

alias #link_with

link_with(pattern)

link_with(pattern){|tgt| optional_non_ensure_block}

{メソッド名 => 返り値} という条件を満たす Mechanize::Page::Link オブジェクトを #links から探し、最初のものを返します。
動作は Mechanize::Form#xxxx_with を参照してください。

有効なメソッドと値のペアは Mechanize::Page::Link のメソッドと返り値になります。
なお、Mechanize::Page::Link に name メソッドがないので、他の xxxx_with のように引数に文字列を渡すとエラーになります。

# href が index.html なリンクを探してクリック
agent.page.link_with(:href => 'index.html'){|link|
  link.click
}
# text の返り値が「ホーム」にマッチするリンクを探してクリック
agent.page.link_with(:text => /ホーム/).click # utf-8

links

#parser から a 要素と area 要素を検索し、Mechanize::Page::Link オブジェクトにして配列で返します。
a 要素も area 要素も無かった場合は空の配列 [] を返します。
出現順の a 要素の Link オブジェクトのあと、出現順の area 要素の Link オブジェクトが配列に入っています。何らかの理由で混合の出現順配列が欲しい場合は links.sort_by{|link| link.node} してください。
内部変数 @links に配列がキャッシュされているので、このメソッド使用後に #parser が更新されても反映されません。
条件による抽出は #link_with と #links_with で行うことができます。

links_with(pattern)

links_with(pattern){|tgt| optional_non_ensure_block}

{メソッド名 => 返り値} という条件を満たす Mechanize::Page::Link オブジェクトを #links から探し、全てを配列で返します。
動作は Mechanize::Form#xxxxs_with を、条件については #link_with を参照してください。

mech

このページが含むリンクオブジェクトやフォームオブジェクトから Mechanize::Page::Link#click 等でアクセスを行う際に使用する Mechanize オブジェクトを返します。
デフォルトはこの Page オブジェクトが Mechanize::Page.new で作成されたときに引数で設定されたものです。設定されなかった場合は nil です。
nil である場合、Mechanize::Page::Link#click メソッドや Mechanize::Form#click_button メソッドによるリンクアクセスやフォームアクセスができなくなります（agent.click(agent.page.links[0]) 等は動作します）。
再設定は #mech= で行います。

parser

#body を HTML パーサ Mechanize#html_parser でパースした結果の解析済みオブジェクトを返します。
デフォルトパーサの Nokogiri では Nokogiri::HTML::Document か Nokogiri::XML::Document クラスのオブジェクトが、オプショナルな Hpricot では Hpricot::Doc クラスのオブジェクトが返ります。
#encoding= にエンコーディング名の引数が渡されたとき、再パースが行われます。パース内容が間違っているときは #encoding= を使用してください。
Nokogiri を使用している場合、ページのパースに失敗したときはこの返り値の errors メソッドに各種エラーオブジェクトが格納されます。

puts agent.page.parser.errors

結果：

input conversion failed due to input error, bytes 0x87 0x40 0x87 0x41
input conversion failed due to input error, bytes 0x87 0x40 0x87 0x41
htmlCheckEncoding: encoder error
input conversion failed due to input error, bytes 0x87 0x40 0x87 0x41
encoder error

response

サーバから送られてきた HTTP レスポンスヘッダを Mechanize::Headers オブジェクトで返します。
継承元の Mechanize::File#response を参照してください。

root

alias #parser

save_as

save_as(filepath=nil)

#body をバイナリモードでファイルに保存します。
継承元の Mechanize::File#save_as を参照してください。

save

alias #save_as

search(xpath_or_css)

引数の条件に該当する HTML ノードを #parser から探し、合致するものをすべて返します。
parser.search(xpath_or_css) を行っています。Mechanize#html_parser がパースで返すオブジェクトの search メソッドの解説を参照してください。
デフォルトパーサの Nokogiri の場合、XPath か CSS3 記法で HTML のノード検索ができます。

title

<title> に囲まれた文字列（title 要素）を返します。
<title> そのものが無い場合や囲まれた文字列が空の場合は nil を返します。
ただの inner_text なので、文字参照は解決されていますが前後の空白等は HTML で書かれたときのままです。

<html>
  <title>テスト
  </title>
</html>

という HTML だった場合、title メソッドは "テスト \n" を返します。
マルチバイト文字は Mechanize#html_parser が扱うエンコーディング（通常 UTF-8）で返ります。<title> が複数存在する不正な HTML の場合は単純に連結された結果を返します。
内部変数 @title に文字列がキャッシュされているので、このメソッド使用後に #parser が更新されても反映されません。

uri

このファイルを取得した際の最終的な URI オブジェクトを返します。
継承元の Mechanize::File#uri を参照してください。

/

alias #search

bases

#parser から base 要素を検索し、出現順に Mechanize::Page::Base? オブジェクトにして配列で返します。
base 要素が無かった場合は空の配列 [] を返します。
内部変数 @base に配列がキャッシュされているので、このメソッド使用後に #parser が更新されても反映されません。
条件による抽出は #base_with と #bases_with で行うことができますが、ユーザーが使用する機会はおそらくないでしょう。

base_with(pattern)

base_with(pattern){|tgt| optional_non_ensure_block}

{メソッド名 => 返り値} という条件を満たす Mechanize::Page::Base? オブジェクトを #bases から探し、最初のものを返します。
動作は Mechanize::Form#xxxx_with を参照してください。
有効なメソッドと値のペアは Mechanize::Page::Base? のメソッドと返り値になります。

bases_with(pattern)

bases_with(pattern){|tgt| optional_non_ensure_block}

{メソッド名 => 返り値} という条件を満たす Mechanize::Page::Base? オブジェクトを #bases から探し、全てを配列で返します。
動作は Mechanize::Form#xxxxs_with を、条件については #base_with を参照してください。

body=(str)

サーバから取得して gzip 展開済みの HTML であったものを、引数の文字列で置き換えます。
継承元の Mechanize::File#body= を参照してください。
Ruby1.9 では #parser 内部の Nokogiri が HTML の Encoding を読むことがあるようなので、#encoding での二度手間を避けるためにもできれば正しい Encoding を設定した文字列を引数に指定してください。

code=(digit)

このファイルをサーバから取得した際のリザルトコードを3桁の数字の文字列で再設定します。
継承元の Mechanize::File#code= を参照してください。

filename

#save_as で引数なしのときに使用される保存用ファイルパスを返します。
継承元の Mechanize::File#filename を参照してください。

filename=(path)

#save_as で引数なしのときに使用される保存用ファイルパスを文字列で設定します。
継承元の Mechanize::File#filename= を参照してください。

images

#parser から img 要素を検索し、出現順に Mechanize::Page::Image? オブジェクトにして配列で返します。
img 要素が無かった場合は空の配列 [] を返します。
内部変数 @images に配列がキャッシュされているので、このメソッド使用後に #parser が更新されても反映されません。
残念ながら条件による抽出を行う image_with のようなメソッドはありません。

image_urls

#images に含まれる Image オブジェクトの Mechanize::Page::Image#url? メソッドの返り値を集め、重複を取り除いて配列で返します。
img 要素がページにない場合や、src 属性が空の img だけという嫌がらせがあった場合には空の配列 [] を返します。
内部変数 @image_urls に配列がキャッシュされているので、このメソッド使用後に #parser が更新されても反映されません。
残念ながら条件による抽出を行う image_url_with のようなメソッドはありません。

labels

#parser から label 要素を検索し、出現順に Mechanize::Page::Label? オブジェクトにして配列で返します。
label 要素が無かった場合は空の配列 [] を返します。
内部変数 @labels に配列がキャッシュされているので、このメソッド使用後に #parser が更新されても反映されません。
残念ながら条件による抽出を行う label_with のようなメソッドはありません。Mechanize がラベルを検索する際に使用されるメソッドで、ユーザーが使用することはないでしょう。