hack のためのネタ帳, etc,,,

状況

wget で
wget https://example.com/~foo/bar.html -p
とか
wget https://example.com/~foo/bar.html -m
のように -p, --page-requisites や -m, --mirror オプションを付けて、リンクされてるファイルをディレクトリ階層付きで保存した際に、
"~" (Tilde: U+007E, UTF-8: "\x7e") が、
"‾" (Overline: U+203E, UTF-8: "\xe2\x80\xbe") になったり、
"\x80" だけ percent-encoding されて "\xe2%80\xbe" みたいになってしまう。
手元の環境だと以下のような感じ。
OSwget状況
Ubuntu 16.04.5 LTSGNU Wget 1.17.1 built on linux-gnu."\xe2%80\xbe"
CygwinGNU Wget 1.19.1 built on cygwin."‾"
Ubuntu 18.04.3 LTSGNU Wget 1.19.4 built on linux-gnu."‾"
Debian unstableGNU Wget 1.20.1 built on linux-gnu."‾"

wget ~ ‾ 文字化け」とかでググっても、良い情報が引っかからずしばらく悩んで、
wget tilde」でググると、自分のメモ「wget - troubleshooting # 2014-02-15: --mirror 動作時に ~ (tilde: チルダ)が化ける」が見つかって解決するという見事な記憶喪失ぶりorz
自分のためにも、ググラビリティの高いメモ重要。

解決方法

以下のいずれかの方法が有効だった
  • --remote-encoding オプションに ASCII, EUC-JP, UTF-8 のいずれかを与える
  • --no-iri オプションを与える
以前のメモで、有効としていた以下の方法は効果がなかった。
  • 環境変数を LANG=C にする

コメントをかく


「http://」を含む投稿は禁止されています。

利用規約をご確認のうえご記入下さい

Wiki内検索

フリーエリア

管理人/副管理人のみ編集できます