wget で
"~" (Tilde: U+007E, UTF-8: "\x7e") が、
"‾" (Overline: U+203E, UTF-8: "\xe2\x80\xbe") になったり、
"\x80" だけ percent-encoding されて "\xe2%80\xbe" みたいになってしまう。
手元の環境だと以下のような感じ。
「wget ~ ‾ 文字化け」とかでググっても、良い情報が引っかからずしばらく悩んで、
「wget tilde」でググると、自分のメモ「wget - troubleshooting # 2014-02-15: --mirror 動作時に ~ (tilde: チルダ)が化ける」が見つかって解決するという見事な記憶喪失ぶりorz
自分のためにも、ググラビリティの高いメモ重要。
wget https://example.com/~foo/bar.html -pとか
wget https://example.com/~foo/bar.html -mのように -p, --page-requisites や -m, --mirror オプションを付けて、リンクされてるファイルをディレクトリ階層付きで保存した際に、
"~" (Tilde: U+007E, UTF-8: "\x7e") が、
"‾" (Overline: U+203E, UTF-8: "\xe2\x80\xbe") になったり、
"\x80" だけ percent-encoding されて "\xe2%80\xbe" みたいになってしまう。
手元の環境だと以下のような感じ。
OS | wget | 状況 |
---|---|---|
Ubuntu 16.04.5 LTS | GNU Wget 1.17.1 built on linux-gnu. | "\xe2%80\xbe" |
Cygwin | GNU Wget 1.19.1 built on cygwin. | "‾" |
Ubuntu 18.04.3 LTS | GNU Wget 1.19.4 built on linux-gnu. | "‾" |
Debian unstable | GNU Wget 1.20.1 built on linux-gnu. | "‾" |
「wget ~ ‾ 文字化け」とかでググっても、良い情報が引っかからずしばらく悩んで、
「wget tilde」でググると、自分のメモ「wget - troubleshooting # 2014-02-15: --mirror 動作時に ~ (tilde: チルダ)が化ける」が見つかって解決するという見事な記憶喪失ぶりorz
自分のためにも、ググラビリティの高いメモ重要。
以下のいずれかの方法が有効だった
- --remote-encoding オプションに ASCII, EUC-JP, UTF-8 のいずれかを与える
- --no-iri オプションを与える
- 環境変数を LANG=C にする
- wget - troubleshooting # 2014-02-15: --mirror 動作時に ~ (tilde: チルダ)が化ける
タグ
コメントをかく