hack のためのネタ帳, etc,,,

状況

mac の Safari で web ページを名前を付けて保存してもらいメール添付してもらったんだが、.webarchive 形式が独自形式でわけわからん過ぎて読めない。
いきなり本題から脇道にそれるが、Sophos Home ってセキュリティ対策ソフトのスキャン履歴がなぜかクラウド上でしか見れなくて、これ .webarchive 形式にするとおおよそ 20MB くらいになるんだが、うち 17.6MB が sophos.js って、なんだよこいつは?
閑話休題。
とりあえずなんかないのかとググった。

まず textutil コマンド使えば
textutil -convert html hoge.webarchive
で展開できるみたいな話が見つかったが、これ mac 専用じゃね?
少なくとも Ubuntu にはそんなコマンドないわ。

参考:
次に、WebArchive Folderizer やら Web Archive Extractor やらで展開出来るという話も見つかったのだが、これも mac 用の GUI アプリなんじゃ?
なんで、金庫の中の金庫の鍵で金庫を開けろみたないな間抜けな話を。mac 使えるなら Safari で読めるし。

参考:
で、幾つか当たってたどり着いた解決策は
pywebarchive に付属の extractor.py (ただし pypi install すると付いてこないので GitHub から披露必要がある)を使うこと。
extractor.py hoge.webarchive
ってすると、hoge.html と hoge_files/ が生成される。
また -s オプションを使うと data URL scheme を使って必要ファイルを埋め込んで 1 ファイル構成にすることも出来た。
ただし、Sophos Home のスキャンファイルのような大きい奴を embedded にすると Firefox だとタブがクラッシュした。

あと、Chrome だと以下のような拡張機能もあるようだ。

コメントをかく


「http://」を含む投稿は禁止されています。

利用規約をご確認のうえご記入下さい

Wiki内検索

フリーエリア

管理人/副管理人のみ編集できます