インポート処理

ComicCafeをインストールして最初にやることは自炊ファイルのインポートです。
インポートすることでComicCafeサーバは自炊ファイルを認識し、Androidアプリから読むことができるようになります。
インポートはとても重要な処理で、少し複雑なルールがあるので詳しく説明します。

ファイル名について

ComicCafeはインポート時にファイル名を頼りにブックを分類します。
ComicCafeでは自炊ファイルを以下のルールで管理することを期待して作成されています。
この管理ルールは強制ではありませんが、ルールに従うことでComicCafeの機能を効率良く使うことができます。

1.1冊のブックが1ファイル(圧縮ファイル、PDF)であること。
  入れ子の圧縮ファイルもサポートしていますが、1ファイルを1ブックとして認識します。
2.圧縮ファイルに含まれている画像ファイルのファイル名はページ順にソートされていること。
  page1,page2,page3 ... page10のように桁数がバラバラのファイル名は問題なく処理されます。
3.同一シリーズのブックが同じフォルダに保存されていること。
  例えば「北斗の拳」1巻～最終巻は「北斗の拳」というフォルダに入れて管理するという意味です。
  ComicCafeは自炊ファイルが格納されているフォルダをシリーズとして認識します。
  本によってはシリーズによる分類が難しい場合もありますので、その場合は、適当なフォルダ名をつけるのが望ましいです。
4.自炊ファイルのファイル名には、最低でもタイトル、巻数、著者名がふくまれているのが望ましいです。
  例えば
  [鳥山明]ドラゴンボール 1巻.zip
  のような感じです。単語の区切り文字にはスペースやカッコ、アンダーバー等なんでも使うことができます。
  【鳥山明】トラゴンボール_1巻.zip
  鳥山明 トラゴンボール 1.zip
  などでも、問題ありません。
5.自炊ファイルが格納されているフォルダ以外のフォルダはカテゴリという扱いになります。
  私は以下の様な構成で管理していますが、フォルダの構成は自由に決めていただいて問題ありません。
  Book
    |-説明書
    |-技術本
    |-漫画
      |-週間少年マガジン
      |-週間少年ジャンプ
            |-[鳥山明]ドラゴンボール
                    |-[鳥山明]ドラゴンボール 1巻.zip
                    |-[鳥山明]ドラゴンボール 2巻.rar

インポート処理に関係する設定

[設定]->[インポート]->[インポート時に横長の画像は２分割して表紙画像を生成する]

インポート時に自炊ファイル内に含まれる最初の画像を表紙画像として登録します。
その画像は横長の場合、画像を分割して表紙画像とするかどうかを指定します。
これにより表紙を裏表紙と一緒にスキャンしている場合に、前表紙のみが表紙として表示されるようになります。

[設定]->[ISBNのスキャン]->[インポート時にISBNをスキャンする]

インポート時に画像に含まれるバーコードをスキャンするかどうかを指定します。
有効にした場合、画像の解析を行い画像の中からISBNのバーコードを探してスキャンします。
スキャンに成功した場合、ISBNとしてDBに登録されます。
この処理は負荷の高い処理になるので、有効にして大量の自炊ファイルをスキャンすると処理時間がかなりかかる可能性があります。
画像が不鮮明だったり、傾きが大きい場合は画像にバーコードが含まれていてもスキャンに失敗することがあります。

[設定]->[ISBNのスキャン]->[先頭ページからスキャンするページ数]

ISBNのスキャンを有効にした場合、最初のページから何ページまでをスキャンするか指定します。
最初のページに必ずバーコードが含まれている場合は、1に設定してください。
スキャンするページ数を増やすと、インポートにかかる時間が長くなります。

[設定]->[ISBNのスキャン]->[最終ページからスキャンするページ数]

ISBNのスキャンを有効にした場合、最後のページから何ページまでをスキャンするか指定します。
スキャンするページ数を増やすと、インポートにかかる時間が長くなります。

[設定]->[PDF]->[PDFを処理するライブラリ]

ComicCafeはPDFを処理する際、Jpeg画像に変換して処理します。
インポート時は表紙画像を生成する為に、画像変換を行います。
PDFを処理するのにComicCafeではPdfBoxとPdfRendererというオープンソースのライブラリを使用しています。
これらのライブラリは万能ではなく、PDFによっては正しく処理できない場合があります。
もし、PDFの表紙画像がうまく作成されなかった場合、は使用するライブラリを切り替えてみてください。

ファイル名の解析処理

インポートの処理を以下のパスにファイルが存在すると仮定して説明します。

/Volumes/RAID5HD/Books/漫画/週刊少年ジャンプ/[鳥山明]ドラゴンボール/[一般コミック][鳥山明]ドラゴンボール 1巻.zip
  *** 2～41巻 ***
/Volumes/RAID5HD/Books/漫画/週刊少年ジャンプ/[鳥山明]ドラゴンボール/[一般コミック][鳥山明]ドラゴンボール 42巻 (完).zip

まず、インポートのルートとなるディレクトリを選択します。
今回の例では「Books」フォルダか「漫画」フォルダが適切だと思います。
仮に「Volumes」フォルダをルートフォルダとしてしまうと、「Volumes」「RAID5HD」もカテゴリとして認識されてしまいます。
また、検索するファイル数が増えるためインポート処理に時間がかかることになります。
ここではルートフォルダに「Books」を選択した場合を例として説明します。

  A.Booksフォルダ以下にある、以下の条件に該当するファイルを再帰的に検索します。
    ・拡張子がCBZ/ZIP,CBR/RAR,7Z/CB7,LZH,PDFのいずれかであること。（大文字小文字は区別しません）
    ・圧縮ファイルの中にJPG,JPEG,PNG,GIFのファイルが1つ以上存在すること
    ・既にインポート済みでないこと。（同じハッシュ値のファイルがインポートされている場合はスキップします）
  B.ルートフォルダから見つかった自炊ファイルが保存されているフォルダまでを、カテゴリ、シリーズとして認識します。
    例では「Books」「漫画」「週刊少年ジャンプ」の3フォルダがカテゴリとして登録され、「[鳥山明]ドラゴンボール」がシリーズとして登録されます。
    自炊ファイルが保存されていて、さらに子フォルダが存在するようなフォルダは、カテゴリ、シリーズの両方として登録される可能性があります。
  C.シリーズとなるフォルダのフォルダ名と、自炊ファイルのファイル名を解析します。
    まずカッコで括られている文字や、アンダーバー、ハイフン、スペースなので分割されている文字を分解します。
    上記の例では、'一般コミック', '鳥山明', 'ドラゴンボール', '42', '巻', '完'に分割されます。
    ComicCafeのDBには予め大量の著者、出版社の情報が保存されています。そのデータを使って分割した文字列が何を意味しているのかを判断します。
    
    '一般コミック'     : カッコにくくられている著者でも出版社でも特別な文字でもないので、タグとして認識します。
    '鳥山明'           : 著者データベースに存在するデータなので、著者として認識します。
    'ドラゴンボール'   : カッコなどにくくられていない不明な文字列なのでタイトルの一部として認識します。
    '42'               : 数字なので巻数である可能性が高いと認識します。※1
    '巻'               : 巻数を表す文字列だと認識します。
    '完'               : カッコにくくられた特別な文字だと認識し、このシリーズが完結していると判断します。
    
    ※例えば「エリア88」など数字を含む漫画の場合は、うまく判断できない可能性があります。
    ※自炊ファイルに著者名が含まれていなくても、シリーズのディレクトリに著者名が含まれていれば、ブックの著者として登録されます。
    ※例え著者の名前であっても、ComicCafeのDBに登録されていない場合は、著者として認識されません。その場合は著者の管理画面から著者を登録してください。
    ※カッコの対応が不正だと、うまく処理されません。例えば {一般コミック] などです。（半角、全角も区別します）
    ※処理の結果、意図しない文字列がタグとして登録される可能性があります。その場合はタグの管理画面から不要なタグを削除してください。