ヘルプ:紙資料のスキャン

紙資料のスキャン

姉妹プロジェクト：データ項目

理想としてウィキソースの素材は、書籍や雑誌、新聞などの物理的な原本のスキャンをもとに校正するべきです。そのため、この作業工程の第1段階は初めにテキストをスキャンしてデジタル化することです。すでに利用可能なスキャンデータが見つからなければ^[1]、ウィキソースのボランティアがスキャンする必要があります。以下の指示はスキャン中の書籍に言及していますが、同様に他の印刷メディアにも当てはまります。

工事中

第1段階

このヘルプページでは、原作の完全な印刷版が利用可能であり、著作権状態を確認してウィキソースへの作品のアップロードが法に違反していないことが確実であると想定しています。まだそうなっていない場合は今すぐ確かめてください。労力の最終成果が、著作権法、方針、慣習等に反するため投稿が禁じられていると後になって気づくのを防ぐためです。この工程はヘルプ:資料を追加するとヘルプ:ファイルを追加するで説明してあります。

スキャン

作品のスキャンにはさまざまな道具・方法があります。

綴じられている本をスキャンするのは、綴じ部分によって難しい可能性があります。書籍は通常とは異なる形状の物体であり、一般的なスキャン機器にピッタリとはまりません。破壊的スキャンを使用しない場合はスキャン作業中に本が損傷しないように注意もしなければなりません。

V字作業台付きスキャナー

書籍のスキャンに最良の手段はV字型の作業台がついた特別のスキャナーです。これによって本が自然な読書態勢になるのが容易になり、本の背に損傷を与えることなくページを平らに維持することができます。また、通常通り容易にページがめくられるため、非常に速いです。このタイプの商用スキャナーは非常に高価です。アマチュア向けの特注版のほうがはるかに安いですが、イチから組み立てる必要があります。

自作版には作業台1基と、各ページをスキャンするデジタルカメラ1つないし2つが搭載されています。作業台の素材は何でもよく、段ボールから木材、金属にわたります；本の両側をタテから45度ずつ開き、角度を90度に維持する必要があります。カメラはページに直接向け、正しい角度にしなければなりません；そうしなければスキャン画像がゆがんで見えます。本のサイズに応じて、スキャン作業が進んでもカメラに対して同じ角度に維持するために、作業台を調整できるようににしておく必要があるかもしれません（本の厚みが片側から反対側に移ることで、作業台とカメラに対するページの中央位置が変わり、アウトプットが次第に歪んでいきます）。ページをスキャン中平らに維持するため、ガラス枠（特別に用意しまたは一般的な額縁を適合させる）が必要になります。照明はページを照らすときでさえ、拡散させるべきです。人間の目はさまざまな段階の照明に順応できる一方、コンピューターソフトウェアは処理段階で特に敏感で、光学文字認識に干渉します。また直接照明は、ページを平らに維持するガラス枠にグレア（ギラギラとした光）を引き起こすかもしれません。

フラットベッド・スキャナー

フラットベッド・スキャナーは、書籍スキャン用としてV字作業台付きほどはよくありませんが、次善の選択肢であり、さまざまなバージョンが存在します。これらの機器は購入するには高いことがあり得ます。

あるバージョンは特別なフラットベッド機器で、スキャンが機器の端っこまで及び、本の片方を平らにし、綴じ部分の蝶つがい側をスキャナーの外側にすることができます^[2]。

もう1つのバージョンはオーバーヘッド・スキャナーです。本を開いてスキャナーの下に置き、片側のページの、または両側の可視ページ一緒の、画像を撮影します。ページが内側に曲がるため、均一に平らに置くときよりも、本の開き部分に向けて歪みが生じます。

代替策として、特別なフラットベッド書籍スキャナーを使う代わりに、本を標準的フラットベッド・スキャナーに押し付けることもできます。この方法では、オーバーヘッド・スキャナーの箇所で説明したのと同様の問題が生じます。また、この方法で本を圧迫すると、本と綴じ部分に損傷を与えるかもしれません。

機械の大きさによって、フラットベッド・スキャナーのスキャン領域には制約があります。これらの機器は通常A4フォーマットで4つ折り判（およそ25cm×20cm）までです。それより大きいものではA3スキャナーが必要になります。代替策として、コピー機でページを小さくしてから、コピーをスキャンすることもできます。

コピー機能付き複合機

現代の事務機器にはスキャン機能と処理ソフトウェアが搭載されています。フラットベッド・スキャナーの箇所で説明した制約が同様に当てはまります。

デジタルカメラ

スキャンと同じくらい確実に高品質というわけにはいきませんが、単純に文章の写真を撮るのは完全に実行可能なデジタル化手段です。一般的に手早くて簡単で、特にカメラは、スキャナーが無理な場面でも許可され、または実行可能であることが多いです。手持ち写真機を直接使用して準備した文章の例は、en:Base Facilities Reportをご覧ください。

注意：三脚、一脚、その他の支持装置を使用した場合、V字作業台またはオーバーヘッドの書籍スキャナーの機能が、通常のデジタルカメラでも再現できます。

破壊的スキャン

破壊的スキャンは推奨しませんが、網羅性のために言及はしておくべきです。この方法は、上記で述べた一般とは異なる形の書籍をスキャンするときの問題を回避することができます。名称が示唆するように、これは物理的な書籍をスキャン画像の一部として破壊します。

破壊的スキャンは書籍をバラバラに分離するという意味です。これには、ページを綴じ部分から切り外したり、ホチキス針、綴じ糸、その他の本のパーツを取り除いたりする作業が必要になるかもしれません。その結果、綴じられた本ではなく、バラバラのページの山になります。それによって、これらのページはスキャン機器に平らに置くことができ、原稿自動送り装置までも利用できるようになります。

これは他のどのスキャン形態よりも、手早く簡単です。ですが、繰り返しになりますが、本を破壊することになります。

処理

スキャンを入手したら、1ファイルにまとめる必要があります。スキャンした文章はコンテナフォーマットのDjVu形式で1ファイルにすべきです。スキャナーの中には以下の形式のいずれかでアウトプットできるかもしれません。しかし、多くはおそらくJPEGかJPEG2000形式で一連の各ページが作成されます。これらはDjVu形式に変換する必要があります。

作業前

ファイル作成のまえに、コピーを作成するか、そうでなければ挿し絵その他の図画を含むページのスキャンデータを取っておくのがいいアイディアです。これらは別に抽出してアップロードすることで、完成版に対して校正中に追加することができます。画像は可能ならばいつでも、ナマの未処理スキャンから抽出すべきです。いかなる処理も、画質を低下させる結果となるおそれがあり、特に特定の画像ファイル形式において保存と圧縮が繰り返される場合に起こります。くわえて、ページのスキャンデータを1つのファイルに結合すると、いくらか圧縮されます；たとえば、PDFはDjVuより圧縮の度合いは低いですが、どちらも画質が若干低下します。そのため、他の選択肢がない場合を除き、画像はまとめたファイルから抽出すべきではありません。もとの画像が、あなたの利用可能なものの中で最良の画質でしょう。

1つのファイルを作成する前に、画像を変換したいと思うかもしれません。スキャン方法や状況に応じては、一部または全部のページがゆがんでいるかもしれません。回転し、ふちを切り落とし、ゆがみを直し、またはさもなくばいじくる必要があるかもしれません。もしもスキャンデータが2ページを1画像ファイルにまとめていれば、別々のファイルに分割する必要があります。目標は、各ページのスキャンデータが、原作から取得した単一の平らなページの、正確なファイルであることです。

個々のスキャンデータはファイル名を変える必要があるかもしれません。一部の処理はアルファベット順に正しく並べる必要があります。これを達成する一般的な方法として、「作品名000」のようなファイル名―「作品名」が作品の識別子、000が増加するページ番号―のようなファイル名を使います。一部のスキャン方法は、左側と右側にページを分割して2セットのスキャンデータを作成しますが、再結合する必要があります。この場合はどちらも増分を2にして別々に改名するのが一番です。そうすることで、コピーによって同じフォルダにまとめると、すでに正しい順序で並べられています。（もしもセットが本の後ろから冒頭の順でスキャンされているときは、最終ページから始め、もう一方のセットと合わせるために増分を -2 にする必要があります。）IrfanViewというプログラムはバッチによるファイル改名が実行できます。

一部の人はページの彩度を減じ、カラーではなく白黒画像にすることに決めています。これは推奨できません。最終のファイルサイズを減少できますが、もはや現代技術への重要な配慮とはいえません。カラーのページのスキャンデータはモノクロよりも情報量が多いです；たとえば、茶色のシミその他の変色が黒の文章にかぶさるように含まれているかもしれません。そのような場合、カラーでは読めるのに白黒では不明瞭になります。利用者の観点では、真っ白なページは校正中に眼精疲労を起こす人もいます。

ファイル作成

もっとも易しいスキャンの処理方法はインターネット・アーカイブへアップロードすることです。インターネットアーカイブが作業者にこの指示をします。そのため、1つにまとめたページファイルのスキャンデータでZIPファイルを作成し、アップロードしてください。しばらくすると、OCRのテキスト・レイヤーが生成されます。

詳細は、ヘルプ:DjVuファイル（en:Help:DjVu files#The Internet Archive）をご覧ください。

写真と挿し絵

作品中のすべての挿し絵とその他の図画は画像ファイルとして分割する必要があります。スキャン・ファイルから直接、校正済み翻刻版へ移すことはできません。

ページ・スキャンの原本を保存するか、前処理段階で図画付ページ・スキャンを分けておくべきです。画像はこれらから抽出し、ウィキソースおよび作品の再利用者が利用可能な形式にする必要があります。これには少なくとも、画像の切り抜きが必要になりますが、さらなる処理（回転、ゆがみ補正、色および水平の調整のみならずアルファ・チャネル（透明度）なども）が必要になるかもしれません。無料の画像処理ソフトウェアのGIMPがこの作業において便利です。

保存するときは個々の画像ファイルごとに最適なフォーマットを選んでください。JPEGファイル・フォーマットが、写真およびカラーの綿密な挿し絵に最適です。PNGファイルは、図解やモノクロの単純な挿し絵に最適です。

アップロード

ファイルを作成して図画をすべて抽出したら、ウィキメディア・コモンズにアップロードすべきです。

もしもスキャン処理にウェブサイトを使用しており、そのサイトが不変のURLであれば、URL2Commonsというツールで直接移せます（en:Help:URL2Commonsを参照）。そうでなければ、まずはファイルをコンピューターにダウンロードして通常の方法でアップロードする必要があります。後者の場合、または自身でファイルを作成した場合は、ウィキメディア・コモンズでの通常のアップロードの指示に従ってください。

複数のファイルが関連する場合（たとえば画像がある場合）、ファイルに対して特別のカテゴリーを作成すると便利になりえます。このカテゴリには、1カ所にまとめられたスキャンとすべての関連ファイルを含めるべきです。これは、特定のファイルを見つけるとき、および移動、改名、カテゴリ変更のような管理目的において、あなたや他のすべての人にとって便利です。

一部の場合、ウィキメディア・コモンズは一部のファイルを受け付けません。これは、最低限の法的要件に加え、コモンズにおける方針があるためです（アメリカ合衆国ではパブリックドメインだが母国ではいまだ著作権が保護されている作品はコモンズでは認められません）。

註

↑ インターネット・アーカイブやGoogle Booksなどのサイトで見つけられることが多いです。
↑ Plustek OpticBook 3600が書籍スキャン用の特別なフラットベッド・スキャナーの1例です。

外部リンク

ソフトウェア

IrfanView, a graphic viewer with batch-processing features.
GIMP, (GNU Image Manipulation Program), image editing software.
Scan Tailor, a useful post-processing tool for scanned pages which uses unpaper (example page). A basic unpaper GUI exists as well.
PDF creation guides: from JPG (with pdfbeads) or from TIFF (with tiff2pdf, tesseract etc.) or from any image.
- See also pdfjam or QPDF for PDF surgery.
- With pdfsandwhich you can do automatic cleanup and OCR of image PDFs.