提供: Wikisource
ナビゲーションに移動 検索に移動


インターネット・アーカイブからの、DjVu由来の画像(左上)と"Read online"の画像(右下)との比較。ぼやけ、ブロック化、細部の欠落など甚大な品質低下が明白です。しかし、この理由は明らかではありません。というのも、原作者がDjVu版を作成した方法を説明していないからです。
同じGoogle Bookスキャンからインターネット・アーカイブを経由した、DjVu由来の画像(左)とPDF由来の画像(右)の比較。DjVu版では圧縮によって非常にひどいダメージを受けています。しかし、この理由は明らかではありません。というのも、原作者がDjVu版を作成した方法を説明していないからです。

必要な画像を直接DjVuファイルから取り出せれば魅力的ですが、一部のDjVu文書は非可逆圧縮で作成されているため、常に正しい方法とは限りません。画像に不満がなくほかに情報源がないときは、DjVuファイルから抽出してコモンズ上のファイルに{{bad extraction}}タグをつけてください。そうでない場合は、JPG/PNG/TIFFによる文章のスキャンのような、よりよい情報源を使用してください。

DjVuがインターネット・アーカイブから入手したものであれば、オンライン上で閲覧可能な高画質JPGファイルが存在することが多いです(IA details pageにアクセスし、"read online" を選択し、and from there you can increase the size of the image、右クリックして画像を保存してください。

DjVuファイルがGoogle Booksスキャンから作成されている場合、たいていの場合DjVuファイルがPDFに由来していてさらなる圧縮ダメージを招いているため、Goole BooksのPDF文章を活用できます。多くのGoogle Booksスキャンは非常に低画質の2色画像で、他資料のスキャン(IAにおいて"uoft"や"ala"のような接尾辞でカラー・プレビュー画像を探してください)が画像抽出に適しています。さらに、Google Booksスキャンは画像が欠落していたり、ほとんど役に立たない、サムネイル品質の画像が埋め込まれていたり、ページが破れていたり、ページが折れていたりすることが多く、スキャナー操作者がページを押さえる手指が写っていたりする可能性があります。左図は良品質のGoogleスキャンで、つづくDjVu変換による甚大なダメージがみられます。





  • Djvuの作成
  • Djvuファイルの結合
  • Djvuファイルの分割
  • Djvuファイルの編集
  • バンドルされたファイルの作成
  • DjVuから他ファイルへのエクスポート
  • DjVuからのテキストの抽出
  • DjVuファイルの構造情報のダウンロード(例:OCR座標)
画像 → バーチャル・プリンター → DjVu[編集]

ページ・スキャンが、たとえばGoogle Bookスキャンのような、PDFファイルとして利用可能になっていれば、直接DjVuファイルに変換できます。以下のいずれかを利用してください。

  • The free Any2DjVu online service; this can also OCR the text and embed it in the .djvu file.
  • The freeware Pdf To Djvu GUI. Note that this requires the installation of the Cygwin environment as a prerequisite to its own installation.
  • The freeware command-line tool with GUI for Windows is the Djvu-Spec Pdf 2 Djvu Converter from the djvu-spec.narod.ru software page. This tool offers many settings to change the quality and size of the resulting djvu file.
  • The free software command-line pdf2djvu (available in repositories, also for Linux), which is usually as simple as pdf2djvu -o output.djvu input.pdf. There's also a GUI available.
  • If you need to crop the PDF document, you can use pdfcrop.pl (see below) for black margins or freeware Govert's PDF Cropper for white margins (it requires Ghostscript and .Net 2.0).

If the scanned images are made available as individual images, then the easiest option is to print them to a PDF document via one of the many "virtual printer" tools, such as the free PDFCreator; then convert the PDF document to DjVu as described above.

Note that there are many other options for converting pages to .djvu. One could convert using PostScript or multipage TIFF as the intermediate format, rather than PDF, but this would of course require different conversion tools. It is also possible to convert from .pdf or .ps to .djvu with the DjVuLibre software and its GSDjVu plug-in but due to licensing restrictions installing the plug-in is a fairly intricate process that involves compiling a patched version of Ghostscript.

Another free Windows tool that can come in handy for the images-to-pdf-to-djvu process is ConcatPDF, a GUI tool that permits easy splitting and merging of PDF files. This tool can also be used online. An example of how ConcatPDF might be used is: if a 100-page document has previously been scanned and converted to .djvu and the single page #42 needs to be re-scanned, ConcatPDF would allow that one page to be inserted into the intermediate .pdf file without tracking down the other page images and re-composing the entire document. Installing ConcatPDF version 1.1 requires as prerequisites that the free Microsoft program libraries Microsoft .NET Framework Version 1 and the corresponding Visual J# .NET Redistributable Package be installed beforehand.







See also: User:GrafZahl/How to digitalise works for Wikisource
Method 0 - converting graphic files with foreground/background separation[編集]

Just use didjvu.

You may consider preprocessing the scans with Scan Tailor.

Method 1 - page at a time with DjVuLibre[編集]

You need the djvu software, which includes a viewer, and some tools for creating and handling DJVU files. You will probably also need the Imagemagick software for converting scans from one format to another:

  • The tool cjb2 is used to create a DJVU file from (bitonal) PBM or TIFF file.
  • The tool c44 is used to create a DJVU file a PNM or JPEG files. This handles colour images, but the compression is lower.

Therefore you need to convert your scans if they are not already in one of these formats.

Conversion to intermediate format[編集]
  • Conversion from PNG format to PBM format with the tool convert from Imagemagick
convert rig_veda-000.png rig_veda-000.pbm
  • Depending on the quality of the original scans, you may find it useful to process them with the unpaper utility, which deletes black borders around the pages and aligns the scanned text squarely on the page. Unpaper is also capable of extracting two separate page images where facing pages of a book have been scanned into a single image. Another utility is mkbitmap, another pdfcrop.pl (Perl-based and free software, it requires Ghostscript and texlive-extra-utils on Ubuntu; it uses BoundingBox; it can crop a whole multipage PDF document in just one passage). PDFCrop (another one!) deletes white margins.
Conversion to DJVU page file[編集]
  • Creation of a DJVU file from a PBM file
cjb2 -clean rig_veda-000.pbm rig_veda-000.djvu
  • Creation of a DJVU file from a JPEG file at a given resolution:
c44 -dpi 300 p100.jpg p100.djvu
Creating final DJVU document[編集]
  • Adding the DJVU file to the final document
djvm -i rig_veda.djvu rig_veda-000.djvu

You need to repeat these steps with a script for each page of the book. Example:

for n in `seq 1 9`
        j=`basename $i .png`
        convert $i $j.pbm
        cjb2 -clean $j.pbm $j.djvu
        djvm -i rig_veda.djvu $j.djvu

There is also another way to add all the *.djvu parts into one:

djvm -c rig_veda.djvu rig_veda-000.djvu rig_veda-001.djvu rig_veda-002.djvu

See the following section for an automated process for multiple pages.

Method 2 - PDF to DjVu bash script[編集]

Use this script, which converts a PDF document (multiple or single page) into images, automatically crops them with ImageMagick, converts them in DjVu and bundles them. This is very slow (a large PDF document can require days) but a little more efficient than the following method.

The resulting DjVu document is quite big and low-quality, probably because of poor font recognition, which may be fixed by newer versions of poppler (the used library): the version available in repositories is usually several months old.[1]

You can also remove the pdftoppm part and use the script to convert multiple images directly in a multiple page PDF document. If images are not in pbm format, you can convert them with a single command using mogrify from ImageMagick.

Method 3 - pdf2djvu[編集]

Simply download the pdf2djvu tool from your repository to directly convert PDF document (single or multiple pages) into DjVu.

If the document contains the results of OCR (as is the case e.g. with FineReader output) then they are preserved in the DjVu document as the hidden text layer. Some other properties of the source document, including metadata, are also preserved. The quality and the size of the output depends primarily on the features of the source document but can also be controlled with several program parameters, such the resolution of foreground and background. The program is capable to use several threads to speed up the conversion.

The original author of this page made the following recommendation which does not seem valid:

Moreover, you need to crop directly the pdf before the conversion. On Linux this is quite difficult. You could use ImageMagick convert -crop, but attention: with multiple page big PDF document, this can take several GB of memory (the limit is 16 TB!) and kill your computer if you don't use the -limit area 1 option directly after -crop. This make the convertion very long.

The resulting PDF document is increased in size and reduced in quality because of rastering.[2]

See other crop tools above.

Method 4 - DjVuDigital[編集]

Use djvudigital,[3] which like pdf2djvu converts pdf directly in DjVu.[4] There are licensing problems, because the GSDjVu library has a different license, then you'll need to compile it by yourself; the included utils make this step quite easy, but still long (about 1 hour) and a bit annoying.[5]

But, then you can convert PDF document into DjVu with a single command (see the previous section for crop). The conversion is slow (I find it will complete a 300 page PDF document in about 30-40 minutes). The resulting DjVu is of higher quality and lower file size compared to both the previous two methods.[1] Additionally, DjVuDigital can handle JPEG2000 (aka JPX) files embedded in PDF documents, which is a feature of many Google books. pdf2djvu, Any2Djvu and Internet Archive conversions all fail to convert these files, leaving blank pages in the output.

DjVuDigital has many advanced options to improve results, but they can be difficult to master.[6] In general, altering the --dpi option can give you a quick reduction in file size without too much fiddling.




Any2Djvuでは巨大ファイルは扱えません。大きなファイルはURLでアップロードする(例:ftp://ftp.bnf.fr/005/N0051165_PDF_1_-1DM.pdf などのリンクを入力することで)のが最善です。変換には数時間かかる可能性があります。Any2DjVuはメモリ不足により失敗することがときどきあります。Google Booksスキャンで共通するPDF文書に埋め込まれた"JPX"画像も変換できません。


もう1つの方法は、PDF文書(または画像ファイルのアーカイブ)Internet Archiveにアップロードする方法です。ログインする必要があります(OpenIdは使わないでください、機能しません[7])。


右上角の"Upload"をクリックしてください。Flashのアップロード(標準の"Share"ボタン)はFirefoxでは機能しません(代わりにOperaやInternet Explorer[8]またはLinuxを使用してください)。標準の非Flash方式も使えます(ただしFirefoxではファイルの大きさ制限が2GBまでになります。Chromiumではありません。);FTPアップロードは、遅くクラッシュの傾向があるため推奨しませんが、but is the only easy to learn possibility if you have to upload many files (which shouldn't be the case here).



派生(派生すべきものがあればアップロード後自動的に作動します)を始める前にメタデータを正しい言語に設定することを忘れないでください、そうでなければOCR言語が英語に設定され、他言語の作品の結果がひどくなります。複数のOCR言語を設定するのも不可能ではありませんが、同じ本を2回アップロードして別々の言語を設定してOCRを2回行うことがすすめられます[10]。 処理時間の長さはファイルの大きさと複雑さ、さらに現在のインターネット・アーカイブの変換テストのバックログに依存します[11]キュー内の進行はこちらで、提出した作業に関するより詳細な情報はこちらで確認できます(ログインが必須)





派生工程で深刻な問題があり、管理者の介入が必要な場合(あなたのタスク・リストで赤になっているもの)、infoAt sign.svgarchive.orgで助けを求めてください。ふつうはすごく親切です。ただし、一般的なヘルプのリクエストはフォーラムに投稿してください。何でもないことで手を煩わせないでください!





djvused myfile.djvu -e 'print-pure-txt' > myfile.txt


 djvutxt myfile.djvu > myfile-ocr.txt 

JVbotはDjVuのテキスト・レイヤーをウィキソースのページに自動でアップロードすることができます。たとえば、Robert the Bruce and the struggle for Scottish independence - 1909





Tesseract 3.xやその他無料OCRエンジンによるOCR[編集]





ddjvu -page=8 -format=tiff myfile.djvu myfile.tif


convert -limit area 1 myfile.tif myfile.png


ddjvu -format=tiff -eachpage -quality=80 myfile.djvu myfile-%03d.tiff





大きな作品はウィキメディアのサーバーにアップロードできません。制限は100MBになります。DjVuを分割するためにはDjVuLibreの"Save as"を使用しページ範囲を指定して、アップロードできるような小ささのファイルを作成してください。試行錯誤が必要になるかもしれません。


 mkdir mydoc/ &&
 djvmcvt -i 'mydoc.djvu' 'mydoc/' 'new-mydoc-index.djvu'


 djvused myfile.djvu -e 'select 10; save-page-with p10.djvu'


 djvused myfile.djvu -e 'n'



かかる著作権存続中のページやその他無関係な素材はDjVuLibreで除去できます。DjVuLibreはオープン・ソース・プログラムで、DjVuの開発者により、GNUパブリック・ライセンスのもと保守されています。バイナリはWindows、Mac、Linux、Solaris、およびIRIXで利用可能です。djvm.exeが含まれており、コマンド・ライン・ユーティリティーとして実行できます。If you cannot figure out how to do this, you can message Mkoyle (talk), and he will do it for your file and email the file to you for upload. 1ページめ(1)を削除(-d)するためのコマンドラインは以下のとおりです:

djvm -d filename.djvu 1


Emily Dickinson Poems (1890).djvu

[[Image:...]]のリンク・タグは"page"引数を受け入れるため、たとえば以下のウィキ・コードはEmily Dickinson Poems (1890).djvuの右側164ページを、幅150ピクセルで表示します(文章なしのうら表紙):

[[Image:Emily Dickinson Poems (1890).djvu|right|150px|page=164]]

The page image can be displayed in the DjVu in place of text as in en:Page:Personal Recollections of Joan of Arc.djvu/9 using:

{{use page image|caption=JOAN'S VISION}}

en:Personal Recollections of Joan of Arc/Book I/Chapter 2のようにページ画像をウィキソースのMain名前空間内に表示するには以下のようにします:

[[Image:Personal_Recollections_of_Joan_of_Arc.djvu|page=27|right|thumbnail|200px|THE FAIRY TREE]]


  1. 1.0 1.1 1.2 例: これは1691 book from GallicaのPDF文書で205MBあります。pdf2djvu.shスクリプトで変換するとほとんど読めない382.4MBのDjVu、djvudigitalでは少し読みやすくなった316.7MBのDjVu、そしてインターネット・アーカイブではより良い品質の51.3 MBのDjVuファイルになります。
  2. For instance, this 55 MB PDF document when cropped with ImageMagick gives a 100 MB PDF document which converted with pdf2djvu gives a 86.2 MB djvu, while the Internet Archive gives directly a 10.1 MB djvu of better quality.
  3. Man page.
  4. A comparison here.
  5. Complete instructions here.
  6. Moreover, they can require the proprietary msepdjvu libray instead of csepdjvu: see superhero pres: is it independently reproducible?.
  7. See forums: Authentication error; not a valid OpenID, Login problems when I click "Share" .
  8. See forum.
  9. もとのPDFにテキスト・レイヤーがないときは、派生工程が、同じく先ほど検知したOCR生成文章を適用することで、自動的に二次のテキスト付きPDFを作成します。

    ですが、PDFがGoogle Booksからのもので、1ページめに免責通知があるときは、派生プロセスが免責ページの隠れたテキスト・レイヤーを検知し、残りのページにも隠れたテキスト・レイヤーがあると想定して、決して作業せず二次PDFファイルの自動作成を完全にスキップすることを、留意してください。免責ページを残すが、すべての隠れたテキストを分離するというのが最適なアプローチです。その理由は、DjVuファイルの謝辞の同時作成と関係があります――分離して空白ページと交換するのも差しつかえありませんし、もちろん最終手段として免責ページを削除することもできます。

  10. See forum.
  11. 例:Vocabolario degli accademici della Crusca, 1691は派生に5.1日かかりました。
  12. 2013年からヴァージョン9.0
  13. たとえば、大きさがdjvudigital出力と比べて1/6になります。
  14. FAQ; documentation of the format to use. 留意点: 拡張子はかならず小文字, tiff は1つ, ppiの値をメタデータに入力. 画像のアーカイブがそのように認識されない場合は, メタデータを編集して形式を"Single Page Processed TIFF ZIP" (TARの場合も) にするなどしてください. おそらくthe _images.zipアーカイブ形式を最初にするべきでしょう.