コンテンツにスキップ

利用者:Hiro3600

提供：Wikisource

備忘録メモ

PDFに透明テキストが含まれていれば校正ページ作成時に利用できる。（OCRの精度が校正作業の省力につながる）
近代デジタルライブラリ（国立国会図書館）からPDFデータをダウンロード可能。
なお、PDFではなく単画像JPG100%とするとPDF画像に比べ3倍程度の解像度の画像が得られる。画像URLはページ番号部を順次変えてダウンロード。（またはダウンローダ使用）
画像ソフト(Irfanなど)のバッチ処理で切抜き、単ページ化。画像フォルダごとZIPで圧縮。
IA(インターネットアーカイブ)にアップロード。変換処理は順次処理されてるので少し時間がかかる。
IAのOCR変換は旧字にも対応して、精度は比較的高い。
IAからウィキメディアコモンに転送。

（旧手順）

ライブラリのデータは見開きページ（２ページ分）形式なので「かんたんpdfダイエット」（フリーソフト）を使って単ページ化。
「かんたんpdfダイエット」にOCR機能を設定しておけば、PDFに透明テキスト追加が簡単にできる。

透明テキスト設定手順：マイクロソフト製OCRエンジン(無償版)は変換精度は高くない。

「https://ja.wikisource.org/w/index.php?title=利用者:Hiro3600&oldid=61625」から取得