© SINCE 2016

PDICデジタル辞典作成マニュアルおよびツール

★自分でデジタル辞書を作る

 辞書原稿の作成・編集には、Microsoft Word が圧倒的に便利です。ワードで作成した辞書原稿は、印刷して冊子版の辞書を作ることもできますし、PDFにすればそのまま印刷所に入稿して書籍版の辞書を出版することもできますし、簡単に電子書籍用に変換して Amazon Kindle などで使えるようにすることもできます

 しかし、ワード原稿をそのままデジタル辞書にすることはできません。この「PDICデジタル チェコ語日本語・日本語チェコ語辞典」の作成に当たっては、ワード原稿をPDICデジタル辞書に変換する技術とツールを開発し、ワード原稿からのPDICデジタル辞書作成方法を確立してマニュアル化しました。

 

  このマニュアルとツールを利用すれば、ワード・ファイルあるいはテキスト・ファイルから比較的容易に、PDICデジタル辞典と、書籍版辞書(電子書籍を含む)の両方を作ることができます。別言すれば、原稿の作成・編集に大変便利なワードで書籍版の辞書原稿を作成してから、それをデジタル辞書に変換できるということです。辞書作成の意欲と能力があれば、誰でもいつでも何語の辞書でも、高度なデジタル辞書を自分で作れます(MAC利用者の方は、MACで作成した原稿を一旦テキスト・ファイルにしてから、Windowsパソコンで変換する必要があります)自分で使う学習用の単語集や用語集・術語集なども、簡単にデジタル辞書化して活用できます。

  

デジタル辞典作成マニュアルおよびツール.zip(2020.10.18公開済)

(マクロが含まれているため、ダウンロードする際に警告が出てストップすることがありますが、安全なのでそのまま継続してください。不安な場合は、ダウンロードしたファイルをウィルス検索ソフトにかけて確認してください。)

★既存の書籍版辞典・事典をPDICデジタル辞典化する

 このツールを使えば、既に出版されている書籍の辞典・事典類を、下記のような3つの手順で比較的簡単にデジタル辞書化してPDICデジタル辞典として使用することができるようになります(もちろん著作権に触れないものしかデジタル化してはなりません。あるいはむしろ、著作権者が生存しているならば、著作権者自身がデジタル化して世に出すことが望まれるでしょう)。

 チェコの事典のような外国語の事典類の場合、それをPDICデジタル辞典化すると、チェコ語日本語辞典と一体化することができ、事典類を単にデジタル辞典として使えるだけでなく、事典中の単語をクリックするだけで――ポップアップ検索によって――チェコ語日本語辞典で調べることができるようになるので、チェコ語力がまだそれほどない人でも、チェコの事典類を使いこなせるようになります


1.辞典・事典の本文をスキャナーにかけます(廃棄しても良い本であれば、業者に依頼して、安価でPDF化してもらうこともできます)。
2.画像化あるいはPDF化したファイルをOCRにかけて文字データ化し、ワード形式(あるいはUnicodeテキスト形式)で保存します。なお、チェコ語を含む多言語対応のOCRとしては、無料のツールとしてConvertio(https://convertio.co/ja/ocr/)、有料のソフトとしてABBYYFineReaderなどがあり、これらは複数の言語が混在しているテキストでも認識ができます。
3.ツールを使ってPDICデジタル辞典に変換します。

 ただし、現在のOCRはかなり高性能だとはいえ、100%の正確さで文字データ化できるわけではないので、若干の誤認識や文字化けが起こります。極力正確な辞書にしたいのであれば、文字データ化した段階でそれを修正する必要があります。やり方を工夫することで認識精度を高めることができますし、誤変換のパターンを見つければ一括置換して修正することができます。
 以下にはサンプルとして、『チェコスロヴァキア共和国地名事典(Místpisní slovník českoslovenké republiky)』(プラハ、1922年)をPDICデジタル辞典化したものの画像を掲載しています。若干の誤認識や文字化けが起こっていますが、十分に使用に耐えるものになっています(時間があるならそれを修正すれば良いでしょう)。

 要するに、原理的にはありとあらゆる辞典をPDICデジタル辞典にすることができるということです。そして、ひとたびPDICデジタル辞典にしてしまえば、互換ソフトなどを利用することで、あらゆる機種のスマートフォン・タブレット、Mac、Kindleでも使えるようになります。

 Google その他が、既に著作権の切れた辞書・辞典をPDF化して無料でダウンロードできるようにしているものがありますが、それらの中には古くても学術的に貴重で利用価値の高いものがあります。そのようなPDFを利用すれば、スキャンする作業は省略できます。
 下記のPDIC用事典類は、WEB上で無料公開されているPDFを利用して、それをPDICデジタル辞典に変換したものです。部分的な誤認識や誤表示がありますが、十分に利用に耐えるレベルです(より正確な辞書にしたい場合は手作業での修正が必要になります)。

 

1.アウグスト・セドラーチェク『チェコ王国歴史地名事典』(プラハ、1909年)

 August Sedláček, Místopisný slovník historický Království českého (Praha, 1909).

 見出し語が1万程度あり、チェコ語とドイツ語両方の地名が並記されている、かなり大きな歴史地名辞典です。

  

2.アドルフ・ノヴォトヌィー『聖書事典』(プラハ、1956年)

 Adolf Novotný, Biblický slovník (Praha: Kalich, 1956).

 見出し語が1万程度ある、かなり大きな聖書事典です。

 

 これらはWindows版辞書のダウンロード・ページからダウンロードできます。

  

 

3.ダーリの辞書(露露辞典)

  Владимир Даль, Толковый словарь живого великорусского языка.

 

4.オジェゴフの辞書(露露辞典)

  Сергей Иванович Ожегов, Наталия Юльевна Шведова, Толковый словарь русского языка.

 

 

5.ブスラーエフ『古ロシア語辞典』

 Буслаев, Ф. И., Словарь древне- и старорусского языка.

 

6.ダーリ『ロシア民衆の諺』

   Владимир Даль, Пословицы русского народа, 1862. 

 

    

 これらは「(キリル文字使用)スラヴ語デジタル辞典(ロシア語辞典など)」のタブからダウンロードできます