ここで公開しているツールを使って、研究社から市販されている羅和辞典改訂版のCD-ROMからEPWINGデータを作ることが出来ます。ただし、辞書データファイルは暗号化されているようなのでそれを参照せず(使用許諾契約書でリバースエンジニアリングは禁止されていますし、解読すると著作権法で私的私用から除外されている技術的回避手段にあたるおそれがあります。それ以前にやる気無し・・・)、UWSCを使って全項目を全自動コピペすることで全文辞書データを作ります。しかしそれだと一部の外字(長母音付きyなど)が欠落するので、全文検索用に付属しているHyper Estraier用のデータと突き合わせて欠落を埋めるようにしました。
手順は面倒ですし、手間もかかりますが、変化形見出し付きのラテン語-日本語の電子辞書は、やはり非常に便利です。
EPWING化に当たって辞書データファイルそのものを利用していないため、一部の文字や語句などが欠落している可能性があります。また、変化形データは実用上十分正しいと思いますが、完全に正しい保証はありませんし、保証出来ません。専門の学術調査などでは、書籍版や他の資料等でもご確認ください。 ご意見などは掲示板までご連絡ください。 |
動作確認環境:Windows XP、Intel i5-2500 (3.3GHz)、2GBメモリ。UWSC 4.7c、EBStudio 1.70b、EBWin 3.05。羅和辞典 Version 1.4 (2011年秋購入)。
作業内容 | 使うもの | 出来るもの | 所要時間 |
---|---|---|---|
1. 羅和部の全文コピペ | 羅和辞典ソフト、UWSC | 羅和全文テキスト(kenkyusha-lajp.txt、外字欠落あり) | 3~6時間 |
2. 和羅部の全文コピペ | 羅和辞典ソフト、UWSC | 和羅全文テキスト(kenkyusha-jpla.txt) | ~1時間 |
3. Estraierデータのテキスト化 | Java | Estraier羅和全文テキスト(estraier.txt、欠落無し、ただし大文字・カタカナのみ) | 1分 |
4. 羅和部の補正済みテキスト作成 | Java、コピペ&Estraier羅和全文テキスト | 補正済み羅和全文テキスト(kenkyusha-lajp-fixed.txt) | 1分 |
5. 羅和部のHTML作成 | Java、補正済み羅和全文テキスト | 羅和HTML(body-lajp.html、欠落無し) | 1分 |
6. 和羅部のHTML作成 | Java、和羅全文テキスト | 和羅HTML(body-jpla.html) | 1分 |
7. ラテン語変化形のHTML作成 | Java、羅和HTML、変化形データ(whitaker.morph.txtなど) | ラテン語変化形のHTML(morph.html) | 数分 |
8. EPWING作成 | EBStudio, 各HTMLファイル | EPWINGデータ | 数分 |
羅和辞典ソフトを起動し、"aを検索→項目をコピー&ペースト→「次項へ」をクリック→項目をコピペ→「次項へ」をクリック→・・・"という作業をUWSCを使って、全自動で行います。全部で45255項目あり、PCの性能にもよりますが、3~6時間ほどかかります。とは言え最初にスタートボタンを押すだけですので、後は待ちましょう。
初めて実行するときは、いきなり全文完走せず、100件以上繰り返したところでSTOPボタン、あるいはAlt+F2を押して途中終了し、kenkyusha-lajp.txtテキストファイル(UTF-8形式)が出来ていることを確認してください。このファイルはEPWING化ツールを解凍したディレクトリ(getall-lajp.uwsのあるディレクトリ)に出来ます。
処理時間短縮のため、テキストファイルへのデータ書き出しは100件毎にしか行いません。このため、途中で止めた場合、最後に記録した時以降のデータは残りません。100件未満で止めると、ファイルは出来ません。
最終的に以下のような内容のkenkyusha-lajp.txt (約4.7MB, UTF-8形式)が出来るはずです。最後の見出しは、本当はzȳthumなのですが、2文字目の長母音付きy(ȳ)が欠けています。バックアップをお忘れ無く。
A, a indecl n ラテン語アルファベットの第1字. ====== A., a. 《略》= Aulus; absolvo; antiquo. ====== ā1, āh ・・・<中略>・・・ zygostata, -ēs -ae, ◇m [Gk] 計量検査官. ====== zthum -ī, n [Gk] 発酵させた麦芽からつくる飲料, ビール. ====== |
UWSCでの全文コピペは、「次項へ」の右側を下向きに少しドラッグすると、テキストが全選択(青色反転)できることを利用しています。全選択できるドラッグの位置は微妙で、環境によってはうまくいかないことがあるかもしれません。
この全選択操作は、getall-lajp.uws の末尾にある
BTN(LEFT,DOWN,730,140,waitmsec) BTN(LEFT,UP,730,160,10) |
全選択がうまくいかないときは、この値を調節してください。次の、和羅部の全文コピペも同じです。
羅和部と同様の手順で、和羅部も全文コピペします。全部で5981項目あり、30分~1時間程度で終了します。
最終的に以下のような内容のkenkyusha-jpla.txt (約0.7MB、UTF-8形式)が出来るはずです。バックアップをお忘れ無く。
見だし開始 アーモンド 愛 あい ・・・<中略>・・・ 割れる われる 見だし終了 アーモンド (実) amygdala, amygdalum, amygdalae nucleus. ====== 愛 ・・・<中略>・・・ 湾 sinus. ====== |
羅和辞典ソフトには、全文検索用にEstraierのデータが付いています。これから全文テキストを取り出します。これは文字の欠落は無いものの、大文字とカタカナだけになっています。
C:...>cd "EPWING化ツールのディレクトリ" C:...>step3.bat Dictionary database directory: C:\Program Files\KENKYUSHA\Latin\index\index_E loading Latin-Japanese entries ............................................. done. 45255 entries |
以下のような内容のestraier.txt (約4.2MB、UTF-8形式)が出来るはずです。羅和部全文コピペでは、最後の見出しの2文字目の長母音付きyが欠けていましたが、EstraierのデータではYと入っています。
A, A INDECL N ラテン語アルファベットノ第1字. ====== A., A. 略= AULUS; ABSOLVO; ANTIQUO. ====== 01011, 0101H INT 喜ビ悲シミ驚キナドヲ表ワスアア. ・・・<中略>・・・ ====== ZYTHUM -012B, N GK 発酵サセタ麦芽カラツクル飲料, ビール. ====== |
手順1と手順3で作成した羅和全文テキストを組み合わせることで、完全な羅和部のテキストを作ります。ギリシャ文字の部分など、特殊な補正作業が必要な箇所については、lajpfix.txtに記してあり、これも適用されます。
C:...>step4.bat loaded 8 fix entries loaded 45255 entries fixing Latin-Japanese entries ............................................. done. 45255 entries. 692 fixed. |
これでkenkyusha-lajp-fixed.txt (約4.7MB、UTF-8形式)が出来るはずです。最後の見出しに長母音付きのyが付きました(フォントによっては表示できず、・になることもあります)。
A, a indecl n ラテン語アルファベットの第1字. ====== ・・・<中略>・・・ zȳthum -ī, n [Gk] 発酵させた麦芽からつくる飲料, ビール. ====== |
step4.batの実行中にエラーメッセージが出た場合は、全文コピペで一部の項目のコピーに失敗しています。以下の例では、「abaliēnātiō」の項に問題があった場合です。kenkyusha-lajp.txtをエディタで開いて修正するか、全文コピペをやり直してください。
********************* ERROR: headword=abali?n?ti? abaliēnātiō |
手順4で作成した補正済み羅和全文テキストをEBStudio用のHTMLファイルに変換します。
これでbody-lajp.html (約26MB、ShiftJIS形式)が出来ます。ShiftJISに無い文字は、&#x???; に変換されています。
<html><body> <dt id="0">A, a</dt><key type="表記">a</key>・・・<dd><p>indecl n</p><p>ラテン語アルファベットの第1字.</p></dd> ・・・<中略>・・・ <dt id="45254">zȳthum</dt><key type="表記" title="Gk - zȳthum">Gk</key> ・・・<dd><p>-ī, n [Gk]</p><p>発酵させた麦芽からつくる飲料, ビール.</p></dd> </body></html> |
手順5と同様に、手順2で作成した和羅全文テキストをEBStudio用のHTMLファイルに変換します。
これでbody-jpla.html (約1.5MB、ShiftJIS形式)が出来ます。
<html><body> <dt id="0">アーモンド</dt><key type="かな">あーもんど</key><dd><p>(実)・・・</p></dd> ・・・<後略>・・・ |
Whitaker's WORDSのデータを元に、大久保が作成したラテン語変化形データから、変化形見出しのHTMLファイルを作成します。
C:...>step7.bat loaded 45255 entries from body-lajp.html loaded 38234 entries from whitaker-dict.html creating morphology file .........1.........2.........3.........4.........5..... ....6.........7.........8.........9.........10.........11.........12.........13. .. done. 1333512 entries |
これでmorph.html (約189MB、ShiftJIS形式)が出来ます。巨大ファイルです。ブラウザで開かないこと!
もし、あまりに処理が遅い場合は、ウィルスチェックソフトによるHTMLファイルの検査が行われているかもしれません。その場合、一時的にファイルチェックを止めるなどしてください。検査処理に時間がかかりすぎると、EBStudioでの処理にも失敗することがあります。
これまでで出来た羅和(body-lajp.html)、変化形見出し(morph.html)、和羅(body-jpla.html)と、EPWING化ツール付属のWhitakerの羅英簡易辞書(whitaker-dict.html)を組み合わせて、EBStudioによりEPWINGデータを作成します。
変化形見出し(とそれから参照されるWhitaker羅英簡易辞書)や和羅部は除いても構いません。羅和部だけのEPWINGだと、最近のPCなら全文検索が約1秒で終わります。変化形付きだと10秒くらいかかります。有料のEBStudioで条件検索付きにするのも良いでしょう。
正常終了すれば、「出力先」フォルダにEPWINGデータが出来ています。
CD-ROM、全文テキスト、EPWINGデータの不正利用は厳に慎んでください。
羅和辞典EPWING化ツールは、estraier.jar以外、大久保が制作したものです。これらはパブリックドメイン扱いとします。
ラテン語変化形データは、Whitaker's WORDSのデータを元に大久保が制作したものです。これもパブリックドメイン扱いとします(商用利用を禁止しません)。
Whitaker氏のサイトは、2011年に閉鎖されてしまったようですが、アーカイブサイトで見られます。ラテン語変化形データを公開してくださった氏に感謝します。
estraier.jarは、平林幹雄氏が開発したHyper Estraierの一部です。参考ページ。
EPWING化作業で気づいたことです。
和羅部のいくつかの項目は、「次項へ」では表示されるのに、漢字でもカナでも検索出来ないことがありました。例えば、「安楽死」は見つかるのに「あんらくし」ではだめです(「あん」を前方一致検索しても「あんらくし」が出ません)。「引力」「いんりょく」はどちらでもだめです。
EPWING版では、これらの語について、漢字でもカナでも検索できるように対策しました。
カナ見出しのない漢字見出し:安楽死, 引力, 運命, 遠慮, 顔料, 緩和, 吟味, 金利, 軍服, 訓練, 権力, 言論, 山脈, 人類学, 神話, 寸法, 全力, 洗練, 増大, 担保, 暖炉, 陳列, 連れる, 天文学, 電話, 貪欲, 難民, 任命, 年齢, 反論, 貧乏, 分別, 分裂, 弁論, 万年筆, 民族, 群れ, 綿密, 問題, 和らげる, 揺れる, 弱る, 乱用, 倫理, 連絡, 論理, 湾
上記以外にも、例えば、「いんりつ」は見つかるのに「韻律」では見つかりません。この項目を表示して「次項へ」をクリックすると「引力」の項が出ます。