【近デジ】アンケートに答えて思ったこと。

近代デジタルライブラリー利用者アンケートに答えてみた。

 全般的には大いに称揚し激励したつもりなのだが、不満てゆーか要望? てゆーか希望? を書いたのも事実だ。
 ちょっと書ききれなかったので、ここにつらつら書いてみる。

 俺的にはこの設問がちょっと引っかかったのだ。


問17 今後、近代デジタルライブラリーにどのような機能等があったらよいと思いますか? ( 1 個以上選択)
  1. 本文の全文検索
  2. スマートフォンでの閲覧
  3. 音声読み上げ対応
  4. 全文のダウンロード

 この選択肢の選択の基準、つまり、何故こういう選択肢を選んだのかが、国会図書館内部の意見なのか、従来のアンケート結果を踏まえてなのかは判らない。
 だが、コンピュータ屋の目で見ると、どうも選択肢のレベル感が不揃いなのではないかという疑問が禁じ得ないのである。

 例えば、「全文のダウンロード」というのは(再三繰り返しているように)、システム的にはおそらく単純なスケールアウトでほとんど対処できる問題だと思う。
 同じデンで、「スマートフォンでの閲覧」というのがどういうレベルを指しているのかは判らないが、現状通り「本文は画像だけ」の提供であれば、技術的にはさして難易度が高いとは思えない(というか、現に利用者側で対応 ― いわゆる「自炊」している人もいるわけだし)。

 これらに比べて「本文の全文検索」というのは、まったくレベル(端的にはコストの)が違う話なのではなかろうか。

 俺の誤解でなければ、「本文の全文検索」というのは「本文を画像データではなくテキストデータにする」ということと同じ事である。

 この「本文の全文検索」ができる・できないで、他の選択肢はまったく実装解(設計)が異なるはずだ。
 「音声読み上げ対応」なんて「本文の全テキストデータ化」が出来てなきゃあまり意味は無かろう。スマフォ対応や全文DLも、これが出来る・出来ないで、まったく違うシステムができる、と思うのである。

 こういう風に並べられると、「本文の全文検索」というのが、如何に高い頂、しかし一番求めている(俺が)ものであるか思い知ったわけである。

 極言すれば、「本文の全文検索」=「本文のテキストデータ化」ができりゃあ、後はなんとでもなるのではなかろうか。

---- こっからテクニカルな独り言なので適当に読み飛ばしてほしい --------

 現状の近デジでは、PDFダウンロードすると各ページはJPEG 2000(静止画のJP2形式)でエンコードされたデータで落ちてくる。

 どういう環境でエンコードしてるのかは、それぞれのPDFの中身を見ればちゃんと記録されているが、例えばKakadu softwareの製品とか株式会社寿限無の「JuGeMuJPEG2000バッチエンコーダ」(for NDLとあるのでカスタム版かな)などを使っているようである。
(株式会社寿限無は 『戦後日本 少年少女雑誌データベース』でも知られているが、図書館関係のデジタル化のコアベンダ。)

 ご存じのように、ベアなWindows環境にはJPEG 2000用のCODECが付属していないので、近デジPDFをページ単位にバラしてアレコレしようとすると、JPEG 2000が扱える何かが別途必要である(Acrobatで一ページずつ手作業でコピペ、なんて馬鹿なことは考えない。JPEGダウンロードは一冊丸ごとでは時間がかかりすぎ)。

 まあ、プリンタ経由でEPS/EMFとかopenJPEGとか、方法は色々考えられるのでそれぞれ好いたらしい方法でヤることになる。

-----------------------------------------------------------------------

 とまあ、このような面倒くさいことを色々考えつつ、PDFをページ単位にバラして、Windowsで扱いやすいイメージに変換して、余白だの明度だのアレコレして読みやすくして、もう一回、テメエの読みやすいようにPDFなりXPSなり電子ブック形式だのに変換する……みたいなことをやってる奴は、多分(俺以外にも)いるだろうと思ってるわけだ。

 さらにいうと、パソコン用のOCRで読んでみるとか、Google Docs(ドライブ)のアップロード時のOCR機能を通してみる、程度のことはやってる奴は(俺以外にも)いるだろう(で、けっこうガッカリしてる奴も多いだろう。俺みたいに)。

 もっと単純な例を挙げると、近デジで付与されている「目次」はおそらくOCRを使ってるのだろう、けっこう誤認識が多いし、章・節の区別無くフラットなデータのようなので、私的必要に応じて文字を直して章・節のレベル付け直してるような奴もいるはずだ。

 さらにいえば、近デジの文書を引用する為に手で打ち直しているデータ。OCRで読ませただけよりは当然ながら精度も高いはずだ。

 この「近デジ」の外で発生しているコスト&リソース、もったいないなあ、と単純に思うのである。

 現状の近デジにはこういう、「外で発生したデータ」をフィードバックする仕掛けがない。

 昔(2007年頃)GoogleのreCAPTCHAを初めて見たときには、大いに感心した。

 Web入力時にスパムロボットを排除する為に、画面に表示された機械読みしにくい文字を入力させるCAPTCHAという仕掛けは当時でも周知のモノだったが、reCAPTCHAは認証で入力されたデータをOCRの読み込み精度向上の為に流用する、という仕掛けだ。

 例えばこの種の仕掛けを近デジの「全文テキスト化」推進に応用できないものだろうか。
  1. とりあえず、OCRでベースになる読み取りデータを提供してしまう。
    これはGoogle Booksという先例が既にあるが、近デジに含まれているような、縦書き旧かな旧漢字当たり前では精度は期待できないだろう。

  2. 善意の利用者がそのOCR読み取りデータに修正を加えられるようにする。
    reCAPTCHAみたいな一挙両得な仕掛けが考えられればそれに越したことはないが、旧漢字対応とか考えるとすごく難しそうだ。場合によっては 舊→旧 みたいな書き換えは人間判断でOKみたいなルールは必要かも。

  3. 人間の修正データによってOCR読み取りデータを直すと同時にOCRを賢くする。


 ああ、わかってる。

 今の世の中、善意の利用者なんて想定する方が間違ってるかもしれないし、何らかのインセンティブがなきゃあ、こんなこと進んでやるような奴は皆無かもしれん。

 おまけに図書館といえど国家機関。
 妙なイタズラでもされて「テヘペロ」で許してもらえないかもということを考えると、わけ判らない「一般市民」どもなんか介入させちゃあいけないのかもしれない。

 一般利用者側からみても、Googleに任せておけばいいじゃん、という判断だってあるかもしれないし、どうせ著作権切れなんだから個人で勝手に焼き直して公開しちゃえばいんじゃね? という判断もできるかもしれない(法的にどうなのかは知らない)。

 ただねぇ、なんかこう、勿体ないような気がするんだよなぁ。せめて目次だけでも修正させてくれないかなぁ。

…というのが、俺がアンケートに書いた真意なので、よろしくご検討ください国立国会図書館様。
[PR]
by signal-9 | 2012-09-13 17:40 | 電算機関係の話題
<< 【近デジ漁り】江見水蔭の『実地探検』 【近デジ漁り】 「秘伝」 >>