近代デジタルライブラリー利用者アンケートに答えてみた。
全般的には大いに称揚し激励したつもりなのだが、不満てゆーか要望? てゆーか希望? を書いたのも事実だ。 ちょっと書ききれなかったので、ここにつらつら書いてみる。 俺的にはこの設問がちょっと引っかかったのだ。 この選択肢の選択の基準、つまり、何故こういう選択肢を選んだのかが、国会図書館内部の意見なのか、従来のアンケート結果を踏まえてなのかは判らない。 だが、コンピュータ屋の目で見ると、どうも選択肢のレベル感が不揃いなのではないかという疑問が禁じ得ないのである。 例えば、「全文のダウンロード」というのは(再三繰り返しているように)、システム的にはおそらく単純なスケールアウトでほとんど対処できる問題だと思う。 同じデンで、「スマートフォンでの閲覧」というのがどういうレベルを指しているのかは判らないが、現状通り「本文は画像だけ」の提供であれば、技術的にはさして難易度が高いとは思えない(というか、現に利用者側で対応 ― いわゆる「自炊」している人もいるわけだし)。 これらに比べて「本文の全文検索」というのは、まったくレベル(端的にはコストの)が違う話なのではなかろうか。 俺の誤解でなければ、「本文の全文検索」というのは「本文を画像データではなくテキストデータにする」ということと同じ事である。 この「本文の全文検索」ができる・できないで、他の選択肢はまったく実装解(設計)が異なるはずだ。 「音声読み上げ対応」なんて「本文の全テキストデータ化」が出来てなきゃあまり意味は無かろう。スマフォ対応や全文DLも、これが出来る・出来ないで、まったく違うシステムができる、と思うのである。 こういう風に並べられると、「本文の全文検索」というのが、如何に高い頂、しかし一番求めている(俺が)ものであるか思い知ったわけである。 極言すれば、「本文の全文検索」=「本文のテキストデータ化」ができりゃあ、後はなんとでもなるのではなかろうか。 ---- こっからテクニカルな独り言なので適当に読み飛ばしてほしい -------- 現状の近デジでは、PDFダウンロードすると各ページはJPEG 2000(静止画のJP2形式)でエンコードされたデータで落ちてくる。 どういう環境でエンコードしてるのかは、それぞれのPDFの中身を見ればちゃんと記録されているが、例えばKakadu softwareの製品とか株式会社寿限無の「JuGeMuJPEG2000バッチエンコーダ」(for NDLとあるのでカスタム版かな)などを使っているようである。 (株式会社寿限無は 『戦後日本 少年少女雑誌データベース』でも知られているが、図書館関係のデジタル化のコアベンダ。) ご存じのように、ベアなWindows環境にはJPEG 2000用のCODECが付属していないので、近デジPDFをページ単位にバラしてアレコレしようとすると、JPEG 2000が扱える何かが別途必要である(Acrobatで一ページずつ手作業でコピペ、なんて馬鹿なことは考えない。JPEGダウンロードは一冊丸ごとでは時間がかかりすぎ)。 まあ、プリンタ経由でEPS/EMFとかopenJPEGとか、方法は色々考えられるのでそれぞれ好いたらしい方法でヤることになる。 ----------------------------------------------------------------------- とまあ、このような面倒くさいことを色々考えつつ、PDFをページ単位にバラして、Windowsで扱いやすいイメージに変換して、余白だの明度だのアレコレして読みやすくして、もう一回、テメエの読みやすいようにPDFなりXPSなり電子ブック形式だのに変換する……みたいなことをやってる奴は、多分(俺以外にも)いるだろうと思ってるわけだ。 さらにいうと、パソコン用のOCRで読んでみるとか、Google Docs(ドライブ)のアップロード時のOCR機能を通してみる、程度のことはやってる奴は(俺以外にも)いるだろう(で、けっこうガッカリしてる奴も多いだろう。俺みたいに)。 もっと単純な例を挙げると、近デジで付与されている「目次」はおそらくOCRを使ってるのだろう、けっこう誤認識が多いし、章・節の区別無くフラットなデータのようなので、私的必要に応じて文字を直して章・節のレベル付け直してるような奴もいるはずだ。 さらにいえば、近デジの文書を引用する為に手で打ち直しているデータ。OCRで読ませただけよりは当然ながら精度も高いはずだ。 この「近デジ」の外で発生しているコスト&リソース、もったいないなあ、と単純に思うのである。 現状の近デジにはこういう、「外で発生したデータ」をフィードバックする仕掛けがない。 昔(2007年頃)GoogleのreCAPTCHAを初めて見たときには、大いに感心した。 Web入力時にスパムロボットを排除する為に、画面に表示された機械読みしにくい文字を入力させるCAPTCHAという仕掛けは当時でも周知のモノだったが、reCAPTCHAは認証で入力されたデータをOCRの読み込み精度向上の為に流用する、という仕掛けだ。 例えばこの種の仕掛けを近デジの「全文テキスト化」推進に応用できないものだろうか。
ああ、わかってる。 今の世の中、善意の利用者なんて想定する方が間違ってるかもしれないし、何らかのインセンティブがなきゃあ、こんなこと進んでやるような奴は皆無かもしれん。 おまけに図書館といえど国家機関。 妙なイタズラでもされて「テヘペロ」で許してもらえないかもということを考えると、わけ判らない「一般市民」どもなんか介入させちゃあいけないのかもしれない。 一般利用者側からみても、Googleに任せておけばいいじゃん、という判断だってあるかもしれないし、どうせ著作権切れなんだから個人で勝手に焼き直して公開しちゃえばいんじゃね? という判断もできるかもしれない(法的にどうなのかは知らない)。 ただねぇ、なんかこう、勿体ないような気がするんだよなぁ。せめて目次だけでも修正させてくれないかなぁ。 …というのが、俺がアンケートに書いた真意なので、よろしくご検討ください国立国会図書館様。 #
by signal-9
| 2012-09-13 17:40
| 電算機関係の話題
適当なキーワードで近デジ検索してみて目に付いたモノを読んでみる、という使い方は俺みたいな乱読タイプの人間にはよくあるはず(勝手な思い込み)。
で、「秘伝」というキーワードを使うと、けっこう面白げな本が見つかるよ、という話である。 『萬呪秘法』(己羊社 大正9)。 「よろず まじない ひほう」と読む。「呪」の一文字がオドロオドロしいが、これは「のろい」ではなく「まじない」、要するに「おまじない」の本である。 例えばこんな感じ。 「豚の耳を切り取るとか無理だし」「盗んで食べればって、出世どころか窃盗罪で人世棒に振ることになるんじゃね」などの冷静なツッコミは止しておくべきなのだろう(笑)。 こんなのだけだと「おばあちゃんの知恵袋(迷信)」みたいだが、いわゆる呪符(おふだ)を使うものも結構載っているのがもっともらしい。 こういうイミフだが怪しい香りのするガジェットは何となく御利益のありそうな気になるではないか(笑)。 俺はこの種のモノにはトント疎いので、これらの呪符に何が書いてあるのか・どういう意味があるのか、さっぱり分からないが、「急急如律令」(きゅうきゅう‐にょりつりょう)というのは、元々は漢の時代の公文書の末尾に記した定型文で「上記趣旨理解の上、取り急ぎ律法の如く実施すること」的な意味だったものが、道教や陰陽道に取り入れられて、悪鬼退散的な意味でまじないの言葉に使われるようになったもの、と記憶している。 見る人が見れば、こういうわけのわからない呪符でも「あ、これは真言密教の影響」とか、いろいろ興味深い解釈は出来るのだろうな。 喰わせちゃいますか、ウグイス煮。 「鶯煮」って漢字で書くとちょっと旨そうにみえるから不思議だ。 味付けはどうするんだろう、やっぱり味噌煮かなぁ。 ウグイスはまあ、ペットショップなどで購入できないことはなかろうが(よく知らない)、その煮たのをどうやって女に喰わせるか、という方が嫉妬を止めさせるより難しいのでは無かろうか。 ヒキガエルの方がミッション的には多少難易度が低いかなぁ。 「お前の経血の付いた布をよこせ」とかいったら、ドン引きされて、結果的に嫉妬どころぢゃなくなりそうだし。 とまあこんな感じで、福徳・恋愛・健康から災難よけ、害獣避け、虫除け、退魔法から安産まで、ムリョ250項目オーバーのおまじないが記載されているが、なんだかどれも手順がスッゲー面倒くさいか、手順が簡単なものはあまり効きそうにない(笑) もうちょい簡単で効きそうな秘術はないのかしらん、と探してみて発見したのが、『発明奇術 廿一法秘伝書』(信本峻峰 明治23)。 だそうで、いわゆる「おまじない」ではなく、怪しげな漢方秘薬生成法みたいなのが並んでいる。 と、この辺りなら、目指す効果があるかどうかは別として、まあまあ健康には悪く無さそうであるが、 この辺りになると、もはや素人がほいほい作って試していいようなシロモノとも思えない。 ググってみると、「肉荳蒄油」というのはナツメグ油、「刺賢垤兒油」はラベンダーオイルらしいのでまあ危険は無かろうが、「芫青丁幾」つーのは、昆虫のアオハンミョウのことみたいだ。 アオハンミョウから取れる「カンタリス」(カンタリジン)というのは昔は媚薬に使われてたことぐらい知ってたが、Wikipediaによれば「皮膚につくと痛みを感じ、水疱を生じる」というくらい強い副作用があるそうで、量を間違えて禿頭に塗ったらエラい事になりそうな。 「記憶力増進」の方も、俺みたいな脳みそが毎日耳からこぼれ落ちてるんじゃないかと思うほど物覚えの悪い奴には魅力を感じる話だが、塩酸規尼涅=塩酸キニーネなんてマラリヤみたいな熱病の時に使う鎮痛解熱薬だ。 原著にはちゃんと量が明示してあるが単位がみんな古いから、試してみようと思う炎のチャレンジャーは、よくよく調べてからにしたほうがいいぞ(笑)。 確かにヨウ化カリウムは「第三期梅毒のゴム腫の吸収を促進します」、と現代でも使われているようなので、症状を抑える上ではまるっきり間違いではなさそうだが、梅毒自体を「必治」するものぢゃないだろう常考。 …というようなツッコミは、書かれた時代を考慮しないといけないよな。 現代において梅毒治療で使われる抗生物質(ペニシリン)が発見されたのが、昭和3年(1928年)。この本が書かれた明治23年(1890年)は、40年近く前だ。 その時代で書かれたモノにしては、「秘伝書」を名乗ってもいいんじゃなかろうかという気もする。 俺はバケ学とかヤク学とかにはまったく無知だし、「よい子はマネしちゃダメだよ」としか言えないが、そーゆー方面に知識のある人なら面白く読めるかもしれない。 意外と「忘れ去られていた知見」とか「現代でも応用可能なアイディア」が得られるかもしれないし。 #
by signal-9
| 2012-09-07 14:28
| 読んだり見たり
近デジを漁っていて、フト見つけたのが、章華社という出版社の『なるまで叢書』。
と、かなりの怪気炎かつ商売っ気マンマンの序文で判る通り、なにかに「なるまで」どうするか、というハウツーもののシリーズである。 もちろん、今の時代には実際の参考になるものではないが、これが中々にイイ感じの風俗史の資料として読めるのである。 例えば「映画女優」を目指す女性向けの職業案内、『映画女優 スタアになるまで』(小池善彦 大正15)。 口絵写真でいきなり田中絹代だの松井千枝子だのが登場するので、俺みたいな偏った映画好きは、もうそれだけで映画が娯楽の王様だった時代に引き戻される感じである。 …なに、田中絹代って誰、だと? そういう人はひいおじいちゃんにでも聞いてくれ。 職業としての女優の紹介なので、当然いちばん重要な収入(ギャラ)の話も出てくる。 「蒲田の人気スタア」というのは、当時ブイブイいわせていた松竹蒲田撮影所のこと。 月給五百円は今で言うとどのくらいなのか。換算は難しいが、大正15年当時、東京・大阪間の鉄道料金、三等片道で六円五銭。東京・上野間が十銭の時代である。ざっくり1000~2000倍見当で50~100万くらいだろうか。 意外と少なく感じるが、消費財そのものの値段が安い時代だ。公務員の初任給が75円くらいなので、ケタ違いの高給であることに間違いはない。 当時の(日本から見た)ハリウッドの状況や、人気女優のエピソードなど、映画史に興味のある向きには面白く読めると思う。 なお、ハウツーものではないが、昭和22年刊行の『映画五十年史』(筈見恒夫 著)なども近デジで読めるので、映画ファンは是非。 『なるまで叢書』からもう一冊、『名探偵になるまで』(須藤権三 大正15)。 現代において「探偵」という言葉は、ほぼ「私立探偵」と同義だが、この当時はちょっと違う。 つまり、この本は今でいえば「名刑事になるまで」ということになる。 「名探偵になるまで」のキモであるべき「なる方法」が、「警察官採用試験を受けなさい」というのは、あんまりじゃなかろうか(笑) さよう、この本、「名探偵に、俺はなる!」と意気込んでこの本を手に取ったであろう読者に、現実という名の冷や水をぶっかけまくるのである。 う~ん、昔も今も現場の辛さは変わらないのだなぁ。
「君にもなれる!」的に、安易に読者に迎合することなく、「軽い気持ちで出来るような仕事じゃないんだ」と真実を伝えようとしている、非常に良心的な本ではある。 でも、これじゃあ『名探偵になるまで』じゃあなくて『名探偵になってはいけない』だよ! さてこの『なるまで叢書』、近デジには現在の所、他に『化粧秘訣 美人になるまで』、『野球選手 主将になるまで』、『囲碁初段になるまで』が収められている。 それぞれに、当時の社会風俗を反映しているので、そのジャンルに興味のある人にはけっこう面白く読めるだろう。 巻末の宣伝によると、『大臣になるまで』『小説流行作家になるまで』『博士になるまで』などが続刊予定とされている。 これらが本当に出たのかどうか判らないが、あるのだったら近デジへの格納を期待して待ちましょう。 #
by signal-9
| 2012-09-04 13:41
| 読んだり見たり
今も昔も「ハウツーもの」には一定の需要がある。
このジャンル、何冊か紹介したいのだが、本日はまず比較的普通なものから。 まあ、フツーと言っても、俺セレクトなんでけっこうヘンなんだが。 まずは、『患者吸収の秘密』(日本医事会 編 昭和10)。 最初に書名を見たときには「なんのこっちゃ」と思ったが、要するに「開業医向けの、患者=お客獲得のハウツー本」である。 昭和10年といえば1935年。景気もあまり芳しくない時代。 「患者吸収」即ち「顧客獲得」は開業医にとって一大テーマだったようだ。 と、いきなり身も蓋もなく始まるので、こりゃあ【医は算術】的な本か?! 「患者は生かさず殺さず」とか書いてあるのか? と期待して(笑)読み進めたのだが、あに図らんや、これが中々、イイことが書いてあるのだ。 ― 患者の心から焦慮(焦りや苛立ち)を取り離し、常に平和にする事が重要。医者自身の行動によって、患者の心に焦慮を注ぎ込むことは絶対に慎まなければならない。 ― ちょっとした言葉の端にも感情を傷つけられて悲しむ病人の心を「愚かしい」と笑うことなかれ。言葉は医者が持つ薬物の中で最も有効にして、かつ最も有害なものである。 ― 病気以外のことに対しても諸事万端正常な判断を下し得るだけの知識が必要である。政治・宗教・教育、何でも、患者から問われたり聞かれたりして、これに受け答えが出来ぬようではサッパリ駄目である。 ― 患者を甘くみたり、世間を軽くみたり、近所の同業者を患者の前でこき下ろしたりしていると、いつの間にやら界隈で一番不景気な、流行らぬ医者になってしまう。時分の家族は申すに及ばず、使用人に至るまで、行いを正しく慎ましやかにさせるべきである。 ― 何が開業医を不人気にさすかといって、恐らく患者の地位や身分や貧富によって態度を変える程つまらぬ事はない。医師たる者の心境は常に明鏡の如く、神の如く、一切平等・無差別であらねばならぬ。 …なんかキレイ事ばっかりでちっともハウツーじゃないなあ。 我慢して読み進めると、ようやく『どこで・いつ開業したらいいのか』という多少泥臭い話題になったのだが。 ― 開業の時期は人々が活発化する春夏が比較的よい。またその土地の同業者とか、あるいは地方的に医師に関する大問題が起こって一般の注意が医療に向いているときは開業のチャンスである。 ― 医者が居ないようなド田舎で開業するなら「全科」を標榜する方がいい。田舎は土着人だから、一度その医者の門をたたいてくれば何かトンデモない大失敗でも無い限り、お得意さんにすることができる。逆に都会だと住民の流動性が高いから専門科を名乗った方がいい。 …うん。まあ、確かにそうだろうね。 とまあこんな感じで、「酒と女には気をつけろ」とか「不景気の時には診療費を上げるようなことをせず、量をこなしてカバーしろ」とか「使用人とする書生と看護婦は繁盛の重要な問題」とか、全般的にはすっごくマトモな本である。 「女医で成功するには、独身で、看護婦は自分よりブスにしろ」(意訳)なんてあたりは微苦笑を禁じ得ないが、サービス業全般にも通用するような心構えと身の処し方が平易に書いてあって、概ね「うん、なるほどね」と首肯できる。 …ということは逆に言えば、「秘密」というほど大仰なことではなく、ごく常識的なことしか書いて無い、ということだ(毒) ちなみにこの本、奥付によると『非売品』なのである。内容的には独立を考えている若い医者とか医学生向きだと思うのだが、いったいどこでどのように販売(配賦?)したものなのだろう? これを読んでうまく「患者吸収」できた人はいたのかなぁ。 続いては『男女共用 暑中休暇日記の栞 附 紀行文 』(安田香雨 明42)。 「学生の夏休みの日記の書き方」というトンでもなくピンポイントな指南書である。 …何も学生のうちから「老後の憂さ晴らし」の心配することも無かろうと思うが。 …すみません耳が痛いです。 うむ、なるほど、つまりこの本を読めば学校に提出しなきゃいけない「夏休みの日記」のうまい書き方が習得できるというわけだな。これはブログ書くときの参考にもなるかも知れん。 ということで読み始めたのだが。 びっくりした。 この本、薄いとはいっても本文70ページ以上あるのだが、「日記の書き方」の解説は、その内のわずか9行。 typoではない、ホントに、たったの9行なのである! 以上。 マジで、解説はこれだけなのである。 んじゃあ、残りのページは一体何が書いてあるのかというと、著者曰くの「種々の実例」がひたすら載っているのである。 まずは著者が書いたものなのだろう、架空の日記が延々と30日分以上。 その後は、著者の友人の杉田翠江氏(誰?)や清水楓葉山人(だから誰?)、吉花筑南氏(マジで誰?)の日記の実物が、そのまんま収録されているのだ。 …どうも、著者の意図が分からない。 「暑中休暇日記の栞」と題しているのだ。小学校の「旅のしおり」でもわかるように、「ナントカのしおり」というのは普通不案内な人や初学者の道しるべになるような平易な案内書のことのはずだ。「栞」というのは「枝折る」から来ている言葉で、枝を折って道しるべにすることなんだから。 それがこんな投げっぱなしジャーマンみたいに、解説も講釈も無く、ひたすら現物だけ並べただけで役に立つのだろうか。 「習うより慣れろ」だから「お手本」をよく読んで勝手に頑張れ、と言いたいのか、それとも適当にパクれと言いたいのか。 おまけに、これらの「お手本」がホントに「お手本」になってるのかという疑問がある。 著者作の架空日記なんか、「こりゃ日記じゃなくて小説だろ」と思うような書き込みっぷりだし、他に収録されている実物の日記も、「子供の夏休みの日記」にしてはかなりハイレベルのものばかりである。 。 例えば、著者の学友だったという清水楓葉が「往年小学生時代に作られたもので、何れも訂正を加えず」引用したという「鎌倉江島紀行」と題する日記はこんな感じ; …これが小学生の夏休みの日記だぜ、諸君。 スゲェはスゲェが、こういうガキとは仲良くなれそうもないじゃないか(笑) まあ、確かに明治時代の学生というのは概ね早熟である。 当時の平均寿命や就学率を考えると、学生という身分でいられること自体エリートの証明みたいなものだし、「知識」はさておき「教養」という観点では、現代の学生と比較にならないほど高かった、というのは常々感じるところだ(例えば、漱石と子規の学生時代の往復書簡なんか読むと特にそう思う)。 だがいくら早熟とはいっても、こんな「夏休みの日記」、フツーの小学生は中々書けないだろう。 「各学校で、その校の生徒に、日記を記すべき命を下すのが例」なので、その栞にしたい、というのが著者の意図のはずだが、こんな特殊な「お手本」、下手にパクッたりしたら一発で先生にバレるんじゃなかろうか(笑)。 #
by signal-9
| 2012-08-30 15:56
| 読んだり見たり
|
カテゴリ
全体 一般の話題 奇妙な論理 奇談・異聞 秋葉原 研究(笑) 町歩き 古い話 東電災害 電算機関係の話題 情報保護・セキュリティ 読んだり見たり TIPSとかKludgeとか 拙作ソフトウェア 未分類 最新の記事
記事ランキング
以前の記事
最新のトラックバック
その他のジャンル
ブログジャンル
画像一覧
|
ファン申請 |
||