カテゴリ:電算機関係の話題( 49 )

【近デジ】アンケートに答えて思ったこと。

近代デジタルライブラリー利用者アンケートに答えてみた。

 全般的には大いに称揚し激励したつもりなのだが、不満てゆーか要望? てゆーか希望? を書いたのも事実だ。
 ちょっと書ききれなかったので、ここにつらつら書いてみる。

 俺的にはこの設問がちょっと引っかかったのだ。


問17 今後、近代デジタルライブラリーにどのような機能等があったらよいと思いますか? ( 1 個以上選択)
  1. 本文の全文検索
  2. スマートフォンでの閲覧
  3. 音声読み上げ対応
  4. 全文のダウンロード

 この選択肢の選択の基準、つまり、何故こういう選択肢を選んだのかが、国会図書館内部の意見なのか、従来のアンケート結果を踏まえてなのかは判らない。
 だが、コンピュータ屋の目で見ると、どうも選択肢のレベル感が不揃いなのではないかという疑問が禁じ得ないのである。

 例えば、「全文のダウンロード」というのは(再三繰り返しているように)、システム的にはおそらく単純なスケールアウトでほとんど対処できる問題だと思う。
 同じデンで、「スマートフォンでの閲覧」というのがどういうレベルを指しているのかは判らないが、現状通り「本文は画像だけ」の提供であれば、技術的にはさして難易度が高いとは思えない(というか、現に利用者側で対応 ― いわゆる「自炊」している人もいるわけだし)。

 これらに比べて「本文の全文検索」というのは、まったくレベル(端的にはコストの)が違う話なのではなかろうか。

 俺の誤解でなければ、「本文の全文検索」というのは「本文を画像データではなくテキストデータにする」ということと同じ事である。

 この「本文の全文検索」ができる・できないで、他の選択肢はまったく実装解(設計)が異なるはずだ。
 「音声読み上げ対応」なんて「本文の全テキストデータ化」が出来てなきゃあまり意味は無かろう。スマフォ対応や全文DLも、これが出来る・出来ないで、まったく違うシステムができる、と思うのである。

 こういう風に並べられると、「本文の全文検索」というのが、如何に高い頂、しかし一番求めている(俺が)ものであるか思い知ったわけである。

 極言すれば、「本文の全文検索」=「本文のテキストデータ化」ができりゃあ、後はなんとでもなるのではなかろうか。

---- こっからテクニカルな独り言なので適当に読み飛ばしてほしい --------

 現状の近デジでは、PDFダウンロードすると各ページはJPEG 2000(静止画のJP2形式)でエンコードされたデータで落ちてくる。

 どういう環境でエンコードしてるのかは、それぞれのPDFの中身を見ればちゃんと記録されているが、例えばKakadu softwareの製品とか株式会社寿限無の「JuGeMuJPEG2000バッチエンコーダ」(for NDLとあるのでカスタム版かな)などを使っているようである。
(株式会社寿限無は 『戦後日本 少年少女雑誌データベース』でも知られているが、図書館関係のデジタル化のコアベンダ。)

 ご存じのように、ベアなWindows環境にはJPEG 2000用のCODECが付属していないので、近デジPDFをページ単位にバラしてアレコレしようとすると、JPEG 2000が扱える何かが別途必要である(Acrobatで一ページずつ手作業でコピペ、なんて馬鹿なことは考えない。JPEGダウンロードは一冊丸ごとでは時間がかかりすぎ)。

 まあ、プリンタ経由でEPS/EMFとかopenJPEGとか、方法は色々考えられるのでそれぞれ好いたらしい方法でヤることになる。

-----------------------------------------------------------------------

 とまあ、このような面倒くさいことを色々考えつつ、PDFをページ単位にバラして、Windowsで扱いやすいイメージに変換して、余白だの明度だのアレコレして読みやすくして、もう一回、テメエの読みやすいようにPDFなりXPSなり電子ブック形式だのに変換する……みたいなことをやってる奴は、多分(俺以外にも)いるだろうと思ってるわけだ。

 さらにいうと、パソコン用のOCRで読んでみるとか、Google Docs(ドライブ)のアップロード時のOCR機能を通してみる、程度のことはやってる奴は(俺以外にも)いるだろう(で、けっこうガッカリしてる奴も多いだろう。俺みたいに)。

 もっと単純な例を挙げると、近デジで付与されている「目次」はおそらくOCRを使ってるのだろう、けっこう誤認識が多いし、章・節の区別無くフラットなデータのようなので、私的必要に応じて文字を直して章・節のレベル付け直してるような奴もいるはずだ。

 さらにいえば、近デジの文書を引用する為に手で打ち直しているデータ。OCRで読ませただけよりは当然ながら精度も高いはずだ。

 この「近デジ」の外で発生しているコスト&リソース、もったいないなあ、と単純に思うのである。

 現状の近デジにはこういう、「外で発生したデータ」をフィードバックする仕掛けがない。

 昔(2007年頃)GoogleのreCAPTCHAを初めて見たときには、大いに感心した。

 Web入力時にスパムロボットを排除する為に、画面に表示された機械読みしにくい文字を入力させるCAPTCHAという仕掛けは当時でも周知のモノだったが、reCAPTCHAは認証で入力されたデータをOCRの読み込み精度向上の為に流用する、という仕掛けだ。

 例えばこの種の仕掛けを近デジの「全文テキスト化」推進に応用できないものだろうか。
  1. とりあえず、OCRでベースになる読み取りデータを提供してしまう。
    これはGoogle Booksという先例が既にあるが、近デジに含まれているような、縦書き旧かな旧漢字当たり前では精度は期待できないだろう。

  2. 善意の利用者がそのOCR読み取りデータに修正を加えられるようにする。
    reCAPTCHAみたいな一挙両得な仕掛けが考えられればそれに越したことはないが、旧漢字対応とか考えるとすごく難しそうだ。場合によっては 舊→旧 みたいな書き換えは人間判断でOKみたいなルールは必要かも。

  3. 人間の修正データによってOCR読み取りデータを直すと同時にOCRを賢くする。


 ああ、わかってる。

 今の世の中、善意の利用者なんて想定する方が間違ってるかもしれないし、何らかのインセンティブがなきゃあ、こんなこと進んでやるような奴は皆無かもしれん。

 おまけに図書館といえど国家機関。
 妙なイタズラでもされて「テヘペロ」で許してもらえないかもということを考えると、わけ判らない「一般市民」どもなんか介入させちゃあいけないのかもしれない。

 一般利用者側からみても、Googleに任せておけばいいじゃん、という判断だってあるかもしれないし、どうせ著作権切れなんだから個人で勝手に焼き直して公開しちゃえばいんじゃね? という判断もできるかもしれない(法的にどうなのかは知らない)。

 ただねぇ、なんかこう、勿体ないような気がするんだよなぁ。せめて目次だけでも修正させてくれないかなぁ。

…というのが、俺がアンケートに書いた真意なので、よろしくご検討ください国立国会図書館様。
[PR]
by signal-9 | 2012-09-13 17:40 | 電算機関係の話題

デニス・リッチー御逝去

 なんつーか今年は、俺の構成成分の多くがこの世を去るよ…

 もうね、何というか、この人が人類にどれほど貢献したか言うまでも無いと思うんだが。

 比べちゃいかんのだろうが、ジョブスとか柳ジョージとかに比べても訃報の扱いが小さすぎる気が。

 昨日、久々に本棚の奥からK&R(旧版の方)を引っ張り出してみたが、あちこちに自分の書き込みがあって、不覚ながらちょっと泣いた。

 相方(違)のケン・トンプソンも、もう68かぁ…。俺も歳取るわけだわ…
[PR]
by signal-9 | 2011-10-14 11:54 | 電算機関係の話題

闇プログラマーの人気に嫉妬。

 最近、「闇プログラマー」の存在が暴露され、話題になっているようだ。

 本日時点でGoogleでの「闇プログラマー」のカウントは約 302,000 件。

出典:アンサイクロペディア
闇プログラマーは、闇のソフトウェア・テクノロジーを持つ者たちで、闇のインターネット内で暗躍する最高レベルのスキルを持つプログラマーたちに与えられる称号である。その存在が光のプログラマの脅威になるため、長い間、弾圧されてきた。闇プログラマーは、ごく最近までカノッサ機関によってその存在を秘匿されていたが、Twitter上である一人の高校生により存在を暴露された。なお、「闇プログラマー」という語は「プログラマ」のように語尾の「ー」を省略してはならない。


 アンサイクロペディアで触れられている、Twitter上での暴露というのは恐らくこの流れのこと

 いいよなぁ「闇プログラマー」(笑)

 「友達のスーパーハカー」なみにカコイイ。

 たぶん、闇ハードウェアで、闇アルゴリズムを駆使した闇言語闇プログラムを、闇エディタでゴリゴリ書いちゃうんだろうな。

 闇デバッガ

 いやいや、きっとどんな瑕疵も見逃さない邪気眼とか装備してるから、デバッグなんて下品な作業は必要ないに決まってるよ(笑)
[PR]
by signal-9 | 2011-10-06 13:42 | 電算機関係の話題

「Windows管理者のための15の必携オープンソースツール」

15 essential open source tools for Windows admins By J. Peter Bruzzese , InfoWorld

 何をいまさら、という感はあるかもしれないが、不勉強な俺は知らないのもあったので。記事の要約なので、俺が勧めてるわけではない(笑)

「Windows管理者のための15の必携オープンソースツール」

 ”MS製のサーバを管理するんならMS製のツールがいいんじゃね、と思うかもしれないし、大抵の場合それは正しいんだけど、ホントはいろいろ強力なオープンソースのツールもあるんだよね。MS自身がCodePlexでオープンソースツールの利用を促進してるくらいなんだから。
 Windows環境でもオープンソースツールを試してみるのは絶対いい経験になると思うよ。ネットワークトラブルシューティングから性能分析まで、お勧めツールのリストを作ったから見てみてよ”


  1. Wireshark

  2. ネットワークトラシューは勉強と長い経験が必要なゲージツ的作業だけど、Wiresharkみたいな強力な機能のあるツールはそれをかなり助けてくれる。こいつのプロトコルのカラーコーディング機能はチョー便利。

  3. AMANDA

  4. バックアップでお悩みならAMANDAは要チェック。

  5. MailArchiva

  6. コンプラ規制のおかげでExchange2010ではメールのアーカイブ機能が出てきたけど、みんながみんな2010を使ってるわけじゃない。
    Exchange2000/2003, Postfix, Sendmail, QMail, iMail, Lotus Notesを使ってるんならMailArchivaは押さえとけ。

  7. Exchange 2010 RBAC Manager

  8. Exchange 2010 RBAC ManagerはExchange2010のロールベースのアクセス管理のためのグレートなツール。

  9. Core Configurator 2.0 for Server Core

  10. 2008と2008 R2のコマンドラインバージョンはグレートなアイディアだけど、設定もコマンドラインで、つーのは大変じゃね? これを使うとGUIでできる。

  11. AutoSPInstaller for SharePoint 2010

  12. SharePointインスコした奴なら、あのインストーラがヒドいSQLデータベースを作るのは知ってるよね。このツールを使うと綺麗なデータベースで入れられるよ。

  13. OCS Inventory

  14. ネットワークに接続されているデバイスやソフトウェアのインストール、ハードウェアの接続状態を管理するならコレ。クライアントにエージェントをインストールしておけば簡単な操作で視覚化できるよ。

  15. UltraDefrag

  16. システムファイルからレジストリ、ページファイルまでデフラグできる。NT4.0, 2K, XP, 2K3, Vista, 2K8, 7 (それらの64ビット版でも)で動作する。

  17. Nmap for Windows

  18. 元々Unix用だったセキュリティスキャナ/ネットワークマッパのWindows版。

  19. Zenmap

  20. nmapと組み合わせて使うGUIツール。

  21. PowerGUI

  22. PowerShellって便利なんだけど、コマンドライン覚えて叩くのは大変じゃね? GUIとスクリプトエディタが欲しいんならこれをチェック。

  23. Performance Analysis of Logs (PAL) Tool

  24. パフォーマンスモニタのログを分析するツール。

  25. ClamWin Antivirus

  26. オープンソースのアンチウィルスソフト。リアルタイムスキャンはできないけど、無料。

  27. Virtual Router

  28. Windows 7 や Windows Server 2008 R2をWiFiルータにする。WPA2対応。

  29. VirtualBox

  30. オープンソースのOS仮想化ツール。Windows, MacOS, Linux, Solaris対応。

[PR]
by signal-9 | 2011-09-27 11:57 | 電算機関係の話題

gTLD拡張に纏わる懸念。

来年スタートの「gTLD拡張」、65%の企業がドメイン・スクワッティングを懸念 COMPUTERWORLD.jp 2009年06月11日
英国のドメイン取得サービス大手Gandiが6月9日に発表した調査リポートによると、2010年に予定されているgTLD(汎用トップレベル・ドメイン)の拡張がドメイン・スクワッティング(ドメインの不法占拠)につながることを懸念している企業は、全体の65%に上っている。Gandiの調査は、1,000人以上の英国在住者を対象にしたもので、その中には大規模流通会社100社やSMBのビジネス・マネジャーが多く含まれている。

 現行のルールでは、企業/組織や個人がドメイン名を取得するときは、「.com」や「.net」、「.co.uk」のように、決められたgTLDを使用しなければならない。しかし、これに不満を持つ企業は少なくない。実際、28%の回答者が、希望どおりのドメイン名を取得できず、名前を変えたりTLDを変更したりする必要があったとしている。

 このような制約を緩和するものとして期待されているのが、来年に予定されているgTLDの拡張である。ICANN(Internet Corporation for Assigned Names and Numbers)が提案した拡張ルールにより、地名(例えば.Londonや.Paris)、企業名(.Nikeや.Coke)のほか、自由な名前(.God)をgTLDとして採用できるようになる予定だ。
 これ、非常に大きな問題なんだが、日本だとあまり話題になってないような。

「ドメイン・スクワッティング」とは、企業とか有名人とかを容易に連想させるドメイン名を第三者が登録してしまうことだ。その本人に転売することでカネを稼ごうとか、そのネームバリューに乗っかって旨みを得ようとか、そういうことを狙っているわけだ(似たもので、既存の有名ドメインに似通ったドメイン名を取り、誤解や入力ミスを狙うタイポ・スクワッティングというのもある)。

 gTLD(generic Top Level Domain)とは、ドメイン名の一番右端の、'.com' とか '.net' とかいうアレだ。昔は'com'と'net'と'org'くらいしかなかったが、2001年の改正で'info','biz','name'なんかが増えた。TLDには、この他にsTLDとiTLDとccTLD、その他、つー種類がある(ccTLD以外全部gTLDと見なすこともある)。sTLDは「スポンサー付き」というヤツで、'aero'とか'coop'なんてのが、iTLDは国際機関向け、ccTLDというのは'jp'とか'cn'とか国別に割り当てられるヤツだ。

 さて、プログラマの立場で考えると、TLDでアレコレしてるヤツはそこそこいるような気がしている。よく見かけるのは、正規表現でドメイン名のチェックをしてるようなケースだ。
 一例を挙げると、ある正規表現関係の書籍では、簡便なメールアドレスのチェックとしてこんな例を掲載している。
(?:[a-z]\.|[a-z][a-z0-9-]*[a-z0-9]\.)+(?:aero|biz|com|coop|info|museum|name|net|org|pro|jobs|travel|arpa|edu|gov|int|mil|nato|[a-z]{2})
 要するにドメイン名の一番右端はaeroとかcomとか決まった文字列(gTLD,sTLD,iTLD,その他)か、さもなきゃ英文字2文字(ccTLD)だ、つーことを前提にしてるわけだ。

 これはあくまで「簡易的」な「例」なので、こういうのをそのまま使ってるヤツはそう多くはないだろうが、webやメール関係の実装(FQDNのチェックとか)で、TLDの種類に強く依存して(=ハードコードして)判定を分けているようなケース、俺の拙い経験でもけっこうあっちこちで見かけるのである。

 gTLDに地名とか企業名とか、事実上なんでも使えるようにしてしまえ(より正確には、そういうドメインを管理するレジストラを「募集」する、といったほうがいいのか。結果的には同じことだと思うが)、つーのが今出てる「改正」案だそうだが、コレをやられると、上のようなハードコードはおそらく事実上破綻しちゃうかも。
 実際には、いろいろな運用ルールが決められて「無制限」つーことにはならないだろうが、プログラマにとって重要な「仮定」の範囲が大きく変わってしまうことに違いはない。

 もちろん、こんなのは企業ブランドとか商標とかを守る仕事をしてる連中の心配に比べれば微々たるものだろう。「せっかくcomもnetも押さえたのに、またぞろ使いもしねぇドメイン名押さえとくのに金がかかるのか!」と呪いの言葉の一つでも吐きたくなろうというものだ。

 個人的には、「やっぱ止めた」ってことにならないまでも、心配する必要がなくなるくらいグズグズで使いようがなくならないかなぁと淡い期待をしてるんである(爆)。
[PR]
by SIGNAL-9 | 2009-06-12 12:23 | 電算機関係の話題

石田晴久氏、御逝去

IT総合学部長 石田晴久の逝去について 2009年3月9日 サイバー大学 プレスリリース
サイバー大学IT総合学部長 石田晴久(1936年10月30日生、満72歳)は、2009年3月9日(月曜日)午前7時00分、心筋梗塞のため東京都内の病院にて逝去いたしました。
毀誉褒貶はあるかもしれないが、日本のコンピュータの歴史において、特に啓蒙・教育活動で大きな足跡を残された方だと思う。

俺の如き不勉強浅学菲才のヤカラでも、石田先生の訳したK&Rくらいは持ってる。つーか、当時は他になかったしな。

個人的に思い出深いのは「コンピュートないと」だ。

マイコンの専門テレビ番組つーのがあったのだ、昔。
今で言うNHK教育のパソコン入門番組の最初期の姿みたいなものだが、テレビの副音声でコンピュータのプログラムをダウンロードさせるという空前絶後のトンデモない番組だった(笑) 当時のマイコンはカセットテープのインタフェイスがあったので、副音声を録音してそれを自宅のマイコン(FM-7とか8)に読ませるんである。

OASYSの生みの親、 神田泰典氏のこちらのページに記録があるが、石田先生の朴訥とした司会っぷりが思い出されるなあ。

御冥福をお祈りする。
[PR]
by SIGNAL-9 | 2009-03-10 09:29 | 電算機関係の話題

Googleイメージ検索で「LIFE」の写真アーカイブが検索可能に

Googleイメージ検索で「LIFE」の写真アーカイブが検索可能に ITMedia 2008/11/19
米Googleは11月18日、グラフ誌「LIFE」が保管する大量の写真が、Googleイメージ検索で検索可能になったと発表した。

 古くは1750年代にまでさかのぼる数々の写真のデジタル版を、アーカイブページで見ることができる。Googleによると、LIFEが保管する大量の写真のうち、実際に雑誌に掲載されたものはごく一部で、残りはネガやスライド、プリントなどの状態のまま、ほこりをかぶっていたという。Googleはこれらをデジタル化し、現在そのうちの約20%をオンライン上で公開している。今後徐々にデジタル化を進め、最終的には約1000万点に上る保管写真のすべてを公開する予定という。
アーカイブサイト

こころみに、japanというキーワードでサーチしてみると、史料価値の高そうな写真がワラワラ200枚ばかり。

これはスゴイ。

「コンピュータ」とか「宇宙」「ロボット」「映画」「戦争」なんてキーワードでも、これでもかというほど珍しい写真が。

これはオモロイ。

うううううん。いかん、またしても徹夜必死の最強暇つぶしサイトの登場だわ。
[PR]
by SIGNAL-9 | 2008-11-20 00:00 | 電算機関係の話題

さよならビレッジセンター

ビレッジセンターが11月末で会社解散 Internet Watch 2008/11/18 17:54
ビレッジセンターは17日、11月末日をもって会社を解散することを明らかにした。

 ビレッジセンターは、株式会社技術評論社の広告部門として1986年に独立。1988年にはMS-DOS用のテキストエディタ「VZ Editor」の販売を開始し、ソフトウェア出版部門や書籍出版部門を株式会社ビレッジセンターとして法人化。Windows用のスクリーンセーバー「ミカンせいじんスクリーンセーバー」、統合エディタ「WZ Editor」、検索ソフトウェア「サーチクロス」などのソフトを販売してきた。

 代表取締役の中村満氏は、「この度の11月末日に、株式会社ビレッジセンターを私の意志にて永遠の眠りにつかせます」として、関係者やVZ Editorを開発した兵藤嘉彦氏などに謝意を表している。また、「WZ Editor」関連については、2008年4月に株式会社WZソフトウェアに事業を移譲している。
パソコンをマイコンと呼んでいた時代から「ああ、買ってよかったぁ!」と思えるソフトに出会えたのは数えるほどだが、VZ Editorはまず間違いなくその筆頭といえるソフトである。

 もちろん作者のc.mos様(滅多に様なんて付けないが、この人には付けるぞ)の偉大さは言うまでもないが、安価で入手しやすくしてくれたビレセンはなんとなく「俺らの仲間」的なシンパシーを感じられる会社だった。

 なんだか、古い友達がいなくなっちゃうような気分だなぁ。近頃疎遠だったけど(^^;)。
[PR]
by SIGNAL-9 | 2008-11-19 17:26 | 電算機関係の話題

ヘルプデスクを困惑させる質問集

スカンクがケーブルを食べてしまったんだけど」、ヘルプデスクを困惑させる質問集 www.afpbb.com 2008年09月25日
【9月25日 AFP】米カリフォルニア(California)州Menlo Parkに拠点を置く、IT分野の人材派遣企業ロバート・ハーフ・テクノロジー(Robert Half Technology)は、全米各地にある企業のヘルプデスク・テクニカルサポート部門の責任者1400人から、最も困惑させられた質問を集めた。
自分だったらどう答えるだろう…と考えてみると、なるほど確かにこりゃあ答えに窮するわな。

「パソコンが任意のキーを押してくださいって言ってるんだけど、『任意』ってキーはどこにあるの」
あ、これは昔からあったな。”HIT ANY KEY”問題。「いっそANYってキーを作っちゃえばいいんじゃね?」という冗談も昔からあったあった。

「キーボードをアルファベット順に作り直してもらえないかな」
これはいくらか答えようがありそうだが、
「パソコンにケーブルテレビをインストールしてくれないかな」
これは、さすがに…どう答えたらいいものやら。

この手で有名なのが絶対サポセン黙示録だが、割と身につまされる話が多くて、意外と笑ってられなかったりする(笑)
[PR]
by SIGNAL-9 | 2008-09-25 12:29 | 電算機関係の話題

Google Chrome入れてみた。

あくまで俺の環境での話。参考までにCore Quadの2.4GHz、RAM3GBという、まあそこそこのマシンである(画面周りはQ35 Expressでかなり遅い。いわゆるご家庭用の環境ではない)。
  1. タブごとにexeのプロセスを生成するので、メモリ使用量は多少多い。1タブ毎30MBくらい。
    *念のために補足しておくが、これは必ずしも「悪いこと」ではなくワザとそうしているものなのである。いわゆる"サンドボックス"化で、タブのひとつひとつを独立させて安定性を高めるための設計だそうだ。確かにタブのプロセスを強制終了しても、他のタブには影響が出ないし、そもそもの親プロセスをKillしてみると、次回立ち上げ時に復元機能が動いて閲覧の状態を復元するという念の入れ方。
  2. レンダリングは確かに体感上早いような気がする。平均的にIE7/FF3に比べて半呼吸速い、って感じ。かなり大きなテーブルデータを表示させると顕著に感じられる。
    *これも念のため補足。速度は良いのだが、残念だがレンダリングの精度に関してはむむむむの部分があると思う。IE7は置いとくにしても(笑)FF3には未だ敵わないかなぁ。
  3. SunSpiderでJavaScriptをベンチマークしてみた。
    トータルベースでIE7=26323.4ms、FF3=2729.0ms、Chromeは1412.2ms。
    このベンチマーク、妥当性には議論もあるが、単純にはIE7の18倍、FF3の2倍の速度を叩き出した(あくまでトータルベースね。個別テストではFF3がGCに勝ってるものも多い。詳細は以下に)。
  4. 速いといえば起動が速い。なんかインチキしてるんじゃないかと思うくらい(笑)。ローカルキャッシュが溜まった状態ではないので使い込んでいくとどうだかわからないが
特に奇をてらったようなインタフェイスでもなく、筋の良いブラウザではないかと思う。今後が楽しみだ。

参考:SunSpiderベンチマーク
[PR]
by SIGNAL-9 | 2008-09-03 15:49 | 電算機関係の話題