近デジ PDF一括ダウンローダー 自動版 一応完成

 ちょっとだけ気が向いたので、前回作ったモノを改善。

 追加したのは、
  1. PIDだけではなく、近デジの検索画面で張られるURL(http://kindai.ndl.go.jp/info:ndljp/pid/ほにゃらら)を入れたら、最後の/の後ろの「ほにゃらら」をPIDと見なして受け入れるようにした。
     自分で使ってみたら、ブラウザで検索画面を使っていて「お、これはおもしろそうだな」と思ったら、文書のリンクをそのままコピーしてコマンドラインに貼り付けるという方がラクだと気づいたので(気づくのが遅い)。

  2. PDFの結合。
     別DLLが必要になるのでちょっと迷ったが、iTextSharpをそのまんま使わせてもらった。
     最新版のVer 5.3.0でも、いわゆる「Web表示用に最適化」(Linearized PDF)には対応していないらしいのがちょっと残念だが、ローカル保存・ローカル閲覧が主目的なので無問題。
     これで、今まで使っていなかった文書名や作者名から、ファイル名を生成すると同時にPDFのプロパティに突っ込むことにした。iFilter経由で検索に使う予定。


 ブラウザで近デジ検索画面で検索して、一括DLしたい文書のURLをコピペして、バッチファイルを作成する。


TEST_KinDigDL.exe http://kindai.ndl.go.jp/info:ndljp/pid/ほにゃらら
TEST_KinDigDL.exe http://kindai.ndl.go.jp/info:ndljp/pid/ほげほげ
……


 で、適当な時間(寝てるときでもいいのだが、処理的にはスリープしてる時間の方が圧倒的に長いので、パソコン使ってる裏ででも特に痛痒感は感じない)に、このバッチファイルを動かすと、いつの間にやら本毎にPDFができているという寸法である。

 元々汚かったコードがますます汚くなったキライはあるが、個人的には結構ラクになった。
 で、いきおいで80冊くらいダウンロードしてしまったのだが、よく考えたら、こんなに読む時間がないや(爆)

 のんびりとだが、目を通せて面白かったモノは、今後このブログのネタにするつもり。
[PR]
by signal-9 | 2012-07-20 16:27 | TIPSとかKludgeとか
<< 近デジ PDFダウンロード 「... 近デジ PDFで全部ダウンロー... >>