更新が遅くなってしまいました。今回は、抽出したタイトルに、リンクタグをつけて、Web上にあるオリジナルの情報にアクセスできるようにしてみます。
フォルダ選択。
検索フォルダはそれ。
「findstr /s /i /d:{検索フォルダ} "<title>" *.html」をコマンド実行。
「:」を「,」に置換。
「\」を「/」に置換。
タグ削除。
検索結果はそれ。
検索結果をCSV取得して反復
「<A HREF=http://」&検索結果【回数,0】&「>」&検索結果【回数,1】&「</A>」をリンク付目次に配列追加。
リンク付目次をコピー。
「wordpad.exe」を起動。
5秒待つ。
『^v』をキー送信。
終わる。
findstrコマンドにサブフォルダまで検索するオプションと大文字小文字の区別をしないオプションを追加しました。findstrコマンドの使い方を勉強したい人は、『@IT:Windows TIPS -- Tips:findstrで正規表現を検索する』あたりが参考になると思います。
これまでのプログラムでは、htmlファイルが置いてあるフォルダを指定していましたが、今回のプログラムでは、巡集がダウンロード時に自動作成するフォルダを指定して下さい。今回の場合なら『東村山市民新聞』フォルダを指定することになります。
これで何が変わるかと言うと、検索結果が
『www.geocities.jp\higashimurayamasiminsinbun\index.html,東村山市民新聞』のような形になります。
(※\は実際は半角の¥ですが、このブログでは自動変換されてしまうようですのでご容赦ください)
オリジナルのサイトのURLにかなり近くなります。あとは、『http://』をつけたり、リンクタグをつけたりすれば良いということで上記のソースになっています。
前回、カンマ区切りのcsv形式にしておいたのが活きて、今回『CSV取得』という命令を使うことで二次配列変数として取り込むことが出来ました。
『反復』や特殊変数『回数』は、なでしこ関係のページを検索すれば何となく使い方が見えてくると思うので色々試しながらがんばって下さい。私のソースは野暮ったいのでもっとスマートに書ける人も居ると思います。
これで、とりあえずですが目次を作る作業の面倒そうな部分を大体自動化できたと思います。あとは出力されたリンクタグつきの目次をブログやホームページにコピペすればOKです。
あくまで最低限の要素だけしかいじっていませんが、この辺りまで理解できればもう少し他の要素を抽出してリストに加えたり、テーブルタグを組むのもそれほど難しくないはずです。
なでしこによるブログ等の目次自動作成の解説は、この辺りで一旦休止します。(ないとは思いますが)万が一何か質問やリクエストが出てくるようならもう少し踏み込んだところまでやってみます。
0 コメント:
::コメントを投稿する::