前回は、分析したいHPのダウンロード方法と目次の作り方「さわり」の部分まで解説しました。
私はコマンドプロンプトでも気になりませんが、色々なサイトを分析するのに毎回同じような作業をする事になるので、少しだけ作業の自動化を考えてみます。
まず、日本語プログラム言語「なでしこ」公式ホームページから、なでしこの最新版をダウンロードして、インストールします。
なでしこの詳しい使い方とコマンドリファレンスは公式ページを見ながら勉強してもらうとして、早速使ってみます。
とても短いコードですので、このまま打ち込んで下さい。面倒ならコピペしても結構です。
フォルダ選択。
検索フォルダはそれ。
「findstr /D:{検索フォルダ} "<TITLE>" *.html」をコマンド実行。
それを表示。
打ち込みが終わったら、「タイトル抽出」という名前で保存します。
私は「なでしこスクリプト」というフォルダを作っておいて、そこに保存しました。早速ダブルクリップして起動します。
このようにフォルダ選択画面が出ますので、巡集でダウンロードしたhtmlが保存されているフォルダを指定します。
すると、全htmlファイルに付けられたタイトルが表示されます。手ごたえは掴めたでしょうか?
このプログラムは、検索結果が1画面に収まらなかったので全データが表示されていません。余計なタグも表示されています。次回はこの辺りの問題を解消します。
0 コメント:
::コメントを投稿する::