Linus系OSでは古くから
wgetが標準でインストールされていて、手軽にクローリングするための標準ツールとなっています。また最近では
Windows のwgetも入手できるようになりました。大変有効なソフトですが、高機能なぶん奥が深く、実際に使ってみてようやく分ることが多くあります。
この講習会ではHTTPプロトコルの初歩的な解説から始めて、wgetを使ったWebクローリングの勘所を数多くお伝えします。いずれもご自分で詳しく調べたりじっくり実験すれば分るものではありますが、受講されることでそのような時間を節約でき、本来のWeb収集業務に多くの時間を割くことができるようになります。
また、収集したWeb内容を解析するのに必要となるテキスト抽出ツールについても合わせて解説します。実技では弊社製のプログラムを使いますが、セミナーでお渡ししたこのプログラムはそのままお持ち帰りいただけます。