ホーム 
 会社案内 
  Mind  
  Android  
  講習会  
 MindSearch 
PinPointFinder
 お問い合わせ 
 
        
 Update:2018年11月03日


Webクローリング/スクレイピング セミナー  (受付終了)   


長年の サイト内検索サービス で培った         
Webクローリングとテキスト抽出のノウハウをお伝えします       
(Linux、Windows 両対応)         

 Linus系OSでは古くからwgetが標準でインストールされていて、手軽にクローリングするための標準ツールとなっています。また最近では Windows のwgetも入手できるようになりました。大変有効なソフトですが、高機能なぶん奥が深く、実際に使ってみてようやく分ることが多くあります。
 この講習会ではHTTPプロトコルの初歩的な解説から始めて、wgetを使ったWebクローリングの勘所を数多くお伝えします。いずれもご自分で詳しく調べたりじっくり実験すれば分るものではありますが、受講されることでそのような時間を節約でき、本来のWeb収集業務に多くの時間を割くことができるようになります。
 また、収集したWeb内容を解析するのに必要となるテキスト抽出ツールについても合わせて解説します。実技では弊社製のプログラムを使いますが、セミナーでお渡ししたこのプログラムはそのままお持ち帰りいただけます。

<Webクローリングセミナー スケジュール>  (受付終了)
開催日 会場 講習時間 定員および
最小開催人数
料金
(税込)
対象者
2018/11/10
(土曜日)
受付終了しました
横浜 関内駅南口
  VIT横浜
13:30〜17:00
途中休憩有  
3名
最小2名
¥4,000 Linux or Windowsの基礎知識のある方
インターネットの基礎知識をお持ちの方
今回の講習会について
 ・顔が見える少人数での講義のため細かな実演ができ、質問も気軽にしていただけます。
 ・会場はJR関内駅南口のすぐ近くです。会場詳細は受け付け時にメールでお知らせします。
 ・最小開催人数に達しない場合は開催中止となります。
ご不明な点やご要望、申し込みのキャンセルは 弊社宛問い合わせフォーム からお問い合わせください
  <講義の内容>        (以下の多くは実演を交えておこないます)
  • 対象の方
    ・Linux または Windowsの基礎知識をお持ちの方
    ・インターネットの基礎知識をお持ちの方

  • 持参していただくもの(講義中にご自分で試されたい方)
    ・Windows7〜10 のノートパソコン、ACアダプタ、マウス
       (wgetは Linux環境で主に使われるものですが、
        本講義では機材の関係で Windows版を使います)

  • 講習内容
    ・GNU wget(Windows版)のインストール
       (プログラムは GNUのサイト からもダウンロードできますが
        当日USBメモリでもお渡しします)

       (wgetは Linux環境で主に使われるものですが、
        本講義では機材の関係で Windows版を使います)

    ・HTTPプロトコルの基礎
       ・コネクション、PUT、GETの仕組み
       ・HTTPヘッダの意味

    ・wgetによる単一ページの取得

    ・wgetによるサイト全体または一部の取得
       ・相手Webサーバに負荷をかけないための注意事項(取得間隔の指定など)
       ・HTTPヘッダ付きで取得する場合
       ・再帰的な取得の方法、ネスト数の指定が意味するもの
       ・取得するディレクトリの指定、除外ディレクトリの指定
       ・イメージ、オーディオ、ビデオファイルの除外
       ・指定した拡張子の除外機能の意味
       ・取得するドメインの指定、除外ドメインの指定
       ・複数ドメインを横断する取得
       ・SSL対応サイトの取得
       ・Basic認証のかかったページの取得
       ・クッキーの扱い
       ・ブログの取得
       ・User-Agentの指定
       ・タイムアウトの設定
       ・ログの見方

    ・HTMLファイルからのテキスト抽出
       ・rareなhtmlのまま扱う場合とプレーンテキスト変換して扱う場合について
       ・テキスト抽出プログラム:convertmfhtml の使い方
       convert は ディレクトリツリーで格納されたHTMLファイル群を
        まったく同じ構造のプレーンテキストのツリーとして変換する
        ツールです。mfhtml はconvertの下位プログラムで、1つの
        HTMLファイルを1つのプレーンテキストファイルに変換します)

  • 学習目標
    ・業務としてHTMLコンテンツの取得とテキスト抽出ができるようになること
 
 
  <受講料のお支払い>
           受講時にお支払いください(恐れ入りますができるだけお釣りの無いようにお願いします)。
 

ホームページへ

このホームページの問い合わせ