ITキーワード

Web スクレイピングとは?自社サイトが晒される脅威から対策まで解説

Web サイトの運営には、Web スクレイピングの理解が欠かせません。しかし、詳しい意味までは知らないという人もいらっしゃるでしょう。そこで、Web スクレイピングについて自社サイトが晒される脅威やその対策を調べている人に向けて解説します。記事を最後まで読んでいただければ、Web スクレイピングについての基礎知識から具体的な対策などを把握できます。

Web スクレイピングとは?

Web スクレイピングの意味について解説します。また、スクレイピングに関連する用語「API」の意味や「クローリング」との違いなども紹介しているため、あわせて参考にしてください。

スクレイピングとは?

スクレイピングとは、Web サイトで公開されている情報の中から特定の情報だけを抽出するコンピューターソフトウェア技術のことです。「Web スクレイピング」とも呼ばれています。Web サイトから入手した情報は、加工して新たな情報として生成されます。これにより、手動でデータを収集する際にかかる手間や時間の大幅な削減が可能です。

クローリング とは?

クローリングとは、Googlebot などのクローラーが複数の Web サイトから情報を集めることを指します。Web サイトから抽出された情報は、情報ごとにインデックスが付けられ、データベースに記録されます。新たに作成した Web サイトをクローラーに認識させる際に活用されるプログラムです。

スクレイピングとクローリングの違い

Web サイトを巡回して情報を取得する段階までは、両者とも同じです。スクレイピングは、複数の Web サイトを巡回したうえで、必要な HTML 情報を入手します。一方、クローリングは、Web サイトの HTML 情報から特定の情報のみを取得するといった点がスクレイピングと異なります。

API とは?

API は、アプリケーション・ソフトウェアの構築や統合に活用されるツールです。「Application Programming Interface (アプリケーション・プログラミング・インターフェース)」の頭文字を略した用語です。API の活用で、ほかの製品やサービスの実装方法を知らない場合でも、既存のシステムやサービスなどと通信できます。

スクレイピングと API の違い

両者の違いは、サービス側が情報を提供しているかという点です。API はサービス側によって情報が提供され、第三者からの情報の取得を許可しています。スクレイピングは、公式に情報の取得が許可されているわけではありません。

Web スクレイピングが使われるシーン

Web スクレイピングは、さまざまなシーンで活用されています。ここでは、具体的にどのような用途で使われているのかを詳しく解説します。

検索順位を定期的に自動収集

Web スクレイピングは、自社サイトはもちろん、競合サイトの検索順位を自動で収集する際に便利です。検索順位を確認すれば、どんな記事が上位に表示されているのかを迅速に把握できます。また、SEO 対策に効果的なコンテンツを見極める場合に役立ちます。

ショップサイトの商品や価格、商品レビューを自動収集

ショップサイトでの商品検索と同時に、価格やレビューなどの情報を同時に確認できるため、ショップサイトの調査に役立てられます。業務の効率化を図り、質の高い運営を可能にします。

宿泊サイトの空室情報を自動収集

宿泊サイトで空室情報をリアルタイムで公開する際に活用されています。サイトの訪問者に対して、空室の宿泊施設を案内できます。これにより、部屋の回転数を上げられるため、効率の良いサイト運営に有効です。

ネットオークションの価格変動を自動収集

価格変動から落札価格を予測できるため、商品の需要や市場価値の調査にも便利です。人手を使って価格の変動を調査すれば、労力や時間がかかりますが、Web スクレイピングの活用により、市場調査を効率良く行えるようになります。

株価の変動を自動収集

Web スクレイピングは、特定の株価の変動を確認する際にも活用されています。株価の変動は、経済の動きを観察する際に便利です。特定の株価の変動をリアルタイムで確認できます。

自社サイトが Web スクレイピングに晒される脅威とは?

Web スクレイピングは、ユーザーにとっては便利な機能といえます。しかし、Web サイトを運用する側からすると、Web スクレイピングの存在が脅威になる場合があります。ここでは、自社サイトが晒される脅威について確認しておきましょう。

画像などのデータをアップロードされてしまう

顔認識ソフトウェアメーカーの Clearview AI は、Facebook や YouTube などから個人の画像をスクレイピングし、アメリカの法執行機関に販売していた事実が明らかになりました。こういったケースが増えれば、自社サイトも悪用される可能性があります。

値段のつり上がりなどが起こる

Web スクレイピングの利用者は、購入のために商品情報を集める一般客や善良な bot だけとは限りません。なかには、Web スクレイパーを使って意図的にコンテンツを盗み出し、商品価格をモニタリングして価格競争に負けないように値引きを行うケースもあります。

また、システムのパフォーマンスに影響を与え、他者のサイトのシステム運用費を値上げさせるような行為も存在します。このように、悪質な bot を放置すれば、自社サイトへの経済的な損失も引き起こしかねません。

Web スクレイピングの脅威を軽減するには

Web スクレイピングをなくすことはできなくても、軽減する方法があります。ここでは、具体的な方法について解説します。自社のスクレイピング対策を行う際の参考にしてください。

Rate Limiting リクエスト

人間とコンピューターとでは、リクエストを送信する速度が異なります。コンピューターでは、1秒に100もの Web サイトの巡回が可能です。一方、悪意のある bot がスロットルのないスクレイピング技術を利用した場合、高速でスクレイピングしようと仕掛けてくるケースも多いのです。

この場合、特定の IP アドレスから一定の時間枠に送信できるリクエスト数をレート制限すれば、上述したような不正な要求から自社サイトを保護できます。

HTML マークアップを定期的に変更する

データスクレイピングボットによる悪質なスクレイピングに対する対策は、HTML 言語を用いたマークアップの内容を定期的に見直すことです。データスクレイピングボットは、特定のフォーマットに依存している特性があるため、マークアップの変更でスクレイピングを妨害できます。例えば、HTML 要素を入れ子のようにすると効果的です。

大量リクエストに対する Captcha の使用

Captcha(キャプチャー)を使用するなど、人間にとって簡単な要求でも、ヘッドレスブラウザでは対応できない要求をすれば、スクレイピングを未然に防げます。Captcha とは、Web サイトにアクセスする際に、複数の画像の中から特定の画像だけを選択するといった簡単な質問のことです。Web サイトの一部では、Captcha がよく利用されています。

画像などのメディアオブジェクト内にコンテンツを埋め込む

コンテンツ内に画像や動画などを埋め込む方法も、Web スクレイピング対策に有効です。画像などを埋め込むと、文字列として認識されなくなります。画像入りのコンテンツをコピーしようとすれば、画像ファイルからデータを引き出す際に光学式文字認識が必要なため、コンテンツのコピーは複雑化します。ただし、Web ユーザーの利便性を損ないかねません。

Web スクレイピングから自社サイトを守るには?

自社サイトに活用できる具体的な対策について解説します。

SNS アカウントによるログインを求める

Web スクレイピング対策として有効な方法は、Facebook や Twitter などの SNS アカウントによるログインを要求することです。SNS アカウントでログインしたユーザーにのみ情報を提供すれば、Web スクレイピングによる被害を受けずに済みます。

ログインの要求に加えて、1日にアクセスできるデータを「1,000行まで」とするなど、部分的なアクセス制限を設ければ、すべてのコンテンツをコピーされる心配がありません。

IP トラッキングを活用する

Cookie などの情報は技術的な偽造が可能ですが、IP の偽造はできません。そのため、IP アドレスのトラッキング機能を活用すれば、特定の IP アドレスから膨大な数のリクエストが送信された場合にブロックで対策できます。IP トラッキングを設定したら、定期的もしくは数秒単位の時間内に複数回訪問してくる IP がないかなどを注視しましょう。

Captcha を活用する

上述したとおり、Captcha の活用も有効です。自社サイトの訪問者が人間か bot であるかを判別する際、Captcha は非常にシンプルで導入しやすい方法です。そもそも Captcha とは、「completely automated public Turing test to tell computers and humans apart」の略語で、人間と bot を見分けるために開発された自動のチューリングテストを指します。

UA(User-Agent)を活用する

UA の利用は、スクレイピング対策に有効です。UA とは、Web サイトを訪問してきたユーザーのアクセス方法を見分ける際に便利なヘッダーのことをいいます。UA は、「User-Agent」の頭文字を略した用語です。UA の活用により、特定の UA が長時間使用されていることを発見すると、そのユーザーのアクセスをブロックできます。

WAF を導入して対策を行うことも有効

スクレイピング対策として、WAF の導入もおすすめです。WAF は、Web アプリケーションの脆弱性を狙う脅威から自社サイトを保護してくれるセキュリティ対策製品です。WAF を自社サイトに導入すれば、Web ページの推移状況からサイト訪問者が人間か bot なのかの見極めもできます。脅威からの攻撃手法にあわせて、検知やブロックなどの多彩な設定が可能です。

まとめ

Web スクレイピングは、複数の Web サイトから情報を収集する際に便利である反面、悪用される可能性もあります。自社サイトに被害が及ばないようにするためにも、スクレイピング対策をしっかりと行いましょう。対策の1つとして、WAF の導入も有効です。

SBテクノロジーのクラウド型の WAF および DDoS 対策サービス「Imperva Cloud WAF」は、信頼性の高いクラウド型の WAF(アプリケーションファイアウォール)です。クラウドサービスを提供する拠点は、世界中に存在しており、DDoS 攻撃対策としても有効です。

スクレイピング対策を検討中の人は、まず資料請求ください。