ミツバチはWebページの構文を解析し、構造を理解した上でデータを取得するクローラです。
構造を理解しているので、ミツバチは狙ったデータを確実に取得することが出来ます。
HTMLの構文解析にはFirefoxと同じ構文解析エンジンを使用しています。
あなたがFirefoxを使ってインターネットをしているのと同じように、
ミツバチもFirefoxを使ってそのWebサイトを見ているのです。
従来の正規表現型のクローラと比べて、構造を理解するミツバチは表現のゆらぎにも柔軟に対応します。
Webページの構造が変わらなければ、書いてある内容が変わってもさほど問題にはならないのです。
取得したい内容を保持しているタグを、ミツバチではCSSのセレクタを使って指定します。
これは正規表現を使うよりずっと、開発と保守を簡単にします。
jQueryがセレクタ指定によってDOM操作に革命を起こしたように、ミツバチもまたクローラ開発に革命を起こしました。
ミツバチのコントロールにはRubyを使います。Rubyはシンプルさと高い生産性を備えた動的なプログラミング言語です。
動的言語を採用することで、あらゆるサイトに柔軟に、かつ素早く対応することが可能になりました。
革新的なクローラエンジンが、あなたの要求に答えます。
ミツバチはAmazonの実績あるインフラ上で実行されます。
全世界5箇所に分散した
ミツバチはサイトに優しいクローリングを心がけます。1つのサイトに対して50~60秒の間隔でアクセスするため、ミツバチによるアクセスが攻撃とみなされることはありません。また対象となるサイトに負荷をかけないため、トラブルが発生しにくく安心です。