Outscraper F.A.Q.

一般

スクレイピング、ハーベスト、またはエクストラクトとは、ある公開サイトからすべての情報を取得するプロセスです。手動でのデータのエクスポートを自動化します。
公共データのスクレイピングや抽出は、合衆国憲法修正第1条によって保護されています。第9巡回区控訴裁判所は、一般にアクセス可能なデータの自動スクレイピングは、コンピュータ不正利用防止法(CFAA)に違反しないと判断しました。ただし、特定の問題については弁護士に相談し、管轄区域の法律を遵守するようにしてください。
チェックアウト APIドキュメント または訪問 GitHub のページでは、サービスをコードに統合する方法について詳しく説明しています。のページをご覧ください。 ブログ.
公開されているデータのみを抽出しており、スクレイパーはデータサイエンティスト、開発者、マーケティング担当者のためのブラウザとして機能します。 PIIフリーのデータを保証する仕組みは、どのようなカラムを返すかを選択することである。

お支払いとサブスクリプション

の使用状況に応じて、請求書が作成されます。 サービスについて の間に ビリング の期間(30日)である。価格は、以下の通りです。 ページ.
無料利用枠は、毎月無料で使用できる使用量です。たとえば、一部の製品Xには、1か月あたり500リクエストの無料利用枠があります。これは、1か月の間に500リクエスト未満の製品の使用は無料になることを意味します。
サブスクリプションが確定すると、以下の使用量の請求書が送られてきます。 サービスについて 加入期間中に 3日以内にお支払いいただけなかった場合は、システムが自動的に課金を試みます。
ある程度使用したら、次の請求書を見ることができます。 プロフィールページ.支払額が確定したら、「請求書作成」をクリックして手動で請求書を作成するか、30日以内に自動的に作成されます。
アカウントにクレジットを追加すると(プリペイドオプション)、その取引に関する領収書が電子メールで送信されます。 請求書は、各請求期間(30日)後に作成されます。また、請求金額が確定したら、「請求書の作成」ボタンをクリックして、請求書を手動で作成することもできます。 プロフィールページ.

タスクは終了し、タスクの使用量がアカウントクレジットを上回る場合、未使用分の請求書が発行されます。

リミットを使って、抽出するデータの量を制限することができます。

  1. Open Outscraperプラットフォーム.
  2. にナビゲートします。 Billing Information page.
  3. Enter the necessary billing information you want to see in your invoices.
  4. Click the Save button. All your future invoices will be created with the information you have entered.

API

1秒あたりのクエリー数の上限は、リクエストの内容、サービス、リクエストパラメーター(結果量、クエリー量など)に依存します。平均的なQPSは20程度(ソフトリミット)です。ただし、Outscraperはお客様のニーズに応じて拡張することが可能です。お願い チームへの連絡 より高いQPSが必要な場合は

はい。APIは、最大で1,000個までの配列を送信することで、バッチ処理をサポートします。 25 クエリ(例. query=text1&query=text2&query=text3です。).一度のリクエストで複数のクエリーを送信でき、ネットワークの待ち時間を短縮できる。

に移動します。 API利用履歴のページ をクリックすると、最新のリクエストを見ることができます。

にナビゲートします。 プロフィールページ->APIトークンで新しいキーを作成します。

平均応答時間は3~5秒です。ただし、サービス(速度最適化あり・なし)の種類や、1リクエストあたりのクエリー数(バッチオプション)に依存する場合があります。

APIのスループットを上げるためには、いくつかのポイントを押さえる必要があります。

  1. APIエンドポイントの最新バージョンを使用していることを確認してください。例えば Places API V2  代わりに Places API V1.SDK を使用する場合、API の最後のバージョンがデフォルトで使用されます (例. google_maps_search()).
  2. バッチングを使用すると、1回のリクエストで最大25個のクエリーを送信できます(例:query=text1&query=text2&query=text3)。これにより、1回のリクエストで複数のクエリを送信でき、ネットワークの待ち時間を短縮できます。
  3. リクエストを並行して実行するチェックアウト この例では
  4. を使用します。 ウェブフック を使用して、準備ができたら結果を取得します。

タスクによっては、データの抽出に時間がかかることがあります。タイムアウトを処理するには、いくつかの方法があります。

  1. リトライを使用する。いくつかのスクレイピングリクエストがエラーまたはタイムアウトを返すかもしれないことを予期してください。通常、もう一回試すと問題が解決します。
  2. 非同期リクエストを使用する。非同期リクエストを送信し、推定実行時間後に結果のチェックを開始するのがグッドプラクティスです。チェックアウト こん Pythonの実装を例とする。
  3. を使用します。 ウェブフック を使用して、準備ができたら結果を取得します。

グーグルマップスクレーパー

Googleは時々、検索結果に他のカテゴリーを追加することがあります。例えば、次のような検索をした場合 レストラン 若しかしたら バー, コーヒー みせものあるいは ホテルズ.のようなマイナーなカテゴリを使用している場合、特に無関係なデータを導く可能性があります。 スイミングプール

Outscraperでは、それらのカテゴリーを排除するための2つのツールを用意しています。

  1. Google Mapsのランドマークカテゴリー

    を使用します。せいごう" のチェックボックスにチェックを入れます。このパラメータは、選択したカテゴリのみを返すか、Googleが表示するすべてを返すかを指定します。googleで類似の場所を開き、カテゴリーを確認することで、正しいカテゴリーを使用していることを確認してください。

  2. 結果のフィルタリング

    アプリケーションによる結果の絞り込み フィルター を subtypes 列に追加します。このようなフィルターは、無関係なデータをすべて排除して、必要なものだけを返すことができます。空の結果を避けるために、フィルタを使う前に、フィールドの値をよく理解しておいてください。

あらかじめ定義されたロケーションやカテゴリーだけでは不十分な場合があります。カスタムロケーション」や「カスタムカテゴリー」オプションを使って、必要なカテゴリーやロケーションを挿入してください。
Googleマップでは、1回の検索で400~500件までしか表示されないという制限があります。これは、1つのカテゴリーに複数の企業が存在する場合に問題となります。例えば、以下のような場合です。 "レストラン、ブルックリン". これを解決するために、場所をサブロケーションに分割することを提案する。例えば、郵便番号を使うことである。 "restaurants, Brooklyn 11203", "restaurants, Brooklyn 11211", "レストラン、ブルックリン 11215"または、サブカテゴリを持つクエリを使用する。 "アジアのレストラン、ブルックリン", "イタリアンレストラン、ブルックリン", "メキシコのレストラン、ブルックリン", …
クエリを使用する」スイッチャーにチェックを入れ、クエリを入力します。
Googleに特定の企業だけを検索させるには、その言葉を引用符「 」で囲みます。 NS ” “ 演算子は通常、ストップワード(Googleが無視する単語)の周辺や、検索キーワードに完全に一致するページのみをGoogleに返させたい場合に使用します。
Extract data... "ボタンをクリックすると、タスクの見積もりとクエリが表示されます。 Google Mapsサイトでの見え方を確認するために、いくつかのクエリをクリックして開くことをお勧めします。
結果の予想数をコントロールするために、守っていただきたいことが2つあります。 1. 1クエリあたりの組織数制限 - 1つのクエリから取得できる組織の上限を指定します。 2. クエリ数 - 検索クエリの量に応じた 2つのカテゴリーと3つのロケーションからデータを抽出するために、ボットが行うクエリーは6つあります。 そのため、結果的に480組織(80×6クエリの上限)を超えることはありません。

重複を削除する」チェックボックスを選択することで、1つのタスクで重複を削除することができます。

はい、"Drop duplicates" チェックボックス(advanced parameters)を使用すれば、1つのタスクの中に重複をドロップすることができます。また、"google_id" や "place_id" フィールドを場所の一意な識別子として使用することで、自分でドロップすることも可能です。

正確な結果数は、抽出後にのみ判明します。 Total places limit "を使用すると、最終的にスクレイピングされる結果の量を制限することができます。
はい、以下のリンクをクエリとして使用することができます。https://www.google.com/maps/search/real+estate+agency/@41.4034,2.1718413,17z" で、クエリ (不動産+官庁)、座標 (41.4034,2.1718413) およびズームレベル (以下同じ) を指定できます。17z).これらの値は、Google Mapsにアクセスすることで確認できます。 を使用している場合は、"座標" パラメータを使用することもできます。 API.
はい。 メール&コンタクトスクレイパー を、Googleマップスクレーパーと合わせて、Googleのデータを充実させます。そのためには、「他のサービスで充実させる」の項目で「メール&連絡先スクレーパー」を選択して Google Maps Scraperのページ.

Google Mapsに掲載されたメールに関連する情報は公開されていません。Outscraperでは、外部ソースを使用してそれらの電子メールを検索しています。

詳細パラメーターのフィルターは、以下の演算子で使用できます。

タスクを都市/州やその他のユニークな属性で分割することができます。例えば、最初のタスクでニューヨークから場所を抽出し、2番目のタスクでカリフォルニアから場所を抽出することができます。

お問い合わせ

質問、特別なニーズ、問題...あなたから聞いていつも幸せです。