クローラーは、ウェブページのHTMLコンテンツのスクレイピングに役立つデータコネクターです。一連のウェブページ上でクロールが正常に実行されると、[データを追加]フローを使って未処理のHTMLコンテンツをKnowledge Graphのエンティティに変換することができます。この記事では、クローラーの作成方法について説明します。
ウェブサイトにクローラーを設定する前に、ウェブサイトにアクセスできるよう、Yextクローラーを適切にホワイトリストに設定する必要があります。クローラーのユーザーエージェントとIPアドレスの両方のホワイトリスト設定が必要です。
ユーザーエージェント
Yextクローラーは以下のユーザーエージェントを使用します。
Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) HeadlessChrome/87.0.4280.88 YextBot/Java Safari/537.36
IP
Yextクローラーは以下のIPアドレスを使用します。
- 54.204.19.87
- 50.19.160.200
- 34.198.218.97
- 54.221.171.225
クローラーの作成は以下の手順で行います。
- ナビゲーションバーにある[Knowledge Graph]をクリックし、[設定(Configuration)]をクリックします。
- [クローラー(Crawlers)]をクリックします。
- [+ 新しいクローラー(+ New Crawler)]ボタンをクリックします。
- クローラーの名前を入力します。
- [毎週(Weekly)]をクリックし、クローラーの実行をスケジュール設定する頻度を一度(Once)、毎日(Daily)、毎週(Weekly)のいずれかから選択します。
-
[サブページ(Sub Pages)]をクリックし、クロール戦略を選択します。
- クロール戦略では、すべてのページ、サブページ、または特定のページのどれをクロールするかを指定します。
- クローラーがクロールするファイルの種類を選択します。
-
クロールしたいページまたはドメインを入力します。ページまたはドメインを追加するには、[+ 追加(+ Add Another)]リンクをクリックします。
- ドメインと、同じドメインでスパイダーできるすべてのページがクロールされます。
- (任意)クロール対象から除外するドメインを追加します。
- (オプション)クローラーのレート制限または最大深度を指定します。
-
クローラーを保存すると、[クローラー(Crawlers)]ページに戻ります。作成したクロールの詳細を確認するには、[詳細を表示(View Details)]ボタンをクリックします。
コメント
0件のコメント
サインインしてコメントを残してください。