ルールグループ 1

Sitemap

生成されたrobots.txt

0
# 空のrobots.txt

テンプレート

クイックリファレンス

User-agent

ルールを適用するクローラーを指定します。すべてのボットには*を使用します。

Allow

指定したパスのクロールを明示的に許可します。より具体的であればDisallowを上書きします。

Disallow

指定したパスのクロールをブロックします。すべてをブロックするには/を使用します。

Crawl-delay

リクエスト間隔を秒数で指定します。BingとYandexは対応していますが、Googleは使用しません。

Sitemap

クローラーにXML sitemapの場所を伝えます。絶対URLである必要があります。

ワイルドカード

*任意の文字列に一致します
$URLの末尾に一致します

# すべてのPDFをブロック

Disallow: /*.pdf$

# クエリパラメータ付きURLをブロック

Disallow: /*?*

Robots.txtジェネレーターについて

ビジュアルビルダーを使って、Webサイト向けに正しく整形されたrobots.txtファイルを作成できます。複数のuser-agentグループを追加し、allow/disallowルールを設定し、sitemap URLを含められます。手作業で1行ずつ書く必要はありません。

ボットプリセット付きのビジュアルルールビルダー
すぐ使えるテンプレート6種類
AIクローラーを含む一般的なボットプリセット17種類
Crawl-delayとsitemapに対応
クリップボードへコピーまたはファイルをダウンロード
ワイルドカードパス候補

Robots.txtの完全ガイド

無料オンラインRobots.txtジェネレーター

無料のビジュアルビルダーで、Webサイト向けの有効なrobots.txtファイルを作成できます。WordPress、ECサイト、AIボットブロック向けの既成テンプレートを選ぶことも、ゼロからカスタムルールを作ることもできます。生成されるrobots.txtは、Webサイトへそのまま配置できる形式です。

robots.txtとは?

robots.txtファイルは、Webサイトのルートに配置されるプレーンテキストファイルで、Webクローラーに対してサイト内のどのページやセクションへアクセスしてよいか、またはアクセスしてはいけないかを伝えます。1994年から使われ、主要検索エンジンによって標準化されたRobots Exclusion Protocolに従います。 https://example.com/robots.txt

Robots.txtの構文

# これはコメントです
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /private/
Crawl-delay: 10

User-agent: Googlebot
Allow: /

User-agent: GPTBot
Disallow: /

Sitemap: https://example.com/sitemap.xml

Robots.txtディレクティブ

主要ディレクティブ

  • User-agent: 対象のクローラーを指定します(*はすべてのボット)
  • Allow: 指定したパスのクロールを許可します
  • Disallow: 指定したパスのクロールをブロックします
  • Sitemap: XML sitemapの場所を指定します
  • Crawl-delay: リクエスト間隔を秒数で指定します

パターンマッチング

  • * - ワイルドカード(任意の文字列)
  • $ - URL末尾へのアンカー
  • /*.pdf$ - すべてのPDFファイルをブロック
  • /dir/*?* - クエリパラメータ付きURLをブロック
  • /page* - /pageで始まるパスをブロック

robots.txtを使う場面

適した用途

  • 管理画面、ログイン、非公開エリアをブロック
  • 重複コンテンツのクロールを防止
  • 過度なクローラーによるサーバー負荷を軽減
  • AI学習クローラーをブロック
  • ステージング環境やテスト環境を隠す
  • sitemapの場所を示す

制限事項

  • セキュリティ対策ではありません。悪意あるボットは無視できます
  • 検索インデックスからページを削除するものではありません
  • すべてのクローラーがCrawl-delayに従うわけではありません
  • ブロックしたページでも外部リンクがあると検索結果に出る場合があります
  • 特定のIPアドレスをブロックすることはできません
  • インデックス防止にはnoindexメタタグを使います

AIクローラーをブロックする

多くのサイト運営者は、自分のコンテンツがAI企業の学習に使われることを防ぎたいと考えています。一般的なAIクローラーには、GPTBot(OpenAI)、CCBot(Common Crawl)、Google-Extended(Google AI)、anthropic-ai(Anthropic/Claude)などがあります。「AIボットをブロック」テンプレートを使えば、検索エンジンは許可しつつ、これらのクローラーをすばやくブロックできます。

User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Google-Extended
Disallow: /

robots.txtの配置方法

  1. 生成: 上のビルダーでrobots.txtの内容を作成します。
  2. ダウンロードまたはコピー: ダウンロードボタンをクリックするか、出力をクリップボードへコピーします。
  3. アップロード: ファイルをWebサイトのルートディレクトリに配置し、https://yourdomain.com/robots.txtでアクセスできるようにします。
  4. 確認: ブラウザでURLを開き、正しく配信されていることを確認します。
  5. テスト: Google Search Consoleのrobots.txtテスターでルールを検証します。

robots.txtのベストプラクティス

Sitemapを必ず含める: Sitemapディレクティブを追加すると、検索エンジンが新しいページを含むコンテンツを見つけやすくなります。

Disallowは具体的に: 必要がない限りディレクトリ全体をブロックしないでください。具体的なパスのほうが細かく制御できます。

公開前にテスト: 誤ったrobots.txtは検索エンジンをサイト全体から締め出す可能性があります。必ずGoogleのrobots.txtテスターで確認してください。

Allowで上書き: 広いDisallowがある場合、クロールさせたい特定のサブパスにはAllowを使用します。

ドメインごとに1ファイル: 各サブドメインにはそれぞれrobots.txtが必要です。このファイルは配置されたドメインにのみ適用されます。

こんな人に最適

  • Web開発者
  • SEO担当者
  • サイト管理者
  • WordPressサイト運営者
  • ECサイト運営者
  • DevOpsエンジニア
  • デジタルマーケター
  • コンテンツ制作者
  • スタートアップ創業者
  • フリーランス開発者
  • 制作会社チーム
  • SEOを学ぶ学生

完全なプライバシー保護

robots.txtの生成はすべてJavaScriptを使ってブラウザ内で行われます。データがサーバーへ送信されることはありません。Webサイト設定とルールは完全にプライベートかつ安全に保たれます。

Robots.txtを詳しく学ぶ

先に技術的な全体像を知りたい場合は、robots.txt構文、クローラーの動作、SEOに安全なベストプラクティスをまとめた完全ガイドをご覧ください。

読む: Robots.txtとは?