กลุ่มกฎ 1

Sitemap

robots.txt ที่สร้างแล้ว

0 บรรทัด
# robots.txt ว่าง

เทมเพลต

คู่มือย่อ

User-agent

ระบุว่าให้กฎนี้ใช้กับ crawler ตัวใด ใช้ * สำหรับบอตทั้งหมด

Allow

อนุญาตให้ crawler เข้าถึง path ที่กำหนด และใช้แทน Disallow ได้เมื่อเฉพาะเจาะจงกว่า

Disallow

บล็อกไม่ให้ crawler เข้าถึง path ที่กำหนด ใช้ / เพื่อบล็อกทั้งหมด

Crawl-delay

จำนวนวินาทีระหว่างคำขอ รองรับโดย Bing และ Yandex แต่ Google ไม่ใช้ค่านี้

Sitemap

ชี้ crawler ไปยัง XML sitemap ของคุณ ต้องเป็น URL แบบเต็ม

ไวลด์การ์ด

*แทนชุดอักขระใดๆ
$ตรงกับท้าย URL

# บล็อกไฟล์ PDF ทั้งหมด

Disallow: /*.pdf$

# บล็อก URL ที่มี query params

Disallow: /*?*

เกี่ยวกับเครื่องมือสร้าง Robots.txt

สร้างไฟล์ robots.txt ที่จัดรูปแบบถูกต้องสำหรับเว็บไซต์ของคุณด้วยตัวสร้างแบบภาพ เพิ่มกลุ่ม user-agent หลายชุด ตั้งค่ากฎ allow/disallow และใส่ URL ของ sitemap ได้โดยไม่ต้องเขียนเองทีละบรรทัด

ตัวสร้างกฎแบบภาพพร้อม preset สำหรับบอต
เทมเพลตพร้อมใช้ 6 แบบ
preset บอตยอดนิยม 17 รายการ รวมถึง AI crawler
รองรับ crawl-delay และ sitemap
คัดลอกลงคลิปบอร์ดหรือดาวน์โหลดไฟล์
แนะนำ path แบบ wildcard

คู่มือ Robots.txt ฉบับสมบูรณ์

เครื่องมือสร้าง Robots.txt ออนไลน์ฟรี

สร้างไฟล์ robots.txt ที่ถูกต้องสำหรับเว็บไซต์ด้วยตัวสร้างแบบภาพฟรี เลือกเทมเพลตสำหรับ WordPress อีคอมเมิร์ซ หรือการบล็อกบอต AI หรือสร้างกฎเองตั้งแต่ต้น เครื่องมือจะสร้างเนื้อหา robots.txt ที่พร้อมนำไปใช้งาน

robots.txt คืออะไร?

robots.txt คือไฟล์ข้อความธรรมดาที่วางไว้ที่ root ของเว็บไซต์ เพื่อบอก web crawler ว่าหน้าใดหรือส่วนใดของเว็บไซต์อนุญาตหรือไม่อนุญาตให้เข้าถึง ไฟล์นี้อ้างอิง Robots Exclusion Protocol ซึ่งใช้งานมาตั้งแต่ปี 1994 และได้รับการ formalize โดยเครื่องมือค้นหารายใหญ่ https://example.com/robots.txt

ไวยากรณ์ Robots.txt

# นี่คือคอมเมนต์
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /private/
Crawl-delay: 10

User-agent: Googlebot
Allow: /

User-agent: GPTBot
Disallow: /

Sitemap: https://example.com/sitemap.xml

คำสั่งใน Robots.txt

คำสั่งหลัก

  • User-agent: ระบุ crawler เป้าหมาย (หรือ * สำหรับทั้งหมด)
  • Allow: อนุญาตให้ crawl path ที่กำหนด
  • Disallow: บล็อกไม่ให้ crawl path ที่กำหนด
  • Sitemap: ตำแหน่ง XML sitemap
  • Crawl-delay: จำนวนวินาทีระหว่างคำขอ

การจับคู่รูปแบบ

  • * - Wildcard (แทนอักขระใดๆ)
  • $ - ยึดตำแหน่งท้าย URL
  • /*.pdf$ - บล็อกไฟล์ PDF ทั้งหมด
  • /dir/*?* - บล็อก URL ที่มี query params
  • /page* - บล็อก path ที่ขึ้นต้นด้วย /page

ควรใช้ robots.txt เมื่อไร

เหมาะสำหรับ

  • บล็อกหน้า admin, login และพื้นที่ส่วนตัว
  • ป้องกันการ crawl เนื้อหาซ้ำ
  • ลดภาระเซิร์ฟเวอร์จาก crawler ที่ร้องขอบ่อย
  • บล็อก crawler สำหรับฝึก AI
  • ซ่อน staging หรือสภาพแวดล้อมทดสอบ
  • ชี้ไปยัง sitemap ของคุณ

ข้อจำกัด

  • ไม่ใช่มาตรการความปลอดภัย เพราะบอตที่ไม่หวังดีอาจเมินเฉย
  • ไม่ได้ลบหน้าออกจากดัชนีค้นหา
  • ไม่ใช่ crawler ทุกตัวที่เคารพ Crawl-delay
  • หน้าที่ถูกบล็อกยังอาจติดอันดับได้หากมีลิงก์จากภายนอก
  • ไม่สามารถบล็อก IP เฉพาะได้
  • ใช้ meta tag noindex หากต้องการป้องกันการ index

การบล็อก AI Crawler

เจ้าของเว็บไซต์จำนวนมากต้องการป้องกันไม่ให้บริษัท AI ใช้เนื้อหาเพื่อฝึกโมเดล crawler ที่พบบ่อย ได้แก่ GPTBot (OpenAI), CCBot (Common Crawl), Google-Extended (Google AI) และ anthropic-ai (Anthropic/Claude) ใช้เทมเพลต "บล็อกบอต AI" เพื่อสร้างกฎอย่างรวดเร็ว โดยยังอนุญาตเครื่องมือค้นหา

User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Google-Extended
Disallow: /

วิธีนำ robots.txt ไปใช้งาน

  1. สร้าง: ใช้ตัวสร้างด้านบนเพื่อสร้างเนื้อหา robots.txt
  2. ดาวน์โหลดหรือคัดลอก: กดปุ่มดาวน์โหลดหรือคัดลอกผลลัพธ์ไปยังคลิปบอร์ด
  3. อัปโหลด: วางไฟล์ไว้ที่ root directory ของเว็บไซต์ เพื่อให้เข้าถึงได้ที่ https://yourdomain.com/robots.txt
  4. ตรวจสอบ: เปิด URL ในเบราว์เซอร์เพื่อยืนยันว่าไฟล์แสดงผลถูกต้อง
  5. ทดสอบ: ใช้ robots.txt tester ใน Google Search Console เพื่อตรวจสอบกฎ

แนวทางปฏิบัติที่ดีสำหรับ robots.txt

ใส่ Sitemap เสมอ: คำสั่ง Sitemap ช่วยให้เครื่องมือค้นหาค้นพบเนื้อหาได้เร็วขึ้น โดยเฉพาะหน้าใหม่

กำหนด Disallow ให้เฉพาะเจาะจง: หลีกเลี่ยงการบล็อกทั้งโฟลเดอร์หากไม่จำเป็น path ที่ละเอียดช่วยควบคุมได้ดีกว่า

ทดสอบก่อนใช้งานจริง: robots.txt ที่ผิดพลาดอาจบล็อกเครื่องมือค้นหาจากทั้งเว็บไซต์ ควรทดสอบก่อนเสมอ

ใช้ Allow เพื่อยกเว้น: เมื่อมี Disallow ที่กว้างกว่า ให้ใช้ Allow สำหรับ sub-path ที่ควรยัง crawl ได้

หนึ่งไฟล์ต่อโดเมน: แต่ละ subdomain ต้องมี robots.txt ของตัวเอง ไฟล์มีผลเฉพาะโดเมนที่โฮสต์อยู่เท่านั้น

เหมาะสำหรับ

  • นักพัฒนาเว็บ
  • ผู้เชี่ยวชาญ SEO
  • ผู้ดูแลเว็บไซต์
  • เจ้าของเว็บไซต์ WordPress
  • เจ้าของร้านค้าอีคอมเมิร์ซ
  • วิศวกร DevOps
  • นักการตลาดดิจิทัล
  • ผู้สร้างคอนเทนต์
  • ผู้ก่อตั้งสตาร์ทอัพ
  • นักพัฒนาอิสระ
  • ทีมเอเจนซี
  • นักเรียนที่เรียน SEO

ปกป้องความเป็นส่วนตัวอย่างครบถ้วน

การสร้าง robots.txt ทั้งหมดเกิดขึ้นในเบราว์เซอร์ของคุณด้วย JavaScript ไม่มีข้อมูลถูกส่งไปยังเซิร์ฟเวอร์ การตั้งค่าเว็บไซต์และกฎของคุณยังคงเป็นส่วนตัวและปลอดภัย

เรียนรู้ Robots.txt แบบเจาะลึก

อยากเข้าใจเชิงเทคนิคก่อนใช้งาน? อ่านคู่มือฉบับเต็มเกี่ยวกับไวยากรณ์ robots.txt พฤติกรรม crawler และแนวทางที่ปลอดภัยต่อ SEO

อ่าน: Robots.txt คืออะไร?