จะตั้งค่า Robots.txt อย่างไรให้ถูกต้อง?

สารบัญ:

จะตั้งค่า Robots.txt อย่างไรให้ถูกต้อง?
จะตั้งค่า Robots.txt อย่างไรให้ถูกต้อง?
Anonim

Robots txt ที่ถูกต้องสำหรับไซต์ html จะสร้างแบบจำลองการดำเนินการสำหรับบอทของเครื่องมือค้นหา โดยบอกสิ่งที่พวกเขาสามารถตรวจสอบได้ ไฟล์นี้มักถูกเรียกว่า Robot Exclusion Protocol สิ่งแรกที่บอทมองหาก่อนรวบรวมข้อมูลเว็บไซต์คือ robots.txt มันสามารถชี้หรือบอกแผนผังเว็บไซต์ไม่ให้ตรวจสอบโดเมนย่อยบางโดเมน เมื่อคุณต้องการให้เสิร์ชเอ็นจิ้นค้นหาสิ่งที่พบบ่อยที่สุด ก็ไม่จำเป็นต้องใช้ robots.txt กระบวนการนี้สำคัญมากที่จะต้องจัดรูปแบบไฟล์อย่างถูกต้องและไม่สร้างดัชนีหน้าผู้ใช้ด้วยข้อมูลส่วนตัวของผู้ใช้

หลักการสแกนหุ่นยนต์

หลักการของการสแกนด้วยหุ่นยนต์
หลักการของการสแกนด้วยหุ่นยนต์

เมื่อเสิร์ชเอ็นจิ้นพบไฟล์และเห็น URL ที่ถูกแบน โปรแกรมจะไม่รวบรวมข้อมูล แต่สามารถจัดทำดัชนีได้ เนื่องจากแม้ว่าโรบ็อตจะไม่ได้รับอนุญาตให้ดูเนื้อหา พวกเขาสามารถจำลิงก์ย้อนกลับที่ชี้ไปยัง URL ที่ต้องห้ามได้ เนื่องจากการเข้าถึงลิงก์ถูกบล็อก URL จะปรากฏในเครื่องมือค้นหา แต่ไม่มีส่วนย่อย ถ้าสำหรับกลยุทธ์การตลาดที่เข้ามา จำเป็นต้องใช้ Robots txt สำหรับ bitrix (Bitrix) ที่ถูกต้อง พวกเขาให้การตรวจสอบไซต์ตามคำขอของผู้ใช้โดยเครื่องสแกน

ในทางกลับกัน หากไฟล์มีรูปแบบไม่ถูกต้อง อาจส่งผลให้เว็บไซต์ไม่แสดงในผลการค้นหาและไม่พบ เครื่องมือค้นหาไม่สามารถข้ามไฟล์นี้ได้ โปรแกรมเมอร์สามารถดู robots.txt ของไซต์ใดก็ได้โดยไปที่โดเมนและติดตามด้วย robots.txt เช่น www.domain.com/robots.txt การใช้เครื่องมือ เช่น ส่วนการเพิ่มประสิทธิภาพ SEO ของ Unamo ซึ่งคุณสามารถป้อนโดเมนใดก็ได้ และบริการจะแสดงข้อมูลเกี่ยวกับการมีอยู่ของไฟล์

ข้อจำกัดในการสแกน:

  1. ผู้ใช้มีเนื้อหาที่ล้าสมัยหรือละเอียดอ่อน
  2. รูปภาพบนเว็บไซต์จะไม่รวมอยู่ในผลการค้นหารูปภาพ
  3. ไซต์ยังไม่พร้อมสำหรับการสาธิตที่จะสร้างดัชนีโดยหุ่นยนต์

โปรดทราบว่าข้อมูลที่ผู้ใช้ต้องการได้รับจากเครื่องมือค้นหานั้นมีให้สำหรับทุกคนที่ป้อน URL อย่าใช้ไฟล์ข้อความนี้เพื่อซ่อนข้อมูลที่ละเอียดอ่อน หากโดเมนมีข้อผิดพลาด 404 (ไม่พบ) หรือ 410 (ผ่าน) เครื่องมือค้นหาจะตรวจสอบเว็บไซต์แม้ว่าจะมี robots.txt อยู่ก็ตาม ซึ่งในกรณีนี้จะถือว่าไฟล์นั้นหายไป ข้อผิดพลาดอื่นๆ เช่น 500 (Internal Server Error), 403 (Forbidden), timed out, หรือ "not available" โดยปฏิบัติตามคำแนะนำของ robots.txt อย่างไรก็ตาม การบายพาสอาจล่าช้าจนกว่าไฟล์จะพร้อมใช้งาน

กำลังสร้างไฟล์ค้นหา

การสร้างไฟล์ค้นหา
การสร้างไฟล์ค้นหา

มากมายโปรแกรม CMS เช่น WordPress มีไฟล์ robots.txt อยู่แล้ว ก่อนกำหนดค่า Robots txt WordPress อย่างถูกต้อง ผู้ใช้จำเป็นต้องทำความคุ้นเคยกับความสามารถของมันเพื่อหาวิธีการเข้าถึง หากโปรแกรมเมอร์สร้างไฟล์เอง ต้องเป็นไปตามเงื่อนไขต่อไปนี้:

  1. ต้องเป็นตัวพิมพ์เล็ก
  2. ใช้การเข้ารหัส UTF-8
  3. บันทึกในโปรแกรมแก้ไขข้อความเป็นไฟล์ (.txt).

เมื่อผู้ใช้ไม่รู้ว่าจะวางมันไว้ที่ใด พวกเขาจะติดต่อผู้จำหน่ายซอฟต์แวร์เว็บเซิร์ฟเวอร์เพื่อค้นหาวิธีเข้าถึงรูทของโดเมนหรือไปที่คอนโซลของ Google และดาวน์โหลด ด้วยฟังก์ชันนี้ Google ยังสามารถตรวจสอบว่าบอททำงานอย่างถูกต้องและรายชื่อไซต์ที่ถูกบล็อกโดยใช้ไฟล์หรือไม่

รูปแบบหลักของ Robots txt ที่ถูกต้องสำหรับ bitrix (Bitrix):

  1. ตำนาน robots.txt.
  2. เพิ่มความคิดเห็นที่ใช้เป็นบันทึกเท่านั้น
  3. เครื่องสแกนจะละเว้นความคิดเห็นเหล่านี้พร้อมกับการพิมพ์ผิดของผู้ใช้
  4. User-agent - ระบุว่าเครื่องมือค้นหาใดที่แสดงรายการคำแนะนำสำหรับไฟล์
  5. การเติมดอกจัน () จะบอกเครื่องสแกนว่าคำแนะนำนี้มีไว้สำหรับทุกคน

การระบุบอทเฉพาะ เช่น Googlebot, Baiduspider, Applebot Disallow บอกโปรแกรมรวบรวมข้อมูลว่าส่วนใดของเว็บไซต์ไม่ควรถูกรวบรวมข้อมูล ดูเหมือนว่านี้: User-agent:. เครื่องหมายดอกจันหมายถึง "บอททั้งหมด" อย่างไรก็ตาม คุณสามารถระบุหน้าสำหรับเฉพาะบอท ในการทำเช่นนี้ คุณต้องรู้ชื่อของบอทที่มีการตั้งค่าคำแนะนำ

ไฟล์ txt ของโรบ็อตที่ถูกต้องสำหรับยานเดกซ์อาจมีลักษณะดังนี้:

แก้ไขหุ่นยนต์ txt สำหรับ Yandex
แก้ไขหุ่นยนต์ txt สำหรับ Yandex

หากบอทไม่ควรรวบรวมข้อมูลเว็บไซต์ คุณสามารถระบุได้ และหากต้องการค้นหาชื่อตัวแทนผู้ใช้ ขอแนะนำให้ทำความคุ้นเคยกับความสามารถออนไลน์ของ useragentstring.com

การเพิ่มประสิทธิภาพหน้า

การเพิ่มประสิทธิภาพหน้า
การเพิ่มประสิทธิภาพหน้า

สองบรรทัดต่อไปนี้ถือเป็นไฟล์ robots.txt ที่สมบูรณ์ และไฟล์โรบ็อตไฟล์เดียวสามารถมีตัวแทนผู้ใช้และคำสั่งหลายบรรทัดที่ปิดใช้งานหรือเปิดใช้งานการรวบรวมข้อมูล รูปแบบหลักของ Robots txt ที่ถูกต้อง:

  1. ตัวแทนผู้ใช้: [ชื่อผู้ใช้เอเจนต์].
  2. ไม่อนุญาต: [สตริง URL ที่ไม่ได้รวบรวมข้อมูล].

ในไฟล์ แต่ละบล็อกของคำสั่งจะแสดงเป็นแบบไม่ต่อเนื่อง คั่นด้วยบรรทัด ในไฟล์ถัดจากไดเร็กทอรีผู้ใช้เอเจนต์ แต่ละกฎจะถูกนำไปใช้กับชุดของบรรทัดที่แยกส่วนเฉพาะ หากไฟล์มีกฎหลายเอเจนต์ โรบ็อตจะพิจารณาเฉพาะกลุ่มคำสั่งที่เจาะจงที่สุด

รูปแบบทางเทคนิค

ไวยากรณ์ทางเทคนิค
ไวยากรณ์ทางเทคนิค

เรียกได้ว่าเป็น "ภาษา" ของไฟล์ robots.txt รูปแบบนี้มีคำศัพท์ห้าคำ คำศัพท์หลัก ได้แก่

  1. User-agent - โปรแกรมรวบรวมข้อมูลเว็บพร้อมคำแนะนำในการรวบรวมข้อมูล ซึ่งมักจะเป็นเครื่องมือค้นหา
  2. Disallow เป็นคำสั่งที่ใช้บอกตัวแทนผู้ใช้ให้เลี่ยงผ่าน(ละเว้น) ของ URL เฉพาะ มีเงื่อนไขต้องห้ามเพียงข้อเดียวเท่านั้น
  3. อนุญาต. สำหรับ Googlebot ที่เข้าถึงได้ แม้แต่หน้าผู้ใช้ก็ถูกปฏิเสธ
  4. การรวบรวมข้อมูลล่าช้า - ระบุจำนวนวินาทีที่โปรแกรมรวบรวมข้อมูลจะต้องใช้ก่อนที่จะรวบรวมข้อมูล เมื่อบอทไม่ยืนยัน ความเร็วจะถูกตั้งค่าในคอนโซล Google
  5. Sitemap - ใช้เพื่อค้นหาแผนที่ XML ที่เชื่อมโยงกับ URL

รูปแบบที่ตรงกัน

เมื่อพูดถึงการบล็อก URL จริง ๆ หรืออนุญาตให้ Robots txt ที่ถูกต้อง การดำเนินการอาจค่อนข้างยุ่งยาก เนื่องจากอนุญาตให้คุณใช้การจับคู่รูปแบบเพื่อให้ครอบคลุมพารามิเตอร์ URL ที่เป็นไปได้จำนวนหนึ่ง Google และ Bing ใช้อักขระสองตัวที่ระบุหน้าหรือโฟลเดอร์ย่อยที่ SEO ต้องการยกเว้น อักขระสองตัวคือดอกจัน () และเครื่องหมายดอลลาร์ ($) โดยที่:เป็นสัญลักษณ์แทนที่แสดงลำดับของอักขระใดๆ $ - ตรงกับส่วนท้ายของ URL

Google มีรายการไวยากรณ์ของเทมเพลตที่เป็นไปได้มากมาย ซึ่งจะอธิบายให้ผู้ใช้ทราบถึงวิธีตั้งค่าไฟล์ Robots txt อย่างถูกต้อง กรณีการใช้งานทั่วไป ได้แก่:

  1. ป้องกันไม่ให้เนื้อหาที่ซ้ำกันปรากฏในผลการค้นหา
  2. ทำให้ทุกส่วนของเว็บไซต์เป็นแบบส่วนตัว
  3. บันทึกหน้าภายในของผลการค้นหาตามคำสั่งเปิด
  4. ระบุสถานที่
  5. ป้องกันเครื่องมือค้นหาจากการจัดทำดัชนีบางอย่างไฟล์.
  6. ระบุความล่าช้าในการรวบรวมข้อมูลเพื่อหยุดการโหลดซ้ำเมื่อสแกนเนื้อหาหลายพื้นที่พร้อมกัน

กำลังตรวจสอบการมีอยู่ของไฟล์หุ่นยนต์

หากไม่มีพื้นที่บนไซต์ที่ต้องรวบรวมข้อมูล ก็ไม่จำเป็นต้องใช้ robots.txt เลย หากผู้ใช้ไม่แน่ใจว่ามีไฟล์นี้อยู่ เขาต้องป้อนโดเมนรากและพิมพ์ลงท้าย URL ในลักษณะนี้ moz.com/robots.txt บอทการค้นหาจำนวนหนึ่งไม่สนใจไฟล์เหล่านี้ อย่างไรก็ตาม ตามกฎแล้ว โปรแกรมรวบรวมข้อมูลเหล่านี้ไม่ได้อยู่ในเครื่องมือค้นหาที่มีชื่อเสียง พวกเขาเป็นประเภทของนักส่งสแปม โปรแกรมรวบรวมอีเมล และบอทอัตโนมัติประเภทอื่นๆ ที่พบได้ทั่วไปบนอินเทอร์เน็ต

สิ่งสำคัญคือต้องจำไว้ว่าการใช้มาตรฐานการยกเว้นโรบ็อตไม่ใช่มาตรการรักษาความปลอดภัยที่มีประสิทธิภาพ อันที่จริง บอทบางตัวอาจเริ่มต้นด้วยหน้าที่ผู้ใช้กำหนดให้เป็นโหมดสแกน มีหลายส่วนที่เข้าไปในไฟล์ข้อยกเว้นมาตรฐาน ก่อนที่คุณจะบอกหุ่นยนต์ว่าหน้าใดไม่ควรทำงาน คุณต้องระบุว่าหุ่นยนต์ตัวใดที่จะพูดคุยด้วย ในกรณีส่วนใหญ่ ผู้ใช้จะใช้การประกาศง่ายๆ ซึ่งหมายถึง "บอททั้งหมด"

การเพิ่มประสิทธิภาพ SEO

การเพิ่มประสิทธิภาพ SEO
การเพิ่มประสิทธิภาพ SEO

ก่อนที่จะเพิ่มประสิทธิภาพ ผู้ใช้ต้องแน่ใจว่าไม่ได้บล็อกเนื้อหาหรือส่วนใดๆ ของไซต์ที่จำเป็นต้องข้าม ลิงก์ไปยังหน้าที่บล็อกโดย Robots txt ที่ถูกต้องจะไม่ได้รับการพิจารณา หมายถึง:

  1. หากพวกเขาไม่ได้เชื่อมโยงกับหน้าอื่นที่มีให้สำหรับเครื่องมือค้นหาเช่น หน้า,ไม่ถูกบล็อกโดย robots.txt หรือเมตาโรบ็อต และทรัพยากรที่เกี่ยวข้องจะไม่ถูกรวบรวมข้อมูล ดังนั้นจึงไม่สามารถจัดทำดัชนีได้
  2. ไม่สามารถส่งลิงก์จากหน้าที่ถูกบล็อกไปยังปลายทางของลิงก์ได้ หากมีหน้าดังกล่าว ควรใช้กลไกการบล็อกที่แตกต่างจาก robots.txt

เนื่องจากหน้าอื่นๆ อาจเชื่อมโยงโดยตรงไปยังหน้าที่มีข้อมูลส่วนบุคคล และคุณต้องการบล็อกหน้านี้จากผลการค้นหา ให้ใช้วิธีการอื่น เช่น การป้องกันด้วยรหัสผ่านหรือข้อมูลเมตาของ noindex เครื่องมือค้นหาบางตัวมีตัวแทนผู้ใช้หลายราย ตัวอย่างเช่น Google ใช้ Googlebot สำหรับการค้นหาทั่วไปและ Googlebot-Image สำหรับการค้นหารูปภาพ

ตัวแทนผู้ใช้ส่วนใหญ่จากเครื่องมือค้นหาเดียวกันปฏิบัติตามกฎเดียวกัน ดังนั้นจึงไม่จำเป็นต้องระบุคำสั่งสำหรับโปรแกรมรวบรวมข้อมูลหลายตัว แต่การทำเช่นนั้นสามารถปรับเปลี่ยนการรวบรวมข้อมูลเนื้อหาไซต์ได้ เครื่องมือค้นหาแคชเนื้อหาของไฟล์ และโดยทั่วไปจะอัปเดตเนื้อหาที่แคชไว้อย่างน้อยวันละครั้ง หากผู้ใช้เปลี่ยนไฟล์และต้องการอัปเดตเร็วกว่าปกติ ให้ส่ง URL ของ robots.txt ไปที่ Google

เครื่องมือค้นหา

การตรวจสอบการมีอยู่ของไฟล์หุ่นยนต์
การตรวจสอบการมีอยู่ของไฟล์หุ่นยนต์

เพื่อให้เข้าใจว่า Robots txt ทำงานอย่างไรอย่างถูกต้อง คุณจำเป็นต้องรู้เกี่ยวกับความสามารถของเครื่องมือค้นหา กล่าวโดยย่อ ความสามารถของพวกเขาอยู่ที่การส่ง "เครื่องสแกน" ซึ่งเป็นโปรแกรมที่การท่องอินเทอร์เน็ตสำหรับข้อมูล จากนั้นพวกเขาจะเก็บข้อมูลบางส่วนนี้เพื่อส่งต่อไปยังผู้ใช้ในภายหลัง

สำหรับหลายๆ คน Google คืออินเทอร์เน็ตแล้ว อันที่จริงมันถูกต้อง เพราะนี่อาจเป็นสิ่งประดิษฐ์ที่สำคัญที่สุดของเขา และถึงแม้ว่าเสิร์ชเอ็นจิ้นจะเปลี่ยนไปมากตั้งแต่เริ่มก่อตั้ง แต่หลักการพื้นฐานก็ยังเหมือนเดิม โปรแกรมรวบรวมข้อมูลหรือที่เรียกว่า "บอท" หรือ "แมงมุม" ค้นหาหน้าจากเว็บไซต์นับพันล้าน เสิร์ชเอ็นจิ้นบอกทิศทางว่าจะไปที่ไหน ในขณะที่แต่ละไซต์สามารถสื่อสารกับบอทและบอกพวกเขาว่าหน้าใดที่ควรดู

โดยทั่วไปแล้ว เจ้าของเว็บไซต์ไม่ต้องการแสดงในเครื่องมือค้นหา: หน้าผู้ดูแลระบบ พอร์ทัลส่วนหลัง หมวดหมู่และแท็ก และหน้าข้อมูลอื่นๆ ไฟล์ robots.txt ยังสามารถใช้เพื่อป้องกันไม่ให้เครื่องมือค้นหาตรวจสอบหน้าเว็บ กล่าวโดยย่อ robots.txt บอกโปรแกรมรวบรวมข้อมูลเว็บว่าต้องทำอย่างไร

แบนเพจ

นี่คือส่วนหลักของไฟล์การยกเว้นโรบ็อต ด้วยการประกาศง่ายๆ ผู้ใช้จะบอกบอทหรือกลุ่มของบอทไม่ให้รวบรวมข้อมูลบางหน้า ไวยากรณ์นั้นง่าย ตัวอย่างเช่น ในการปฏิเสธการเข้าถึงทุกสิ่งในไดเร็กทอรี "admin" ของไซต์ ให้เขียน: Disallow: /admin บรรทัดนี้จะป้องกันไม่ให้บอทรวบรวมข้อมูล yoursite.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html และอื่นๆ ภายใต้ไดเรกทอรีผู้ดูแลระบบ

ในการไม่อนุญาตหนึ่งหน้า เพียงระบุในบรรทัดที่ไม่อนุญาต: Disallow: /public/exception.html ตอนนี้หน้า "ข้อยกเว้น"จะไม่ย้าย แต่ทุกอย่างในโฟลเดอร์ "สาธารณะ" จะ

หากต้องการรวมหลายหน้า เพียงแค่ระบุ:

ไดเรกทอรีและเพจ
ไดเรกทอรีและเพจ

สี่บรรทัดของ Robots txt ที่ถูกต้องสำหรับซิมโฟนีจะนำไปใช้กับตัวแทนผู้ใช้ใด ๆ ที่ระบุไว้ที่ด้านบนของส่วนrobots.txt สำหรับ

หน้าแบน
หน้าแบน

แผนผังเว็บไซต์:

คำสั่งอื่นๆ:สด - ไม่อนุญาตให้โปรแกรมรวบรวมข้อมูลเว็บสร้างดัชนี cpresources/ หรือผู้ให้บริการ/.

ตัวแทนผู้ใช้:ไม่อนุญาต: /cpresources/.

ปฏิเสธ: / ผู้ขาย / ไม่อนุญาต: /.env.

กำหนดมาตรฐาน

ผู้ใช้สามารถระบุหน้าเฉพาะสำหรับบอทต่างๆ โดยการรวมสององค์ประกอบก่อนหน้านี้ นี่คือสิ่งที่ดูเหมือน ตัวอย่างของ Robots txt ที่ถูกต้องสำหรับเครื่องมือค้นหาทั้งหมดแสดงไว้ด้านล่าง

กำหนดมาตรฐาน
กำหนดมาตรฐาน

Google และ Bing จะมองไม่เห็นส่วน "ผู้ดูแลระบบ" และ "ส่วนตัว" แต่ Google จะยังเห็นไดเรกทอรี "ลับ" ในขณะที่ Bing ไม่เห็น คุณสามารถระบุกฎทั่วไปสำหรับบอททั้งหมดโดยใช้ตัวแทนผู้ใช้ดอกจัน จากนั้นให้คำแนะนำเฉพาะกับบอทในส่วนต่อไปนี้ จากความรู้ข้างต้น ผู้ใช้สามารถเขียนตัวอย่างของ Robots txt ที่ถูกต้องสำหรับเครื่องมือค้นหาทั้งหมด เพียงเปิดโปรแกรมแก้ไขข้อความที่คุณชื่นชอบและบอกบอทว่าไม่ต้อนรับในบางส่วนของเว็บไซต์

เคล็ดลับในการปรับปรุงประสิทธิภาพของเซิร์ฟเวอร์

ข้อความประเสริฐคือโปรแกรมแก้ไขข้อความอเนกประสงค์และมาตรฐานทองคำสำหรับโปรแกรมเมอร์หลายคน เคล็ดลับการเขียนโปรแกรมของเขานั้นอิงจากการเขียนโค้ดที่มีประสิทธิภาพ ยิ่งไปกว่านั้น ผู้ใช้ชื่นชมการมีทางลัดในโปรแกรม หากผู้ใช้ต้องการดูตัวอย่างของไฟล์ robots.txt พวกเขาควรไปที่ไซต์ใดๆ และเพิ่ม "/robots.txt" ต่อท้าย นี่เป็นส่วนหนึ่งของไฟล์ robots.txt GiantBicycles

โปรแกรมสร้างหน้าที่ผู้ใช้ไม่ต้องการให้แสดงในเครื่องมือค้นหา และยังมีสิ่งพิเศษบางอย่างที่น้อยคนนักจะรู้ ตัวอย่างเช่น ในขณะที่ไฟล์ robots.txt บอกบอตไม่ให้ไปที่ใด ไฟล์แผนผังเว็บไซต์กลับทำตรงกันข้ามและช่วยให้พวกเขาพบสิ่งที่ต้องการ และในขณะที่เครื่องมือค้นหาอาจทราบแล้วว่าแผนผังเว็บไซต์นั้นอยู่ที่ใด ระหว่างทาง

ไฟล์มีสองประเภท: หน้า HTML หรือไฟล์ XML หน้า HTML เป็นหน้าที่แสดงผู้เข้าชมทุกหน้าที่มีอยู่บนเว็บไซต์ ใน robots.txt ของมันเอง จะมีลักษณะดังนี้: Sitemap://www.makeuseof.com/sitemap_index.xml หากเว็บไซต์ไม่ได้รับการจัดทำดัชนีโดยเสิร์ชเอ็นจิ้น แม้ว่าเว็บโรบ็อตจะถูกรวบรวมข้อมูลหลายครั้ง คุณต้องแน่ใจว่าไฟล์นั้นมีอยู่และตั้งค่าการอนุญาตอย่างถูกต้อง

โดยค่าเริ่มต้น สิ่งนี้จะเกิดขึ้นกับการติดตั้ง SeoToaster ทั้งหมด แต่ถ้าจำเป็น คุณสามารถรีเซ็ตได้ดังนี้: ไฟล์ robots.txt - 644 หากวิธีนี้ใช้ไม่ได้กับผู้ใช้ ขึ้นอยู่กับเซิร์ฟเวอร์ PHP แนะนำให้ลองทำดังนี้: ไฟล์ robots.txt - 666.

การตั้งค่าการหน่วงเวลาการสแกน

คำสั่งหน่วงเวลาบายพาสแจ้งความแน่นอนเครื่องมือค้นหาว่าพวกเขาสามารถจัดทำดัชนีหน้าบนไซต์ได้บ่อยเพียงใด มีหน่วยวัดเป็นวินาที แม้ว่าบางโปรแกรมค้นหาจะตีความต่างกันเล็กน้อย บางคนเห็นว่าการรวบรวมข้อมูลล่าช้า 5 เมื่อได้รับคำสั่งให้รอห้าวินาทีหลังจากการสแกนแต่ละครั้งเพื่อเริ่มการสแกนครั้งถัดไป

คนอื่นตีความว่าเป็นคำสั่งให้สแกนหน้าเดียวทุกๆ 5 วินาที หุ่นยนต์ไม่สามารถสแกนได้เร็วขึ้นเพื่อประหยัดแบนด์วิดท์ของเซิร์ฟเวอร์ หากเซิร์ฟเวอร์ต้องตรงกับการรับส่งข้อมูล ก็สามารถตั้งค่าการหน่วงเวลาบายพาสได้ โดยทั่วไปแล้ว ในกรณีส่วนใหญ่ ผู้ใช้ไม่จำเป็นต้องกังวลเกี่ยวกับเรื่องนี้ นี่คือการตั้งค่าการหน่วงเวลาการรวบรวมข้อมูลแปดวินาที - ความล่าช้าในการรวบรวมข้อมูล: 8.

แต่ไม่ใช่ทุกเครื่องมือค้นหาจะปฏิบัติตามคำสั่งนี้ ดังนั้นเมื่อไม่อนุญาตหน้าเว็บ คุณสามารถตั้งค่าความล่าช้าในการรวบรวมข้อมูลที่แตกต่างกันสำหรับเครื่องมือค้นหาบางรายการได้ หลังจากตั้งค่าคำแนะนำทั้งหมดในไฟล์แล้ว คุณสามารถอัปโหลดไปยังไซต์ได้ ก่อนอื่นตรวจสอบให้แน่ใจว่าเป็นไฟล์ข้อความธรรมดาและมีชื่อ robots.txt และสามารถพบได้ที่ yoursite.com/robots.txt

บอท WordPress ที่ดีที่สุด

บอท WordPress ที่ดีที่สุด
บอท WordPress ที่ดีที่สุด

มีไฟล์และไดเร็กทอรีบางไฟล์ในไซต์ WordPress ที่ต้องล็อคทุกครั้ง ไดเร็กทอรีที่ผู้ใช้ไม่ควรอนุญาตคือไดเร็กทอรี cgi-bin และไดเร็กทอรี WP มาตรฐาน เซิร์ฟเวอร์บางเซิร์ฟเวอร์ไม่อนุญาตให้เข้าถึงไดเร็กทอรี cgi-bin แต่ผู้ใช้ต้องรวมไว้ในคำสั่ง disallow ก่อนกำหนดค่า Robots txt WordPress อย่างเหมาะสม

ไดเร็กทอรี WordPress มาตรฐานซึ่งควรบล็อกคือ wp-admin, wp-content, wp-includes ไดเร็กทอรีเหล่านี้ไม่มีข้อมูลที่เป็นประโยชน์ต่อเสิร์ชเอ็นจินในตอนแรก แต่มีข้อยกเว้น กล่าวคือ มีไดเร็กทอรีย่อยชื่อ uploads ในไดเร็กทอรี wp-content ไดเรกทอรีย่อยนี้ต้องได้รับอนุญาตในไฟล์ robot.txt เนื่องจากมีทุกอย่างที่โหลดโดยใช้คุณสมบัติการอัปโหลดสื่อ WP WordPress ใช้แท็กหรือหมวดหมู่เพื่อจัดโครงสร้างเนื้อหา

หากใช้หมวดหมู่ เพื่อสร้าง Robots txt สำหรับ Wordpress ที่ถูกต้อง ตามที่ผู้ผลิตโปรแกรมกำหนด จำเป็นต้องบล็อกคลังแท็กไม่ให้ค้นหา ก่อนอื่น พวกเขาตรวจสอบฐานข้อมูลโดยไปที่แผง "การดูแลระบบ"> "การตั้งค่า"> "ลิงก์ถาวร"

โดยค่าเริ่มต้น ฐานคือแท็ก หากฟิลด์ว่างเปล่า: Disallow: / tag / หากมีการใช้หมวดหมู่ คุณต้องปิดการใช้งานหมวดหมู่ในไฟล์ robot.txt: Disallow: /category/ โดยค่าเริ่มต้น ฐานคือแท็ก หากฟิลด์ว่างเปล่า: Disallow: / tag / หากมีการใช้หมวดหมู่ คุณต้องปิดการใช้งานหมวดหมู่ในไฟล์ robot.txt: Disallow: / category /.

ไฟล์ที่ใช้สำหรับแสดงเนื้อหาเป็นหลัก จะถูกบล็อกโดยไฟล์ Robots txt ที่ถูกต้องสำหรับ Wordpress:

หุ่นยนต์ txt สำหรับ wordpress
หุ่นยนต์ txt สำหรับ wordpress

การตั้งค่าพื้นฐาน Joomla

เมื่อผู้ใช้ติดตั้ง Joomla แล้ว คุณต้องดูการตั้งค่า txt ของ Joomla Robots ที่ถูกต้องในการกำหนดค่าส่วนกลาง ซึ่งอยู่ในแผงควบคุม การตั้งค่าบางอย่างที่นี่มีความสำคัญมากสำหรับ SEO ขั้นแรกให้หาชื่อเว็บไซต์และตรวจสอบให้แน่ใจว่าใช้ชื่อย่อของไซต์ จากนั้นจะพบกลุ่มการตั้งค่าทางด้านขวาของหน้าจอเดียวกัน ซึ่งเรียกว่าการตั้งค่า SEO อันที่ต้องเปลี่ยนแน่นอนคืออันที่สอง: ใช้ rewrite URL

ฟังดูซับซ้อน แต่โดยพื้นฐานแล้วมันช่วยให้ Joomla สร้าง URL ที่สะอาดขึ้นได้ จะสังเกตเห็นได้ชัดเจนที่สุดหากคุณลบบรรทัด index.php ออกจาก URL หากคุณเปลี่ยนในภายหลัง URL จะเปลี่ยนไปและ Google จะไม่ชอบ อย่างไรก็ตาม เมื่อเปลี่ยนการตั้งค่านี้ จะต้องดำเนินการหลายขั้นตอนพร้อมกันเพื่อสร้างไฟล์ robots txt ที่ถูกต้องสำหรับ Joomla:

  1. ค้นหาไฟล์ htaccess.txt ในโฟลเดอร์รูทของ Joomla
  2. ทำเครื่องหมายว่าเป็น.htaccess (ไม่มีนามสกุล)
  3. รวมชื่อเว็บไซต์ในชื่อหน้า
  4. ค้นหาการตั้งค่าข้อมูลเมตาที่ด้านล่างของหน้าจอการกำหนดค่าส่วนกลาง

หุ่นยนต์ในคลาวด์ MODX

หุ่นยนต์ใน MODX Cloud
หุ่นยนต์ใน MODX Cloud

ก่อนหน้านี้ MODX Cloud ให้ผู้ใช้มีความสามารถในการควบคุมพฤติกรรมในการอนุญาตให้ไฟล์ robots.txt ให้บริการตามการสลับในแดชบอร์ด แม้ว่าสิ่งนี้จะมีประโยชน์ แต่ก็เป็นไปได้ที่จะอนุญาตให้จัดทำดัชนีบนไซต์ staging/dev โดยไม่ได้ตั้งใจโดยสลับตัวเลือกในแดชบอร์ด ในทำนองเดียวกัน การปิดการจัดทำดัชนีบนไซต์ที่ใช้งานจริงก็เป็นเรื่องง่าย

วันนี้บริการถือว่ามีไฟล์ robots.txt อยู่ในระบบไฟล์โดยมีข้อยกเว้นดังต่อไปนี้: โดเมนใดๆ ที่ลงท้ายด้วย modxcloud.com จะทำหน้าที่เป็น Disallow: /directive สำหรับตัวแทนผู้ใช้ทั้งหมด โดยไม่คำนึงถึงการมีอยู่ หรือไม่มีไฟล์.ไซต์ที่ใช้งานจริงที่มีผู้เข้าชมจริงจะต้องใช้โดเมนของตนเอง หากผู้ใช้ต้องการจัดทำดัชนีไซต์ของตน

บางองค์กรใช้ Robots txt ที่ถูกต้องสำหรับ modx เพื่อเรียกใช้หลายเว็บไซต์จากการติดตั้งครั้งเดียวโดยใช้บริบท กรณีที่สามารถนำมาใช้ได้จะเป็นไซต์การตลาดสาธารณะรวมกับไซต์ไมโครไซต์หน้า Landing Page และอาจเป็นอินทราเน็ตที่ไม่ใช่สาธารณะ

ตามธรรมเนียมแล้ว การติดตั้งแบบผู้ใช้หลายคนทำได้ยาก เนื่องจากพวกเขาใช้รูทเครือข่ายเดียวกัน ด้วย MODX Cloud สิ่งนี้เป็นเรื่องง่าย เพียงอัปโหลดไฟล์พิเศษไปยังเว็บไซต์ชื่อ robots-intranet.example.com.txt ที่มีเนื้อหาต่อไปนี้ และจะบล็อกการจัดทำดัชนีด้วยโรบ็อตที่ทำงานได้ดี และชื่อโฮสต์อื่นๆ ทั้งหมดจะถอยกลับไปเป็นไฟล์มาตรฐาน เว้นแต่จะมีโหนดชื่อเฉพาะอื่นๆ

Robots.txt เป็นไฟล์สำคัญที่ช่วยให้ผู้ใช้สามารถเชื่อมโยงไปยังไซต์บน Google เครื่องมือค้นหาหลัก และเว็บไซต์อื่นๆ ไฟล์นี้ตั้งอยู่ที่รูทของเว็บเซิร์ฟเวอร์ ไฟล์สั่งให้เว็บโรบ็อตรวบรวมข้อมูลไซต์ ตั้งค่าโฟลเดอร์ที่ควรหรือไม่ควรจัดทำดัชนี โดยใช้ชุดคำสั่งที่เรียกว่า Bot Exclusion Protocol ตัวอย่างของ Robots txt ที่ถูกต้องสำหรับเครื่องมือค้นหา obots.txt ทั้งหมดนั้นง่ายต่อการทำกับ SeoToaster มีการสร้างเมนูพิเศษสำหรับมันในแผงควบคุม ดังนั้นบอทจะไม่ต้องทำงานหนักเกินไปเพื่อเข้าถึง

แนะนำ: