วิธีบล็อกเว็บไซต์ไม่ให้สร้างดัชนีใน robots.txt: คำแนะนำและคำแนะนำ

สารบัญ:

วิธีบล็อกเว็บไซต์ไม่ให้สร้างดัชนีใน robots.txt: คำแนะนำและคำแนะนำ
วิธีบล็อกเว็บไซต์ไม่ให้สร้างดัชนีใน robots.txt: คำแนะนำและคำแนะนำ
Anonim

เครื่องมือเพิ่มประสิทธิภาพ SEO มีขนาดใหญ่มาก ผู้เริ่มต้นควรจดอัลกอริทึมการปรับให้เหมาะสมเพื่อไม่ให้พลาดขั้นตอนใด ๆ มิฉะนั้น โปรโมชันแทบจะเรียกได้ว่าประสบความสำเร็จ เนื่องจากเว็บไซต์จะประสบกับความล้มเหลวและข้อผิดพลาดอย่างต่อเนื่องซึ่งจะต้องได้รับการแก้ไขเป็นเวลานาน

หนึ่งในขั้นตอนการเพิ่มประสิทธิภาพกำลังทำงานกับไฟล์ robots.txt ทุกแหล่งข้อมูลควรมีเอกสารนี้ เพราะหากไม่มีเอกสารนี้ การจัดการกับการเพิ่มประสิทธิภาพจะยากขึ้น มันทำหน้าที่มากมายที่คุณจะต้องเข้าใจ

ผู้ช่วยหุ่นยนต์

ไฟล์ robots.txt เป็นเอกสารข้อความธรรมดาที่สามารถดูได้ใน Notepad มาตรฐานของระบบ เมื่อสร้าง คุณต้องตั้งค่าการเข้ารหัสเป็น UTF-8 เพื่อให้สามารถอ่านได้อย่างถูกต้อง ไฟล์ใช้งานได้กับโปรโตคอล http, https และ FTP

เอกสารนี้เป็นตัวช่วยในการค้นหาหุ่นยนต์ ในกรณีที่คุณไม่ทราบ ทุกระบบใช้ "แมงมุม" ที่รวบรวมข้อมูลจากเวิลด์ไวด์เว็บอย่างรวดเร็วเพื่อส่งคืนไซต์ที่เกี่ยวข้องเพื่อสอบถามข้อมูลผู้ใช้ โรบ็อตเหล่านี้ต้องมีสิทธิ์เข้าถึงข้อมูลทรัพยากร ซึ่ง robots.txt ใช้งานได้สำหรับสิ่งนี้

เพื่อให้สไปเดอร์หาทางได้ คุณต้องส่งเอกสาร robots.txt ไปยังไดเร็กทอรีราก หากต้องการตรวจสอบว่าไซต์มีไฟล์นี้หรือไม่ ให้ป้อน “https://site.com.ua/robots.txt” ลงในแถบที่อยู่ของเบราว์เซอร์ แทนที่จะเป็น "site.com.ua" คุณต้องป้อนทรัพยากรที่คุณต้องการ

การทำงานกับ robots.txt
การทำงานกับ robots.txt

ฟังก์ชั่นเอกสาร

ไฟล์ robots.txt ให้ข้อมูลหลายประเภทแก่โปรแกรมรวบรวมข้อมูล มันสามารถให้การเข้าถึงบางส่วนเพื่อให้ "แมงมุม" สแกนองค์ประกอบเฉพาะของทรัพยากร การเข้าถึงแบบเต็มช่วยให้คุณสามารถตรวจสอบหน้าที่มีอยู่ทั้งหมดได้ การแบนโดยสมบูรณ์จะป้องกันไม่ให้หุ่นยนต์เริ่มตรวจสอบและออกจากไซต์

หลังจากเยี่ยมชมทรัพยากร "แมงมุม" จะได้รับคำตอบที่เหมาะสมต่อคำขอ อาจมีหลายอย่างขึ้นอยู่กับข้อมูลใน robots.txt ตัวอย่างเช่น หากการสแกนสำเร็จ หุ่นยนต์จะได้รับรหัส 2xx

บางทีไซต์อาจถูกเปลี่ยนเส้นทางจากหน้าหนึ่งไปยังอีกหน้าหนึ่ง ในกรณีนี้ หุ่นยนต์จะได้รับรหัส 3xx หากรหัสนี้เกิดขึ้นหลายครั้ง สไปเดอร์จะติดตามจนกว่าจะได้รับการตอบกลับอีกครั้ง แม้ว่าตามกฎแล้วเขาใช้ความพยายามเพียง 5 ครั้งเท่านั้น มิฉะนั้น ข้อผิดพลาด 404 ยอดนิยมจะปรากฏขึ้น

หากคำตอบคือ 4xx หุ่นยนต์จะได้รับอนุญาตให้รวบรวมข้อมูลเนื้อหาทั้งหมดของเว็บไซต์ แต่ในกรณีของรหัส 5xx การตรวจสอบอาจหยุดโดยสมบูรณ์ เนื่องจากสิ่งนี้มักบ่งชี้ถึงข้อผิดพลาดของเซิร์ฟเวอร์ชั่วคราว

ค้นหาหุ่นยนต์
ค้นหาหุ่นยนต์

เพื่ออะไรต้องการ robots.txt หรือไม่

อย่างที่คุณอาจเดาได้ ไฟล์นี้เป็นคู่มือของโรบ็อตเกี่ยวกับรูทของไซต์ ตอนนี้ใช้เพื่อจำกัดการเข้าถึงเนื้อหาที่ไม่เหมาะสมบางส่วน:

  • หน้าพร้อมข้อมูลส่วนตัวของผู้ใช้;
  • กระจกไซต์;
  • ผลการค้นหา;
  • แบบฟอร์มการส่งข้อมูล ฯลฯ

หากไม่มีไฟล์ robots.txt ในรูทไซต์ โรบ็อตจะรวบรวมข้อมูลเนื้อหาทั้งหมดอย่างแน่นอน ดังนั้น ข้อมูลที่ไม่ต้องการอาจปรากฏในผลการค้นหา ซึ่งหมายความว่าทั้งคุณและเว็บไซต์จะได้รับผลกระทบ หากมีคำแนะนำพิเศษในเอกสาร robots.txt "แมงมุม" จะปฏิบัติตามและให้ข้อมูลที่ต้องการโดยเจ้าของทรัพยากร

การทำงานกับไฟล์

หากต้องการใช้ robots.txt เพื่อบล็อกเว็บไซต์จากการจัดทำดัชนี คุณต้องหาวิธีสร้างไฟล์นี้ โดยทำตามคำแนะนำ:

  1. สร้างเอกสารใน Notepad หรือ Notepad++
  2. ตั้งนามสกุลไฟล์ ".txt".
  3. ป้อนข้อมูลที่จำเป็นและคำสั่ง
  4. บันทึกเอกสารแล้วอัปโหลดไปที่รูทของเว็บไซต์

อย่างที่คุณเห็น จำเป็นต้องตั้งค่าคำสั่งสำหรับหุ่นยนต์ในขั้นตอนใดขั้นตอนหนึ่ง แบ่งเป็น 2 ประเภท คือ อนุญาต (Allow) และห้าม (Disallow) นอกจากนี้ เครื่องมือเพิ่มประสิทธิภาพบางตัวอาจระบุความเร็วในการรวบรวมข้อมูล โฮสต์ และลิงก์ไปยังการแมปหน้าของทรัพยากร

วิธีปิดไซต์จากการจัดทำดัชนี
วิธีปิดไซต์จากการจัดทำดัชนี

ในการเริ่มทำงานกับ robots.txt และบล็อกเว็บไซต์จากการจัดทำดัชนีโดยสมบูรณ์ คุณต้องเข้าใจสัญลักษณ์ที่ใช้ด้วย ตัวอย่างเช่น ในเอกสารใช้ "/" ซึ่งระบุว่าเลือกไซต์ทั้งหมดแล้ว หากใช้ "" จำเป็นต้องมีลำดับของอักขระ ด้วยวิธีนี้ คุณจะสามารถระบุโฟลเดอร์เฉพาะที่สามารถสแกนได้หรือไม่

คุณสมบัติของบอท

"Spiders" สำหรับเสิร์ชเอ็นจิ้นนั้นแตกต่างกัน ดังนั้นหากคุณทำงานกับเสิร์ชเอ็นจิ้นหลายตัวพร้อมกัน คุณจะต้องคำนึงถึงช่วงเวลานี้ด้วย ชื่อของพวกเขาต่างกัน ซึ่งหมายความว่าหากคุณต้องการติดต่อกับหุ่นยนต์เฉพาะ คุณจะต้องระบุชื่อ: “ตัวแทนผู้ใช้: Yandex” (โดยไม่ใส่เครื่องหมายอัญประกาศ)

หากคุณต้องการตั้งค่าคำสั่งสำหรับเครื่องมือค้นหาทั้งหมด คุณต้องใช้คำสั่ง: "ตัวแทนผู้ใช้: " (ไม่มีเครื่องหมายคำพูด) เพื่อบล็อกไซต์ไม่ให้สร้างดัชนีโดยใช้ robots.txt อย่างถูกต้อง คุณจำเป็นต้องทราบข้อมูลเฉพาะของเครื่องมือค้นหายอดนิยม

เสิร์ชเอนจิ้นยอดนิยม Yandex และ Google มีบอทหลายตัว แต่ละคนมีหน้าที่ของตัวเอง ตัวอย่างเช่น Yandex Bot และ Googlebot เป็น "แมงมุม" หลักที่รวบรวมข้อมูลไซต์ เมื่อทราบบ็อตทั้งหมดแล้ว การปรับแต่งดัชนีทรัพยากรของคุณก็จะง่ายขึ้น

ไฟล์ robots.txt ทำงานอย่างไร
ไฟล์ robots.txt ทำงานอย่างไร

ตัวอย่าง

ดังนั้น ด้วยความช่วยเหลือของ robots.txt คุณสามารถปิดไซต์จากการจัดทำดัชนีด้วยคำสั่งง่ายๆ ได้ สิ่งสำคัญคือการทำความเข้าใจสิ่งที่คุณต้องการโดยเฉพาะ ตัวอย่างเช่น หากคุณต้องการไม่ให้ Googlebot เข้าใกล้ทรัพยากรของคุณ คุณต้องให้คำสั่งที่เหมาะสมแก่ Googlebot จะมีลักษณะดังนี้: "User-agent: Googlebot Disallow: /" (โดยไม่ใส่เครื่องหมายอัญประกาศ)

ตอนนี้เราต้องเข้าใจว่าคำสั่งนี้คืออะไรและทำงานอย่างไร ดังนั้น "ตัวแทนผู้ใช้"ใช้เพื่อโทรโดยตรงไปยังบอทตัวใดตัวหนึ่ง ต่อไป เราระบุว่าอันไหน ในกรณีของเราคือ Google คำสั่ง "Disallow" ต้องเริ่มต้นในบรรทัดใหม่และห้ามไม่ให้หุ่นยนต์เข้าไปในไซต์ สัญลักษณ์ทับในกรณีนี้ระบุว่าทุกหน้าของทรัพยากรถูกเลือกสำหรับการดำเนินการคำสั่ง

robots.txt มีไว้เพื่ออะไร
robots.txt มีไว้เพื่ออะไร

ใน robots.txt คุณสามารถปิดใช้งานการจัดทำดัชนีสำหรับเครื่องมือค้นหาทั้งหมดด้วยคำสั่งง่ายๆ: "User-agent:Disallow: /" (โดยไม่ใส่เครื่องหมายอัญประกาศ) อักขระดอกจันในกรณีนี้หมายถึงโรบ็อตการค้นหาทั้งหมด โดยทั่วไปแล้ว จำเป็นต้องใช้คำสั่งดังกล่าวเพื่อหยุดการสร้างดัชนีของไซต์ชั่วคราวและเริ่มทำงานสำคัญกับไซต์ มิฉะนั้นอาจส่งผลต่อการปรับให้เหมาะสม

หากทรัพยากรมีขนาดใหญ่และมีหลายหน้า มักจะมีข้อมูลที่เป็นกรรมสิทธิ์ซึ่งไม่พึงปรารถนาที่จะเปิดเผย หรืออาจส่งผลเสียต่อการเลื่อนตำแหน่ง ในกรณีนี้ คุณต้องเข้าใจวิธีปิดหน้าจากการจัดทำดัชนีใน robots.txt

คุณสามารถซ่อนทั้งโฟลเดอร์หรือไฟล์ ในกรณีแรก คุณต้องเริ่มต้นใหม่อีกครั้งโดยติดต่อกับบอทที่ต้องการหรือทุกคน ดังนั้นเราจึงใช้คำสั่ง "User-agent" และด้านล่างเราจะระบุคำสั่ง "Disallow" สำหรับโฟลเดอร์เฉพาะ จะมีลักษณะดังนี้: "Disallow: / folder /" (ไม่มีเครื่องหมายอัญประกาศ) วิธีนี้คุณจะซ่อนทั้งโฟลเดอร์ หากมีไฟล์สำคัญที่คุณต้องการแสดง คุณต้องเขียนคำสั่งด้านล่าง: “Allow: /folder/file.php” (โดยไม่ใส่เครื่องหมายคำพูด)

ตรวจสอบไฟล์

หากใช้ robots.txt เพื่อปิดเว็บไซต์จากคุณสร้างดัชนีสำเร็จแล้ว แต่คุณไม่รู้ว่าคำสั่งทั้งหมดของคุณทำงานถูกต้องหรือไม่ คุณสามารถตรวจสอบความถูกต้องของงานได้

ขั้นแรก คุณต้องตรวจสอบตำแหน่งของเอกสารอีกครั้ง จำไว้ว่าจะต้องอยู่ในโฟลเดอร์รูทเท่านั้น หากอยู่ในโฟลเดอร์รูทก็จะไม่ทำงาน ถัดไป เปิดเบราว์เซอร์และป้อนที่อยู่ต่อไปนี้: “https://yoursite. com/robots.txt (ไม่มีเครื่องหมายคำพูด) หากคุณได้รับข้อผิดพลาดในเว็บเบราว์เซอร์ แสดงว่าไฟล์นั้นไม่อยู่ในตำแหน่งที่ควรจะเป็น

วิธีปิดโฟลเดอร์จากการจัดทำดัชนี
วิธีปิดโฟลเดอร์จากการจัดทำดัชนี

คำสั่งสามารถตรวจสอบได้ในเครื่องมือพิเศษที่เว็บมาสเตอร์เกือบทั้งหมดใช้ เรากำลังพูดถึงผลิตภัณฑ์ Google และ Yandex ตัวอย่างเช่น ใน Google Search Console มีแถบเครื่องมือที่คุณต้องเปิด "รวบรวมข้อมูล" จากนั้นเรียกใช้ "เครื่องมือตรวจสอบไฟล์ Robots.txt" คุณต้องคัดลอกข้อมูลทั้งหมดจากเอกสารลงในหน้าต่างและเริ่มการสแกน การตรวจสอบเดียวกันสามารถทำได้ใน Yandex. Webmaster

แนะนำ: