วิธีบล็อกเว็บไซต์ไม่ให้สร้างดัชนีใน robots.txt: คำแนะนำและคำแนะนำ

2025 ผู้เขียน: Trinity Chesterton | [email protected]. แก้ไขล่าสุด: 2025-01-23 10:13

เครื่องมือเพิ่มประสิทธิภาพ SEO มีขนาดใหญ่มาก ผู้เริ่มต้นควรจดอัลกอริทึมการปรับให้เหมาะสมเพื่อไม่ให้พลาดขั้นตอนใด ๆ มิฉะนั้น โปรโมชันแทบจะเรียกได้ว่าประสบความสำเร็จ เนื่องจากเว็บไซต์จะประสบกับความล้มเหลวและข้อผิดพลาดอย่างต่อเนื่องซึ่งจะต้องได้รับการแก้ไขเป็นเวลานาน

หนึ่งในขั้นตอนการเพิ่มประสิทธิภาพกำลังทำงานกับไฟล์ robots.txt ทุกแหล่งข้อมูลควรมีเอกสารนี้ เพราะหากไม่มีเอกสารนี้ การจัดการกับการเพิ่มประสิทธิภาพจะยากขึ้น มันทำหน้าที่มากมายที่คุณจะต้องเข้าใจ

ผู้ช่วยหุ่นยนต์

ไฟล์ robots.txt เป็นเอกสารข้อความธรรมดาที่สามารถดูได้ใน Notepad มาตรฐานของระบบ เมื่อสร้าง คุณต้องตั้งค่าการเข้ารหัสเป็น UTF-8 เพื่อให้สามารถอ่านได้อย่างถูกต้อง ไฟล์ใช้งานได้กับโปรโตคอล http, https และ FTP

เอกสารนี้เป็นตัวช่วยในการค้นหาหุ่นยนต์ ในกรณีที่คุณไม่ทราบ ทุกระบบใช้ "แมงมุม" ที่รวบรวมข้อมูลจากเวิลด์ไวด์เว็บอย่างรวดเร็วเพื่อส่งคืนไซต์ที่เกี่ยวข้องเพื่อสอบถามข้อมูลผู้ใช้ โรบ็อตเหล่านี้ต้องมีสิทธิ์เข้าถึงข้อมูลทรัพยากร ซึ่ง robots.txt ใช้งานได้สำหรับสิ่งนี้

เพื่อให้สไปเดอร์หาทางได้ คุณต้องส่งเอกสาร robots.txt ไปยังไดเร็กทอรีราก หากต้องการตรวจสอบว่าไซต์มีไฟล์นี้หรือไม่ ให้ป้อน “https://site.com.ua/robots.txt” ลงในแถบที่อยู่ของเบราว์เซอร์ แทนที่จะเป็น "site.com.ua" คุณต้องป้อนทรัพยากรที่คุณต้องการ

ฟังก์ชั่นเอกสาร

ไฟล์ robots.txt ให้ข้อมูลหลายประเภทแก่โปรแกรมรวบรวมข้อมูล มันสามารถให้การเข้าถึงบางส่วนเพื่อให้ "แมงมุม" สแกนองค์ประกอบเฉพาะของทรัพยากร การเข้าถึงแบบเต็มช่วยให้คุณสามารถตรวจสอบหน้าที่มีอยู่ทั้งหมดได้ การแบนโดยสมบูรณ์จะป้องกันไม่ให้หุ่นยนต์เริ่มตรวจสอบและออกจากไซต์

หลังจากเยี่ยมชมทรัพยากร "แมงมุม" จะได้รับคำตอบที่เหมาะสมต่อคำขอ อาจมีหลายอย่างขึ้นอยู่กับข้อมูลใน robots.txt ตัวอย่างเช่น หากการสแกนสำเร็จ หุ่นยนต์จะได้รับรหัส 2xx

บางทีไซต์อาจถูกเปลี่ยนเส้นทางจากหน้าหนึ่งไปยังอีกหน้าหนึ่ง ในกรณีนี้ หุ่นยนต์จะได้รับรหัส 3xx หากรหัสนี้เกิดขึ้นหลายครั้ง สไปเดอร์จะติดตามจนกว่าจะได้รับการตอบกลับอีกครั้ง แม้ว่าตามกฎแล้วเขาใช้ความพยายามเพียง 5 ครั้งเท่านั้น มิฉะนั้น ข้อผิดพลาด 404 ยอดนิยมจะปรากฏขึ้น

หากคำตอบคือ 4xx หุ่นยนต์จะได้รับอนุญาตให้รวบรวมข้อมูลเนื้อหาทั้งหมดของเว็บไซต์ แต่ในกรณีของรหัส 5xx การตรวจสอบอาจหยุดโดยสมบูรณ์ เนื่องจากสิ่งนี้มักบ่งชี้ถึงข้อผิดพลาดของเซิร์ฟเวอร์ชั่วคราว

เพื่ออะไรต้องการ robots.txt หรือไม่

อย่างที่คุณอาจเดาได้ ไฟล์นี้เป็นคู่มือของโรบ็อตเกี่ยวกับรูทของไซต์ ตอนนี้ใช้เพื่อจำกัดการเข้าถึงเนื้อหาที่ไม่เหมาะสมบางส่วน:

หน้าพร้อมข้อมูลส่วนตัวของผู้ใช้;
กระจกไซต์;
ผลการค้นหา;
แบบฟอร์มการส่งข้อมูล ฯลฯ

หากไม่มีไฟล์ robots.txt ในรูทไซต์ โรบ็อตจะรวบรวมข้อมูลเนื้อหาทั้งหมดอย่างแน่นอน ดังนั้น ข้อมูลที่ไม่ต้องการอาจปรากฏในผลการค้นหา ซึ่งหมายความว่าทั้งคุณและเว็บไซต์จะได้รับผลกระทบ หากมีคำแนะนำพิเศษในเอกสาร robots.txt "แมงมุม" จะปฏิบัติตามและให้ข้อมูลที่ต้องการโดยเจ้าของทรัพยากร

การทำงานกับไฟล์

หากต้องการใช้ robots.txt เพื่อบล็อกเว็บไซต์จากการจัดทำดัชนี คุณต้องหาวิธีสร้างไฟล์นี้ โดยทำตามคำแนะนำ:

สร้างเอกสารใน Notepad หรือ Notepad++
ตั้งนามสกุลไฟล์ ".txt".
ป้อนข้อมูลที่จำเป็นและคำสั่ง
บันทึกเอกสารแล้วอัปโหลดไปที่รูทของเว็บไซต์

อย่างที่คุณเห็น จำเป็นต้องตั้งค่าคำสั่งสำหรับหุ่นยนต์ในขั้นตอนใดขั้นตอนหนึ่ง แบ่งเป็น 2 ประเภท คือ อนุญาต (Allow) และห้าม (Disallow) นอกจากนี้ เครื่องมือเพิ่มประสิทธิภาพบางตัวอาจระบุความเร็วในการรวบรวมข้อมูล โฮสต์ และลิงก์ไปยังการแมปหน้าของทรัพยากร

ในการเริ่มทำงานกับ robots.txt และบล็อกเว็บไซต์จากการจัดทำดัชนีโดยสมบูรณ์ คุณต้องเข้าใจสัญลักษณ์ที่ใช้ด้วย ตัวอย่างเช่น ในเอกสารใช้ "/" ซึ่งระบุว่าเลือกไซต์ทั้งหมดแล้ว หากใช้ "" จำเป็นต้องมีลำดับของอักขระ ด้วยวิธีนี้ คุณจะสามารถระบุโฟลเดอร์เฉพาะที่สามารถสแกนได้หรือไม่

คุณสมบัติของบอท

"Spiders" สำหรับเสิร์ชเอ็นจิ้นนั้นแตกต่างกัน ดังนั้นหากคุณทำงานกับเสิร์ชเอ็นจิ้นหลายตัวพร้อมกัน คุณจะต้องคำนึงถึงช่วงเวลานี้ด้วย ชื่อของพวกเขาต่างกัน ซึ่งหมายความว่าหากคุณต้องการติดต่อกับหุ่นยนต์เฉพาะ คุณจะต้องระบุชื่อ: “ตัวแทนผู้ใช้: Yandex” (โดยไม่ใส่เครื่องหมายอัญประกาศ)

หากคุณต้องการตั้งค่าคำสั่งสำหรับเครื่องมือค้นหาทั้งหมด คุณต้องใช้คำสั่ง: "ตัวแทนผู้ใช้: " (ไม่มีเครื่องหมายคำพูด) เพื่อบล็อกไซต์ไม่ให้สร้างดัชนีโดยใช้ robots.txt อย่างถูกต้อง คุณจำเป็นต้องทราบข้อมูลเฉพาะของเครื่องมือค้นหายอดนิยม

เสิร์ชเอนจิ้นยอดนิยม Yandex และ Google มีบอทหลายตัว แต่ละคนมีหน้าที่ของตัวเอง ตัวอย่างเช่น Yandex Bot และ Googlebot เป็น "แมงมุม" หลักที่รวบรวมข้อมูลไซต์ เมื่อทราบบ็อตทั้งหมดแล้ว การปรับแต่งดัชนีทรัพยากรของคุณก็จะง่ายขึ้น

ตัวอย่าง

ดังนั้น ด้วยความช่วยเหลือของ robots.txt คุณสามารถปิดไซต์จากการจัดทำดัชนีด้วยคำสั่งง่ายๆ ได้ สิ่งสำคัญคือการทำความเข้าใจสิ่งที่คุณต้องการโดยเฉพาะ ตัวอย่างเช่น หากคุณต้องการไม่ให้ Googlebot เข้าใกล้ทรัพยากรของคุณ คุณต้องให้คำสั่งที่เหมาะสมแก่ Googlebot จะมีลักษณะดังนี้: "User-agent: Googlebot Disallow: /" (โดยไม่ใส่เครื่องหมายอัญประกาศ)

ตอนนี้เราต้องเข้าใจว่าคำสั่งนี้คืออะไรและทำงานอย่างไร ดังนั้น "ตัวแทนผู้ใช้"ใช้เพื่อโทรโดยตรงไปยังบอทตัวใดตัวหนึ่ง ต่อไป เราระบุว่าอันไหน ในกรณีของเราคือ Google คำสั่ง "Disallow" ต้องเริ่มต้นในบรรทัดใหม่และห้ามไม่ให้หุ่นยนต์เข้าไปในไซต์ สัญลักษณ์ทับในกรณีนี้ระบุว่าทุกหน้าของทรัพยากรถูกเลือกสำหรับการดำเนินการคำสั่ง

ใน robots.txt คุณสามารถปิดใช้งานการจัดทำดัชนีสำหรับเครื่องมือค้นหาทั้งหมดด้วยคำสั่งง่ายๆ: "User-agent:Disallow: /" (โดยไม่ใส่เครื่องหมายอัญประกาศ) อักขระดอกจันในกรณีนี้หมายถึงโรบ็อตการค้นหาทั้งหมด โดยทั่วไปแล้ว จำเป็นต้องใช้คำสั่งดังกล่าวเพื่อหยุดการสร้างดัชนีของไซต์ชั่วคราวและเริ่มทำงานสำคัญกับไซต์ มิฉะนั้นอาจส่งผลต่อการปรับให้เหมาะสม

หากทรัพยากรมีขนาดใหญ่และมีหลายหน้า มักจะมีข้อมูลที่เป็นกรรมสิทธิ์ซึ่งไม่พึงปรารถนาที่จะเปิดเผย หรืออาจส่งผลเสียต่อการเลื่อนตำแหน่ง ในกรณีนี้ คุณต้องเข้าใจวิธีปิดหน้าจากการจัดทำดัชนีใน robots.txt

คุณสามารถซ่อนทั้งโฟลเดอร์หรือไฟล์ ในกรณีแรก คุณต้องเริ่มต้นใหม่อีกครั้งโดยติดต่อกับบอทที่ต้องการหรือทุกคน ดังนั้นเราจึงใช้คำสั่ง "User-agent" และด้านล่างเราจะระบุคำสั่ง "Disallow" สำหรับโฟลเดอร์เฉพาะ จะมีลักษณะดังนี้: "Disallow: / folder /" (ไม่มีเครื่องหมายอัญประกาศ) วิธีนี้คุณจะซ่อนทั้งโฟลเดอร์ หากมีไฟล์สำคัญที่คุณต้องการแสดง คุณต้องเขียนคำสั่งด้านล่าง: “Allow: /folder/file.php” (โดยไม่ใส่เครื่องหมายคำพูด)

ตรวจสอบไฟล์

หากใช้ robots.txt เพื่อปิดเว็บไซต์จากคุณสร้างดัชนีสำเร็จแล้ว แต่คุณไม่รู้ว่าคำสั่งทั้งหมดของคุณทำงานถูกต้องหรือไม่ คุณสามารถตรวจสอบความถูกต้องของงานได้

ขั้นแรก คุณต้องตรวจสอบตำแหน่งของเอกสารอีกครั้ง จำไว้ว่าจะต้องอยู่ในโฟลเดอร์รูทเท่านั้น หากอยู่ในโฟลเดอร์รูทก็จะไม่ทำงาน ถัดไป เปิดเบราว์เซอร์และป้อนที่อยู่ต่อไปนี้: “https://yoursite. com/robots.txt (ไม่มีเครื่องหมายคำพูด) หากคุณได้รับข้อผิดพลาดในเว็บเบราว์เซอร์ แสดงว่าไฟล์นั้นไม่อยู่ในตำแหน่งที่ควรจะเป็น

คำสั่งสามารถตรวจสอบได้ในเครื่องมือพิเศษที่เว็บมาสเตอร์เกือบทั้งหมดใช้ เรากำลังพูดถึงผลิตภัณฑ์ Google และ Yandex ตัวอย่างเช่น ใน Google Search Console มีแถบเครื่องมือที่คุณต้องเปิด "รวบรวมข้อมูล" จากนั้นเรียกใช้ "เครื่องมือตรวจสอบไฟล์ Robots.txt" คุณต้องคัดลอกข้อมูลทั้งหมดจากเอกสารลงในหน้าต่างและเริ่มการสแกน การตรวจสอบเดียวกันสามารถทำได้ใน Yandex. Webmaster

แนะนำ:

จะตั้งค่า Robots.txt อย่างไรให้ถูกต้อง?

ในทางปฏิบัติ ไฟล์ robots.txt ระบุว่า User Agent ซึ่งรับผิดชอบในการดีบักซอฟต์แวร์ สามารถรวบรวมข้อมูลส่วนต่างๆ ของเว็บไซต์ได้หรือไม่ คำแนะนำบายพาสเหล่านี้ถูกกำหนดโดยการปฏิเสธ/อนุญาตการทำงานของบอทแบบกำหนดเองบางตัว

วิธีคืนค่าหน้า "VKontakte": คำแนะนำและคำแนะนำ

ผู้คนถูกลบออกจากโซเชียลเน็ตเวิร์ก แต่ถ้าคุณต้องการทุกคนสามารถกลับมาได้โดยไม่มีปัญหาใดๆ บทความนี้จะบอกวิธีการคืนค่า "VK"

การตั้งวิทยุ: คำแนะนำและคำแนะนำ

หลังจากซื้อวิทยุที่รอคอยมานาน ผู้ขับขี่รถยนต์จำนวนมากประสบปัญหา - การตั้งค่าดังต่อไปนี้ สิ่งสำคัญคือคุณภาพของไฟล์ MP3 และวิทยุต้องดีที่สุด และวิธีการทำ - บทความของเราจะบอก

การตั้งค่า Outlook: คำแนะนำและคำแนะนำ

การมีอีเมลสำหรับผู้ใช้คอมพิวเตอร์ส่วนบุคคลในโลกสมัยใหม่เป็นเรื่องปกติและจำเป็น บางคนมีที่อยู่อีเมลเดียว บางคนมีหลายคนเนื่องจากความต้องการหรือความชอบ การโต้ตอบกับเพื่อน ลูกค้า รายชื่อส่งเมล การแจ้งเตือนเกี่ยวกับเหตุการณ์ที่จะเกิดขึ้น ทั้งหมดนี้ได้กลายเป็นส่วนสำคัญของชีวิต

วิธีตั้งค่าแอมพลิฟายเออร์: คำแนะนำและคำแนะนำ วิธีต่อแอมพลิฟายเออร์ในรถยนต์

ซับวูฟเฟอร์เป็นสิ่งที่ขาดไม่ได้สำหรับผู้ที่ต้องการความเพลิดเพลินในการฟังเพลงอย่างเต็มที่ แต่ปัญหาคือพลังของวิทยุไม่เพียงพอต่อการทำงานปกติ คุณต้องเชื่อมต่อเครื่องขยายเสียง และการติดตั้งมีชัยไปกว่าครึ่ง คุณจำเป็นต้องรู้วิธีตั้งค่าแอมพลิฟายเออร์อย่างถูกต้อง เราจะพูดถึงเรื่องนี้และไม่เพียงแต่ในบทความของเราวันนี้

วิธีบล็อกเว็บไซต์ไม่ให้สร้างดัชนีใน robots.txt: คำแนะนำและคำแนะนำ

สารบัญ:

ผู้ช่วยหุ่นยนต์

ฟังก์ชั่นเอกสาร

เพื่ออะไรต้องการ robots.txt หรือไม่

การทำงานกับไฟล์

คุณสมบัติของบอท

ตัวอย่าง

ตรวจสอบไฟล์

แนะนำ:

จะตั้งค่า Robots.txt อย่างไรให้ถูกต้อง?

วิธีคืนค่าหน้า "VKontakte": คำแนะนำและคำแนะนำ

การตั้งวิทยุ: คำแนะนำและคำแนะนำ

การตั้งค่า Outlook: คำแนะนำและคำแนะนำ

วิธีตั้งค่าแอมพลิฟายเออร์: คำแนะนำและคำแนะนำ วิธีต่อแอมพลิฟายเออร์ในรถยนต์

VKontakte จะเขียนถึงฝ่ายสนับสนุนด้านเทคนิคหรือหาคำตอบได้อย่างไร?

เขียนถึงตัวเองใน VK ยังไง? ช่องทางการส่งข้อความถึงตัวเอง

จะลงโฆษณาบน "Drome" ได้อย่างไร? จะลบโฆษณาออกจาก "Droma" ได้อย่างไร?

บัญชีโทรศัพท์คืออะไรหรือการปกป้องข้อมูลส่วนบุคคลที่เชื่อถือได้

"International Compound" - เว็บไซต์สำหรับผู้ที่รักการเกษตร

จะยกเลิกสัญญากับ Rostelecom สำหรับโทรศัพท์ อินเทอร์เน็ต หรือโทรทัศน์ได้อย่างไร

ภาษี “เปิด! สื่อสาร "เมกาโฟน": บทวิจารณ์ เงื่อนไข และคุณลักษณะ

Tele2 ขึ้นภาษีกับเน็ตไม่อั้น อินเทอร์เน็ต "Tele2" ไม่ จำกัด โดยไม่มีข้อ จำกัด ด้านการจราจร

MTS ร้านค้าในเซนต์ปีเตอร์สเบิร์ก: ที่อยู่ เวลาทำการของร้านค้า MTS ในเซนต์ปีเตอร์สเบิร์ก

ตัวเลือก "ออนไลน์", MTS: บทวิจารณ์และคำอธิบาย

หูฟังแฟนซีมีหู

ฉันจะตั้งค่าส่วน "ครอบครัวของฉัน" ได้อย่างไร การตั้งค่าครอบครัวของฉันบน Windows Phone

หูฟัง Plantronics รุ่นที่ดีที่สุด

วิธีคืน "VK" เวอร์ชันเก่าไปยัง iPhone - วิธีหลัก

แบตเตอรี่แบบถอดไม่ได้ในสมาร์ทโฟน: ข้อดีและข้อเสีย ควรใช้สมาร์ทโฟนที่มีแบตเตอรี่แบบถอดไม่ได้หรือไม่?