เครื่องมือเพิ่มประสิทธิภาพ SEO มีขนาดใหญ่มาก ผู้เริ่มต้นควรจดอัลกอริทึมการปรับให้เหมาะสมเพื่อไม่ให้พลาดขั้นตอนใด ๆ มิฉะนั้น โปรโมชันแทบจะเรียกได้ว่าประสบความสำเร็จ เนื่องจากเว็บไซต์จะประสบกับความล้มเหลวและข้อผิดพลาดอย่างต่อเนื่องซึ่งจะต้องได้รับการแก้ไขเป็นเวลานาน
หนึ่งในขั้นตอนการเพิ่มประสิทธิภาพกำลังทำงานกับไฟล์ robots.txt ทุกแหล่งข้อมูลควรมีเอกสารนี้ เพราะหากไม่มีเอกสารนี้ การจัดการกับการเพิ่มประสิทธิภาพจะยากขึ้น มันทำหน้าที่มากมายที่คุณจะต้องเข้าใจ
ผู้ช่วยหุ่นยนต์
ไฟล์ robots.txt เป็นเอกสารข้อความธรรมดาที่สามารถดูได้ใน Notepad มาตรฐานของระบบ เมื่อสร้าง คุณต้องตั้งค่าการเข้ารหัสเป็น UTF-8 เพื่อให้สามารถอ่านได้อย่างถูกต้อง ไฟล์ใช้งานได้กับโปรโตคอล http, https และ FTP
เอกสารนี้เป็นตัวช่วยในการค้นหาหุ่นยนต์ ในกรณีที่คุณไม่ทราบ ทุกระบบใช้ "แมงมุม" ที่รวบรวมข้อมูลจากเวิลด์ไวด์เว็บอย่างรวดเร็วเพื่อส่งคืนไซต์ที่เกี่ยวข้องเพื่อสอบถามข้อมูลผู้ใช้ โรบ็อตเหล่านี้ต้องมีสิทธิ์เข้าถึงข้อมูลทรัพยากร ซึ่ง robots.txt ใช้งานได้สำหรับสิ่งนี้
เพื่อให้สไปเดอร์หาทางได้ คุณต้องส่งเอกสาร robots.txt ไปยังไดเร็กทอรีราก หากต้องการตรวจสอบว่าไซต์มีไฟล์นี้หรือไม่ ให้ป้อน “https://site.com.ua/robots.txt” ลงในแถบที่อยู่ของเบราว์เซอร์ แทนที่จะเป็น "site.com.ua" คุณต้องป้อนทรัพยากรที่คุณต้องการ
ฟังก์ชั่นเอกสาร
ไฟล์ robots.txt ให้ข้อมูลหลายประเภทแก่โปรแกรมรวบรวมข้อมูล มันสามารถให้การเข้าถึงบางส่วนเพื่อให้ "แมงมุม" สแกนองค์ประกอบเฉพาะของทรัพยากร การเข้าถึงแบบเต็มช่วยให้คุณสามารถตรวจสอบหน้าที่มีอยู่ทั้งหมดได้ การแบนโดยสมบูรณ์จะป้องกันไม่ให้หุ่นยนต์เริ่มตรวจสอบและออกจากไซต์
หลังจากเยี่ยมชมทรัพยากร "แมงมุม" จะได้รับคำตอบที่เหมาะสมต่อคำขอ อาจมีหลายอย่างขึ้นอยู่กับข้อมูลใน robots.txt ตัวอย่างเช่น หากการสแกนสำเร็จ หุ่นยนต์จะได้รับรหัส 2xx
บางทีไซต์อาจถูกเปลี่ยนเส้นทางจากหน้าหนึ่งไปยังอีกหน้าหนึ่ง ในกรณีนี้ หุ่นยนต์จะได้รับรหัส 3xx หากรหัสนี้เกิดขึ้นหลายครั้ง สไปเดอร์จะติดตามจนกว่าจะได้รับการตอบกลับอีกครั้ง แม้ว่าตามกฎแล้วเขาใช้ความพยายามเพียง 5 ครั้งเท่านั้น มิฉะนั้น ข้อผิดพลาด 404 ยอดนิยมจะปรากฏขึ้น
หากคำตอบคือ 4xx หุ่นยนต์จะได้รับอนุญาตให้รวบรวมข้อมูลเนื้อหาทั้งหมดของเว็บไซต์ แต่ในกรณีของรหัส 5xx การตรวจสอบอาจหยุดโดยสมบูรณ์ เนื่องจากสิ่งนี้มักบ่งชี้ถึงข้อผิดพลาดของเซิร์ฟเวอร์ชั่วคราว
เพื่ออะไรต้องการ robots.txt หรือไม่
อย่างที่คุณอาจเดาได้ ไฟล์นี้เป็นคู่มือของโรบ็อตเกี่ยวกับรูทของไซต์ ตอนนี้ใช้เพื่อจำกัดการเข้าถึงเนื้อหาที่ไม่เหมาะสมบางส่วน:
- หน้าพร้อมข้อมูลส่วนตัวของผู้ใช้;
- กระจกไซต์;
- ผลการค้นหา;
- แบบฟอร์มการส่งข้อมูล ฯลฯ
หากไม่มีไฟล์ robots.txt ในรูทไซต์ โรบ็อตจะรวบรวมข้อมูลเนื้อหาทั้งหมดอย่างแน่นอน ดังนั้น ข้อมูลที่ไม่ต้องการอาจปรากฏในผลการค้นหา ซึ่งหมายความว่าทั้งคุณและเว็บไซต์จะได้รับผลกระทบ หากมีคำแนะนำพิเศษในเอกสาร robots.txt "แมงมุม" จะปฏิบัติตามและให้ข้อมูลที่ต้องการโดยเจ้าของทรัพยากร
การทำงานกับไฟล์
หากต้องการใช้ robots.txt เพื่อบล็อกเว็บไซต์จากการจัดทำดัชนี คุณต้องหาวิธีสร้างไฟล์นี้ โดยทำตามคำแนะนำ:
- สร้างเอกสารใน Notepad หรือ Notepad++
- ตั้งนามสกุลไฟล์ ".txt".
- ป้อนข้อมูลที่จำเป็นและคำสั่ง
- บันทึกเอกสารแล้วอัปโหลดไปที่รูทของเว็บไซต์
อย่างที่คุณเห็น จำเป็นต้องตั้งค่าคำสั่งสำหรับหุ่นยนต์ในขั้นตอนใดขั้นตอนหนึ่ง แบ่งเป็น 2 ประเภท คือ อนุญาต (Allow) และห้าม (Disallow) นอกจากนี้ เครื่องมือเพิ่มประสิทธิภาพบางตัวอาจระบุความเร็วในการรวบรวมข้อมูล โฮสต์ และลิงก์ไปยังการแมปหน้าของทรัพยากร
ในการเริ่มทำงานกับ robots.txt และบล็อกเว็บไซต์จากการจัดทำดัชนีโดยสมบูรณ์ คุณต้องเข้าใจสัญลักษณ์ที่ใช้ด้วย ตัวอย่างเช่น ในเอกสารใช้ "/" ซึ่งระบุว่าเลือกไซต์ทั้งหมดแล้ว หากใช้ "" จำเป็นต้องมีลำดับของอักขระ ด้วยวิธีนี้ คุณจะสามารถระบุโฟลเดอร์เฉพาะที่สามารถสแกนได้หรือไม่
คุณสมบัติของบอท
"Spiders" สำหรับเสิร์ชเอ็นจิ้นนั้นแตกต่างกัน ดังนั้นหากคุณทำงานกับเสิร์ชเอ็นจิ้นหลายตัวพร้อมกัน คุณจะต้องคำนึงถึงช่วงเวลานี้ด้วย ชื่อของพวกเขาต่างกัน ซึ่งหมายความว่าหากคุณต้องการติดต่อกับหุ่นยนต์เฉพาะ คุณจะต้องระบุชื่อ: “ตัวแทนผู้ใช้: Yandex” (โดยไม่ใส่เครื่องหมายอัญประกาศ)
หากคุณต้องการตั้งค่าคำสั่งสำหรับเครื่องมือค้นหาทั้งหมด คุณต้องใช้คำสั่ง: "ตัวแทนผู้ใช้: " (ไม่มีเครื่องหมายคำพูด) เพื่อบล็อกไซต์ไม่ให้สร้างดัชนีโดยใช้ robots.txt อย่างถูกต้อง คุณจำเป็นต้องทราบข้อมูลเฉพาะของเครื่องมือค้นหายอดนิยม
เสิร์ชเอนจิ้นยอดนิยม Yandex และ Google มีบอทหลายตัว แต่ละคนมีหน้าที่ของตัวเอง ตัวอย่างเช่น Yandex Bot และ Googlebot เป็น "แมงมุม" หลักที่รวบรวมข้อมูลไซต์ เมื่อทราบบ็อตทั้งหมดแล้ว การปรับแต่งดัชนีทรัพยากรของคุณก็จะง่ายขึ้น
ตัวอย่าง
ดังนั้น ด้วยความช่วยเหลือของ robots.txt คุณสามารถปิดไซต์จากการจัดทำดัชนีด้วยคำสั่งง่ายๆ ได้ สิ่งสำคัญคือการทำความเข้าใจสิ่งที่คุณต้องการโดยเฉพาะ ตัวอย่างเช่น หากคุณต้องการไม่ให้ Googlebot เข้าใกล้ทรัพยากรของคุณ คุณต้องให้คำสั่งที่เหมาะสมแก่ Googlebot จะมีลักษณะดังนี้: "User-agent: Googlebot Disallow: /" (โดยไม่ใส่เครื่องหมายอัญประกาศ)
ตอนนี้เราต้องเข้าใจว่าคำสั่งนี้คืออะไรและทำงานอย่างไร ดังนั้น "ตัวแทนผู้ใช้"ใช้เพื่อโทรโดยตรงไปยังบอทตัวใดตัวหนึ่ง ต่อไป เราระบุว่าอันไหน ในกรณีของเราคือ Google คำสั่ง "Disallow" ต้องเริ่มต้นในบรรทัดใหม่และห้ามไม่ให้หุ่นยนต์เข้าไปในไซต์ สัญลักษณ์ทับในกรณีนี้ระบุว่าทุกหน้าของทรัพยากรถูกเลือกสำหรับการดำเนินการคำสั่ง
ใน robots.txt คุณสามารถปิดใช้งานการจัดทำดัชนีสำหรับเครื่องมือค้นหาทั้งหมดด้วยคำสั่งง่ายๆ: "User-agent:Disallow: /" (โดยไม่ใส่เครื่องหมายอัญประกาศ) อักขระดอกจันในกรณีนี้หมายถึงโรบ็อตการค้นหาทั้งหมด โดยทั่วไปแล้ว จำเป็นต้องใช้คำสั่งดังกล่าวเพื่อหยุดการสร้างดัชนีของไซต์ชั่วคราวและเริ่มทำงานสำคัญกับไซต์ มิฉะนั้นอาจส่งผลต่อการปรับให้เหมาะสม
หากทรัพยากรมีขนาดใหญ่และมีหลายหน้า มักจะมีข้อมูลที่เป็นกรรมสิทธิ์ซึ่งไม่พึงปรารถนาที่จะเปิดเผย หรืออาจส่งผลเสียต่อการเลื่อนตำแหน่ง ในกรณีนี้ คุณต้องเข้าใจวิธีปิดหน้าจากการจัดทำดัชนีใน robots.txt
คุณสามารถซ่อนทั้งโฟลเดอร์หรือไฟล์ ในกรณีแรก คุณต้องเริ่มต้นใหม่อีกครั้งโดยติดต่อกับบอทที่ต้องการหรือทุกคน ดังนั้นเราจึงใช้คำสั่ง "User-agent" และด้านล่างเราจะระบุคำสั่ง "Disallow" สำหรับโฟลเดอร์เฉพาะ จะมีลักษณะดังนี้: "Disallow: / folder /" (ไม่มีเครื่องหมายอัญประกาศ) วิธีนี้คุณจะซ่อนทั้งโฟลเดอร์ หากมีไฟล์สำคัญที่คุณต้องการแสดง คุณต้องเขียนคำสั่งด้านล่าง: “Allow: /folder/file.php” (โดยไม่ใส่เครื่องหมายคำพูด)
ตรวจสอบไฟล์
หากใช้ robots.txt เพื่อปิดเว็บไซต์จากคุณสร้างดัชนีสำเร็จแล้ว แต่คุณไม่รู้ว่าคำสั่งทั้งหมดของคุณทำงานถูกต้องหรือไม่ คุณสามารถตรวจสอบความถูกต้องของงานได้
ขั้นแรก คุณต้องตรวจสอบตำแหน่งของเอกสารอีกครั้ง จำไว้ว่าจะต้องอยู่ในโฟลเดอร์รูทเท่านั้น หากอยู่ในโฟลเดอร์รูทก็จะไม่ทำงาน ถัดไป เปิดเบราว์เซอร์และป้อนที่อยู่ต่อไปนี้: “https://yoursite. com/robots.txt (ไม่มีเครื่องหมายคำพูด) หากคุณได้รับข้อผิดพลาดในเว็บเบราว์เซอร์ แสดงว่าไฟล์นั้นไม่อยู่ในตำแหน่งที่ควรจะเป็น
คำสั่งสามารถตรวจสอบได้ในเครื่องมือพิเศษที่เว็บมาสเตอร์เกือบทั้งหมดใช้ เรากำลังพูดถึงผลิตภัณฑ์ Google และ Yandex ตัวอย่างเช่น ใน Google Search Console มีแถบเครื่องมือที่คุณต้องเปิด "รวบรวมข้อมูล" จากนั้นเรียกใช้ "เครื่องมือตรวจสอบไฟล์ Robots.txt" คุณต้องคัดลอกข้อมูลทั้งหมดจากเอกสารลงในหน้าต่างและเริ่มการสแกน การตรวจสอบเดียวกันสามารถทำได้ใน Yandex. Webmaster