Hướng dẫn Wordpress

Cách tối ưu file Robots.txt cho SEO trong WordPress

Viết bởi Tiến Đức

Tệp Robots.txt là cái cho các công cụ tìm kiếm biết cách thu thập dữ liệu trang web của bạn, điều này làm cho nó trở thành một công cụ SEO cực kỳ mạnh mẽ. Trong bài viết này, chúng tôi sẽ chỉ cho bạn cách tạo một tệp robot.txt hoàn hảo cho SEO.

1.Tệp robots.txt là gì?

Robots.txt là một tệp văn bản mà chủ sở hữu trang web có thể tạo để báo cho bot công cụ tìm kiếm cách thu thập dữ liệu và lập chỉ mục các trang trên trang web của họ, một cách khác thì đây còn được gọi là The Robots Exclusion Protocol (Giao thức loại trừ robot.)

Đến đây thì bạn đã hiểu tệp này để làm gì rồi chứ :). Nhưng khoan đã, có thể có nhiều bạn thắc mắc khi mình nhắc đến bot công cụ tìm kiếm hay mình gọi tắt là Bot, vậy Bot là cái mẹ gì vậy, mình thì hay gọi theo ngôn ngữ nói là con Bọ. Nói ngắn gọn thì những con bọ này xuất phát từ những công cụ tìm kiếm như Google, Yahoo, Yandex, Bing,… chúng nó bò vào website của bạn để lấy thông tin, lập bản đồ nội dung và gửi về máy chủ tìm kiếm nhằm phục vụ các kết quả tìm kiếm.

Tệp robots.txt này thường được lưu trữ trong thư mục gốc còn được gọi là thư mục chính của trang web của bạn. Định dạng cơ bản cho tệp robots.txt trông như thế này:

Ví dụ cụ thể nhé:

  • User-Agent: * : Cho phép tất cả các bot tìm kiếm truy cập vào website.
  • Allow: /wp-content/uploads/ :Cho phép bot vào folder uploads/
  • Disallow: /wp-content/plugins/ :không cho phép bot vào folder plugins/
  • Disallow: /wp-admin/ :Không cho phép bot vào folder wp-admin/

Ok dễ hiểu phải không nào, kiểu như:

Allow: -> Ê bot, mày được phép vào đây lấy thông tin.

Disallow: ->Cấm!….Không phận sự miễn vào.OK!?

Sitemap: ->Nhớ chưa, còn đây là bản đồ. Nhớ chừa những chỗ Cấm ra nghe mày!

Vui vậy cho các bạn dễ hiểu thôi :)) 

2.Quy tắc khi cấu hình Robots.txt

  • User-Agent: * (ký tự * là áp dụng cho tất cả bot) nếu bạn muốn chặn chính xác một bot nào đó thì bạn có thể tham khảo danh sách tất cả các loại Bot hoặc các bot của Google nhé.
  • Chỉ có thể tạo 1 tệp robots.txt cho website.
  • Tệp robots.txt phải nằm ở thư mục gốc của website.
  • Robots.txt phải là tệp văn bản ASCII hoặc UTF-8. Không cho phép ký tự nào khác.
  • Phân biệt chữ hoa và chữ thường.
  • Mỗi một chỉ thị được viết trên 1 (một) dòng.
  • Viết đúng, viết đủ, không thừa không thiếu ký tự.

Tuy nhiên, Có hai cân nhắc quan trọng khi sử dụng /robots.txt:

  1. Bot tìm kiếm có thể bỏ qua robots.txt. Đặc biệt là các robot phần mềm độc hại quét web để tìm lỗ hổng bảo mật và trình thu thập địa chỉ email được sử dụng bởi những kẻ gửi thư rác.
  2. tệp /robots.txt là một tệp có sẵn công khai nên bất cứ ai cũng có thể xem được nội dung trong đó.

Vì vậy, đừng cố sử dụng /robots.txt để ẩn thông tin.

3.Robots.txt cho WordPress: Liệu có cần thiết?

Nếu bạn không có một tập tin robots.txt, thì các công cụ tìm kiếm vẫn sẽ thu thập dữ liệu và lập chỉ mục trang web của bạn. Tuy nhiên, bạn sẽ không thể thông báo cho các công cụ tìm kiếm những trang hoặc thư mục nào họ không nên thu thập dữ liệu.

Điều này sẽ không ảnh hưởng nhiều khi bạn lần đầu tiên bắt đầu một blog và không có nhiều nội dung. Tuy nhiên, khi trang web của bạn phát triển và bạn có rất nhiều nội dung, thì bạn có thể muốn kiểm soát tốt hơn về việc website của bạn được thu thập và lập chỉ mục.

Câu hỏi đặt ra là trong trường hợp đó nếu không có robots.txt thì sao?

  • Việc thu nhập thông tin của bot sẽ không tối ưu thông tin trên toàn bộ website của bạn.
  • Làm chậm tốc độ lập chỉ mục trang web của bạn, làm chậm công tác đưa nội dung bài viết của bạn lên các công cụ tìm kiếm.

4.Một tệp robots.txt lý tưởng sẽ trông thế nào?

Nhiều blog phổ biến sử dụng tệp robots.txt rất đơn giản. Nội dung của chúng có thể khác nhau, tùy thuộc vào nhu cầu của trang web cụ thể:

Tệp robots.txt này cho phép tất cả các bot lập chỉ mục tất cả nội dung và cung cấp cho chúng một liên kết đến sitemaps XML.

Đối với các trang web WordPress, chúng tôi khuyên dùng các quy tắc sau trong tệp robots.txt:

Điều này nói với các bot tìm kiếm để lập chỉ mục tất cả các hình ảnh và tệp WordPress. Nó không cho phép các bot tìm kiếm lập chỉ mục các tệp plugin WordPress, khu vực quản trị WordPress, tệp readme WordPress và các liên kết tiếp thị (link tiếp thị liên kết).

Bằng cách thêm sơ đồ trang web vào tệp robots.txt, bạn có thể dễ dàng cho các bot của Google tìm thấy tất cả các trang trên trang web của bạn.

5.Tạo tệp Robots.txt trong WordPress?

Sẽ có 2 cách để bạn tạo, hãy chọn cách phù hợp nhất với bạn.

Cách 1: Chỉnh sửa tệp Robots.txt bằng SEO Yoast

Nếu bạn đang sử dụng plugin Yoast SEO, thì trong đó có hỗ trợ bạn tạo/chỉnh sửa tệp robots.txt

Trên trang Dashboard của bạn, chọn SEO > Công cụ (SEO>Tools nếu bạn sử dụng tiếng anh) và sau đó nhấp vào liên kết Trình chỉnh sửa tệp tin.

Tiếp theo, trang SEO Yoast sẽ hiển thị tệp robots.txt hiện tại của bạn. Nếu bạn không có một tập tin robots.txt, thì Yoast SEO sẽ tạo ra một tập tin robots.txt cho bạn.

Tệp robots.txt được tạo mới mặc định sẽ định dạng chặn tất cả các loại bot nên hãy xóa đi và viết lại nhé.

Sau khi xóa văn bản mặc định, bạn có thể tiếp tục và thêm quy tắc robots.txt của riêng mình. Chúng tôi khuyên bạn nên sử dụng định dạng robots.txt lý tưởng mà chúng tôi đã chia sẻ ở trên.

Ok xong rồi đó, nhớ là đừng quên lưu lại nhé :))

Cách 2: Chỉnh sửa tệp Robots.txt bằng tay sử dụng FTP/Cpanel/DirectAdmin

Nếu bạn là người quản trị toàn bộ website của mình thì bạn có thể sử dụng FTP hoặc sử dụng phần mềm quản lý hosting (Cpanel/DirectAdmin) để chỉnh sửa trực tiếp tệp robots.txt này.

Đối với Cpanel: Sau khi vào giao diện quản lý chung của Cpanel bạn chọn Bộ quản lý tệp 

Cửa sổ của Trình quản lý tệp hiện ra bạn chọn file robots.txt trong thư mục website chính của mình cần sửa để sửa hoặc thêm file nếu không có.

Nếu hosting của bạn cài đặt chạy 1 web thì web chính sẽ nằm trong folder public_html. 

6.Cách kiểm tra tệp Robots.txt

Có nhiều công cụ kiểm tra robots.txt, nhưng chúng tôi khuyên bạn nên sử dụng công cụ trong Google Search Console (nhớ đăng nhập vào tk Google của bạn để sử dụng nhé).

Công cụ sẽ tự động tìm nạp tệp robots.txt và thông báo các lỗi và cảnh báo nếu tìm thấy sai sót.

Kết

Mục tiêu tối ưu hóa tệp robots.txt của bạn là để ngăn các công cụ tìm kiếm thu thập dữ liệu các trang không công khai. Ví dụ: các trang trong thư mục wp-plugins hoặc các trang trong thư mục quản trị WordPress của bạn, từ đây giúp cải thiện tốc độ thu thập dữ liệu và dẫn đến việc lập chỉ mục nhanh hơn và xếp hạng website của bạn cao hơn. Hy vọng bài viết này đã giúp bạn tìm hiểu cách tối ưu hóa tệp robots.txt của WordPress cho SEO

Sending
User Review
0 (0 votes)

Về tác giả

Tiến Đức

Gửi phản hồi