Crawl và index là 2 công việc chính của Google bot nhưng chúng ta có thể hỗ trợ cho nó bằng cách điều chỉnh một số thứ trên website của mình. Những sự điều chỉnh trên site giúp cho bot làm tốt việc của nó hơn và giúp site có thứ hạng tốt hơn. 5 bước sau đây sẽ giúp bạn tối ưu khả năng được crawl và index của website.
Robots.txt là một file văn bản hướng dẫn Google bot trong việc crawl website. Ví dụ như chỉ cho nó danh mục được crawl. Những chỗ chứa dữ liệu nhạy cảm như trang login của người dùng hay tài khoản cá nhân thì không nên được crawl.
Khi tạo file robots.txt, điều quan trọng là bạn cho bot vào tất cả những trang mà bạn muốn website được hiển thị. Ví dụ, bạn không nên chặng CSS và JavaScript trong robots.txt.
Nếu bạn muốn bỏ những danh mục không được crawl vào file này thì bạn nhập vào dòng sau:
Dấu sao tượng trưng cho tất cả các trang trong danh mục đó. Bạn có thể lưu file trên Search Console hoặc theo đường dẫn seomxh.com/robots.txt
Mẹo nhỏ: Bạn có thể sử dụng search console để kiểm tra khả năng truy cập của bot vào site của mình.
Ngoài robots.txt còn một file nữa chiếm vị trí quan trọng trong việc crawl và index website là XML sitemap. Đây là một file mà robot đọc được, liệt kê tất cả những URL trên website. File này được lưu dưới dạng xml. Trong file này bạn có thể thêm thông tin khác ngoài URL như thời gian cập nhật URL và độ ưu tiên.
Khi bạn tạo file XML sitemap, hãy thêm nó vào Search Console để báo với Google các URL mà website có. Tuy nhiên, XML sitemap chỉ gợi ý URL cho bot thôi chứ thật ra không hướng dẫn cho nó cách crawl như robots.txt.
XML sitemap thường được làm rất qua loa mặc dù nó giúp ích cho bot rất nhiều khi crawl website đặc biệt là website mới và những web lớn. Ví dụ, bạn có content ích được link về từ các trang khác, nếu được liệt kê trong sitemap, Google sẽ biết được và crawl nó.
Cấu trúc của XML site map khi không có những yếu tố khác như sau:
Có rất nhiều cách để tạo sitemap. Một số CMS cho phép tạo sitemap tự động hoặc sử dụng các công cụ miễn phí.
Google cũng khuyên bạn nên chia sitemap ra khi có nhiều hơn 50,000 URL. Trong trường hợp này, sitemap sẽ là tập hợp của những sitemap con có dạng như sau:
Trong trường hợp bạn muốn Google recrawl lại nhanh chóng các trang khi thực hiện chỉ sửa bạn có thể vào Search Console để gửi link cho Google nhờ index lại. Bạn có thể thực hiện với 500 URL mỗi tháng cho mỗi website.
Google bot là chương trình được lập trình sẵn để crawl URL và sau đó index, xếp hạng nó. Để làm được điều này, bot có tài nguyên để sử dụng. Số trang được crawl và index phụ thuộc vào page rank của từng website, đồng nghĩa với việc tiếp cận dễ dàng hay không của bot tới trang web.
Một cấu trúc website được tối ưu sẽ giúp bot làm việc dễ dàng hơn. Cụ thể, một cấu trúc phẳng giúp cho bot có thể tiếp cận được mọi trang trên site. Cũng như người dùng, họ không bao giờ click hơn trang để xem nội dung muốn biết, Google cũng không muốn đi quá sâu nếu như cấu trúc link phức tạp.
Việc crawl của bot cũng bị ảnh hưởng bởi internal link nữa. Ví dụ như sử dụng thanh menu để điều hướng, bạn có thể cung cấp cho bot hướng đi tới các link sâu ở trong site. Bằng cách này các link quan trọng có thể dẫn trực tiếp từ trang chủ tới nhanh hơn. Cách sử dụng anchor để mô tả link đích cũng giúp bot có nhiều thông tin hơn để đánh giá content.
Để giúp bot crawl nhanh hơn, bạn nên giúp chúng hiểu được các thẻ <h>. Bạn cần sử dụng thẻ <h> theo một cấu trúc logic. Ví dụ sử dụng h1 cho tiêu đề và h2, h3 cho tiêu đề con…
Có nhiều CMS sử dụng thẻ h để format các tiêu đề trên site nhưng việc làm này có thể làm bối rối bot khi nó crawl. Bạn có thể sử dụng lại CSS để điều chỉnh chữ mà không sử dụng thẻ <h> bừa bãi.
Mỗi khi bot vào trang lỗi thì nó sẽ không thể đi tới những trang khác được và phải trở lại điểm xuất phát. Trình duyệt và bot thường không thể tìm thấy trang sau khi website xóa sản phẩm khỏi shop online hoặc thay đổi URL. Trong trường hợp này, server trả về lỗi 404. Tuy nhiên, lỗi này lặp lại nhiều có thể làm cho tiêu hao tài nguyên của bot.
Các trang mồ côi là trang mà nó không hề có link trỏ về nhưng có thể có external link đi ra ngoài. Bot có thể không thể vào crawl trang này hoặc bị bắt dừng lại không crawl tiếp. Cũng như lỗi 404, bạn nên tránh các trang mồ côi làm tiêu hao tài nguyên crawl.
Theo Google thì content trùng lặp không khiến website bị phạt. Tuy nhiên, nó không có nghĩa là bạn nên để chúng tồn tại trên site của mình. Nếu SEO không làm gì thì search engine sẽ tự chọn URL để hiển thị trên kết quả tìm kiếm. Hãy kiểm tra và kiểm soát URL mà Google hiển thị cho bạn, sử dụng 3 cách sau:
- 301 redirect: bạn có thể sử dụng để tránh phiên bản có www và không có. Bạn có thể sẽ phải vào .htaccess để đặt redirect vĩnh viễn
- Canonical: thông thường các shop sẽ gặp tình trạng này khi một sản phẩm có nhiều URL khác nhau. Bạn có thể sử dụng thẻ canonical để cho bot biết đâu là trang gốc của sản phẩm đó.
- Rel=alternate: thẻ này rất hữu ích với website có nhiều ngôn ngữ hoặc phiên bản desktop và mobile khác nhau. Thẻ này giúp cho Google bot biết đâu là URL phụ với cùng 1 content.
Kiểm tra dữ liệu trong Search Console thường xuyên là cách tốt nhất để hiểu Google crawl và index website như thế nào. Search Console cung cấp cho bạn nhiều hướng để tối ưu crawl cho web.
Còn đây là dữ liệu về tần suất Google bot vào thăm website của bạn và dung lượng dữ liệu mà nó download khi crawl. Những chỗ lõm xuống trên biểu đồ có thể là lỗi khi bot crawl website của bạn.
Những hướng dẫn trong bài viết này giúp bạn tối ưu website để được crawl và index tốt nhất bởi Google bot. Và điều này sẽ giúp website của bạn dễ dàng được tìm thấy hơn trên kết quả tìm kiếm.
Nguồn: SeoMXH.com
Tác giả: quanly | Đăng lúc: 21/10/16 10:02 | Lần sửa cuối: 21/10/16 10:02 | Số lượt xem: 5,091