Hướng dẫn lấy XPath khung chứa danh sách link

Bài viết nói về phần mềm:

Phần mềm lấy dữ liệu website Scan Web Pro


Đang hoạt động
Phiên bản: 1.1.4.7
Lần cuối cập nhật: 16/08/2024 18:07
Dùng thử 3 ngày
Bản quyền: CẤP 3

Quét dữ liệu có cấu trúc từ website bất kỳ.

Xem chi tiết

Trong phần mềm lấy dữ liệu website Scan Web Pro, khi website thay đổi cấu trúc thì cấu hình quét sẽ bị ảnh hưởng, có khi phải thay đổi để lấy được dữ liệu. Đơn cử trong bài viết này sẽ chỉ ra cách mà bạn phải xử lý tình huống nếu website thay đổi cấu trúc.

Trang web Bất Động Sản .com là một ví dụ về thay đổi cấu trúc tùy trang, tùy lúc vì vậy có khi bạn sẽ không lấy được danh sách link để tiến hành quét.

Cách lấy xPath phần mềm Scan Web Pro
Không lấy được danh sách link.

Trường hợp này thường là do XPath bị thay đổi vì vậy bạn cần chỉnh lại XPath trước khi lấy. Lưu ý đối với trang Bất Động Sản .com thường xảy ra trường hợp này: XPath khung chứa danh sách link không thống nhất - thay đổi tùy lúc, tùy trang vì vậy cách tốt nhất khi không lấy được link thì hãy cập nhật lại XPath.

Cách lấy xPath phần mềm Scan Web Pro
XPath thay đổi ngẫu nhiên nên phải cập nhật lại trước khi lấy.

Dưới đây là hướng dẫn lấy XPath của khung chứa danh sách link trang Bất Động Sản .com:

Cách lấy xPath phần mềm Scan Web Pro
Click chuột phải lên kết quả đầu tiên chọn Kiểm Tra

Cách lấy xPath phần mềm Scan Web Pro
Chọn thẻ div class="Main" : đây là khung chứa link - vùng bôi đen trên website.

Cách lấy xPath phần mềm Scan Web Pro
Click chuột phải lên thẻ khung chứa link > Copy > Copy XPath.

Cách lấy xPath phần mềm Scan Web Pro
Dán XPath vừa copy để cập nhật xong bấm BẮT ĐẦU LẤY.

Cách lấy xPath phần mềm Scan Web Pro
Đã lấy được danh sách link.

Từ hướng dẫn này bạn có thể lấy XPath của khung chứa link hoặc dữ liệu bất kỳ. Lưu ý rằng XPath giúp xác định vùng chứa dữ liệu, cách lấy XPath đảm bảo 3 yếu tố: nhỏ nhất, duy nhất và cố định.

Nhỏ nhất: Vùng chứa càng rộng thì quá trình lấy càng chậm và dễ bị nhập nhằng nếu có dữ liệu giống nhau (ảnh hưởng yêu tố duy nhất). Nhưng lấy càng nhỏ thì càng mất tính cố định.

Duy nhất: Vùng chứa phải đảm bảo dữ liệu là duy nhất, nếu có nhiều dữ liệu tương đối giống nhau thì phải tối ưu ở bước lấy tiếp theo: Regex.

Cố định: XPath càng ngắn, XPath theo ID là những dạng XPath ít thay đổi mỗi khi có thay đổi về cấu trúc website.

Phối hợp hài hòa các yêu tố trên bạn sẽ có một XPath hiệu quả.

Chúc bạn thành công.

phần mềm lấy thông tin từ website phần mềm scan web pro xpath phần mềm thu thập dữ liệu cấu hình quét

Thời gian đăng bài viết Tác giả: quanly | Thời gian đăng bài viết Đăng lúc: | Thời gian sửa lần cuối bài viết Lần sửa cuối: 03/07/18 10:51 | Đếm số lượt xem Số lượt xem: 9,428

Hãy là người đầu tiên viết bình luận