Quét dữ liệu có cấu trúc từ website bất kỳ.
Xem chi tiếtTrong phần mềm lấy dữ liệu website Scan Web Pro, khi website thay đổi cấu trúc thì cấu hình quét sẽ bị ảnh hưởng, có khi phải thay đổi để lấy được dữ liệu. Đơn cử trong bài viết này sẽ chỉ ra cách mà bạn phải xử lý tình huống nếu website thay đổi cấu trúc.
Trang web Bất Động Sản .com là một ví dụ về thay đổi cấu trúc tùy trang, tùy lúc vì vậy có khi bạn sẽ không lấy được danh sách link để tiến hành quét.
Không lấy được danh sách link.
Trường hợp này thường là do XPath bị thay đổi vì vậy bạn cần chỉnh lại XPath trước khi lấy. Lưu ý đối với trang Bất Động Sản .com thường xảy ra trường hợp này: XPath khung chứa danh sách link không thống nhất - thay đổi tùy lúc, tùy trang vì vậy cách tốt nhất khi không lấy được link thì hãy cập nhật lại XPath.
XPath thay đổi ngẫu nhiên nên phải cập nhật lại trước khi lấy.
Dưới đây là hướng dẫn lấy XPath của khung chứa danh sách link trang Bất Động Sản .com:
Click chuột phải lên kết quả đầu tiên chọn Kiểm Tra
Chọn thẻ div class="Main" : đây là khung chứa link - vùng bôi đen trên website.
Click chuột phải lên thẻ khung chứa link > Copy > Copy XPath.
Dán XPath vừa copy để cập nhật xong bấm BẮT ĐẦU LẤY.
Đã lấy được danh sách link.
Từ hướng dẫn này bạn có thể lấy XPath của khung chứa link hoặc dữ liệu bất kỳ. Lưu ý rằng XPath giúp xác định vùng chứa dữ liệu, cách lấy XPath đảm bảo 3 yếu tố: nhỏ nhất, duy nhất và cố định.
Nhỏ nhất: Vùng chứa càng rộng thì quá trình lấy càng chậm và dễ bị nhập nhằng nếu có dữ liệu giống nhau (ảnh hưởng yêu tố duy nhất). Nhưng lấy càng nhỏ thì càng mất tính cố định.
Duy nhất: Vùng chứa phải đảm bảo dữ liệu là duy nhất, nếu có nhiều dữ liệu tương đối giống nhau thì phải tối ưu ở bước lấy tiếp theo: Regex.
Cố định: XPath càng ngắn, XPath theo ID là những dạng XPath ít thay đổi mỗi khi có thay đổi về cấu trúc website.
Phối hợp hài hòa các yêu tố trên bạn sẽ có một XPath hiệu quả.
Chúc bạn thành công.
Tác giả:
quanly
|
Đăng lúc: 03/07/18 10:51 |
Lần sửa cuối: 03/07/18 10:51 |
Số lượt xem: 9,428