Quét dữ liệu có cấu trúc từ website bất kỳ.
Xem chi tiết
Phần mềm Scan Web Pro có thể quét được dữ liệu từ nhiều website khác nhau. Để quét được một website bạn cần phải tạo cấu hình quét cho website đó. Cấu hình quét là gì? Cấu hình quét là những cấu hình quét trang nào? và quét những dữ liệu gì?. Một cấu hình quét gồm có:
- Tên website cần quét
- Cách lấy những link cần quét trong website đó
- Cách lấy những trường dữ liệu mong muốn
Sau đây là một ví dụ cấu hình quét trangvangvietnam.com là:
- Tên miền: trangvangvietnam.com
- Cách lấy link: vào link có nhiều doanh nghiệp (như link chuyên mục hay link tìm kiếm) duyệt từng trang và lấy link chi tiết từng doanh nghiệp.
Duyệt từng trang và lấy từng link.
- Lấy dữ liệu: tên công ty, địa chỉ, MST, SĐT, Email trong link chi tiết doanh nghiệp.
Các trường dữ liệu cần lấy.
Để có thể khai báo các cấu hình trên bạn cần có kiến thức về XPath và Regex.
Phần mềm Scan Web Pro sử dụng 3 bước sau để lấy link cũng như lấy các trường dữ liệu:
- Bước 1: Xác định khung chứa đối tượng cần lấy bằng XPath.
- Bước 2: Lấy đối tượng bằng Regex trong khung chứa đã xác định ở Bước 1.
- Bước 3: Sử dụng thay thế (Replace) để loại bỏ những phần không cần thiết từ kết quả lấy được ở Bước 2.
Ngoài ba bước trên, để có dữ liệu chính xác còn có thêm các tùy chỉnh nhỏ như: giải mã, nối đầu, nối đuôi.
Ở đây mình không đi sâu vào hai thuật ngữ này mà chỉ nói phần liên quan sử dụng hai kỹ thuật này để tạo cấu hình quét website trong Phần mềm Scan Web Pro.
XPath là một chuỗi nhằm xác định một đối tượng trên trang web. XPath được dùng để xác định khung chứa đối tượng trong Phần mềm Scan Web Pro.
Ví dụ cần lấy MST thì bạn sẽ xác định XPath của khung chứa bên ngoài.
Để lấy được XPath, bạn nên dùng trình duyệt Google Chrome để kiểm tra phần tử. Click phải chuột lên đối tượng cần lấy chọn Kiểm tra.
Kiểm tra phần tử.
Cách xác định khung chứa.
Sau đi đã xác định khung chưa bằng cách kiểm tra phần tử, để lấy XPath ta chỉ cần click phải lên phần từ này và chọn copy XPath.
Cách lấy XPath của đối tượng.
Dán để xem kết quả lấy được: //*[@id="listing_detail_left"]/div[5]
>> Xem hướng dẫn lấy XPath khung chứa danh sách link trang Batdongsan .com
Regex là một chuỗi được định nghĩa để bắt một đối tượng trong văn bản. Regex được dùng để bắt dữ liệu khung chứa đã xác định bằng XPath. Cụ thể như sau:
Dùng Regex để bắt mã số thuế trong một nội dung HTML Code phức tạp.
Để tạo ra Regex bạn sẽ chắp nối các quy tắt của Regex như:
. : ký tự bất kỳ.
\s : khoảng trắng.
\r\n : xuống hàng.
\t : khoảng TAB.
\w : chữ.
\d : số.
* : không có hoặc có một hoặc có nhiều.
+ : có một hoặc có nhiều.
? : có hoặc không.
.* : chuỗi bất kỳ.
Với các định nghĩa trên là đủ dùng cho phần mềm Scan Web Pro, để xem đầy đủ các quy tắc của Regex bạn xem link này.
Để tạo Regex dễ dàng và trực quan bạn nên truy cập http://regexstorm.net/tester.
Regex bắt cụm có chứa Mã Số Thuế.
Giải thích chi tiết cách Regex bắt đối tượng.
Như vậy sau khi áp dụng Regex thì ta bắt được chuỗi chứa đối tượng MST. Để lấy MST ra từ kết quả này ta cần dùng Regex để bỏ phần đầu và đuôi đi.
Bỏ phần đầu và đuôi chỉ giữ lại phần MST.
Để bỏ phần đầu và đuôi này ta dùng Replace Regex (Bước 3) để thay thế đầu và đuôi bằng trống bằng cách cắt Regex thành 2 phần.
Replace đầu và đuôi Regex thành trống.
Như vậy Regex được sử dụng bắt chuỗi chứa đối tượng và dùng Replace Regex để lấy chính xác đối tượng.
Sau khi đã hiểu nguyên tắc và các kỹ thuật XPath và Regex bạn có thể áp dụng để tạo cấu hình quét website bất kỳ. Sau đây mình sẽ hướng dẫn tạo cấu hình quét website trangvangvietnam.com.
Vào mục cấu hình quét dữ liệu.
Tạo mới cấu hình quét: trangvangvietnam.com.
Thêm cấu hình quét mới.
Nhập tên cấu hình và URL website cần quét.
Trang này không cần đăng nhập vẫn thấy được dữ liệu nên bỏ check.
Thay số 3 bằng [SoTrang] ta sẽ có chuỗi nối trang.
Chuỗi nối trang.
Xác định XPath khung chứa tất cả các link doanh nghiệp.
Dán XPath khung chứa link vào.
Mẫu một link cần lấy.
Bạn có thể tạo Regex bắt nguyên cụm rồi sử dụng Replace Regex để bỏ đầu, bỏ đuôi sau, nhưng trong trường hợp này khá dễ để bắt chính xác bằng Regex.
Mở: http://regexstorm.net/tester
Tạo Regex bắt link doanh nghiệp.
Một mẫu Regex đơn giản để bắt link.
Nhập Regex vừa tạo vào.
Link chuyên mục hay link tìm lọc có nhiều kết quả.
Mẫu URL chứa nhiều link. Bạn có thể thay đổi mẫu này khi quét danh sách link.
Cách chia sẻ cấu hình: không chia sẻ / chia sẻ miễn phí / chia sẻ có phí.
Bấm thêm để hoàn tất cấu hình quét link.
Tới đây bạn có thể quét danh sách link cần lấy dữ liệu.
Vào mục Quét dữ liệu website > Chọn cấu hình vừa tạo để quét thử.
Nhập link cứa nhiều trang và danh sách trang cần lấy > BẮT ĐẦU LẤY.
Kết quả lấy.
Tiếp theo ta tiến hành khai báo các dữ liệu cần lấy và cách lấy các dữ liệu này.
Nếu thấy quá trình cấu hình phức tạp bạn có thể mua cấu hình có sẵn hoặc đặt hàng cấu hình theo yêu cầu.
>> Xem danh sách cấu hình iClick đăng bán
Bài viết chi tiết phần mềm lấy dữ liệu từ website Scan Web Pro.
Cần hỗ trợ thêm vui lòng liên hệ chúng tôi.
Chúc bạn thành công, iClick.
Tác giả: quanly | Đăng lúc: 09/04/18 11:30 | Lần sửa cuối: 09/04/18 11:30 | Số lượt xem: 62,622