Hướng dẫn cấu hình quét dữ liệu website

Bài viết nói về phần mềm:

Phần mềm lấy dữ liệu website Scan Web Pro


Đang hoạt động
Phiên bản: 1.1.4.7
Lần cuối cập nhật: 16/08/2024 18:07
Dùng thử 3 ngày
Bản quyền: CẤP 3
Phần mềm chạy hiện điều hành windows | Kiểu phần mềm Windows

Quét dữ liệu có cấu trúc từ website bất kỳ.

Xem chi tiết

Nội dung chính

 

Cấu hình quét

Phần mềm Scan Web Pro có thể quét được dữ liệu từ nhiều website khác nhau. Để quét được một website bạn cần phải tạo cấu hình quét cho website đó. Cấu hình quét là gì? Cấu hình quét là những cấu hình quét trang nào?quét những dữ liệu gì?. Một cấu hình quét gồm có:

- Tên website cần quét
- Cách lấy những link cần quét trong website đó
- Cách lấy những trường dữ liệu mong muốn

Sau đây là một ví dụ cấu hình quét trangvangvietnam.com là:

- Tên miền: trangvangvietnam.com
- Cách lấy link: vào link có nhiều doanh nghiệp (như link chuyên mục hay link tìm kiếm) duyệt từng trang và lấy link chi tiết từng doanh nghiệp.

Phần mềm lấy dữ liệu từ website Scan Web Pro
Duyệt từng trang và lấy từng link.

- Lấy dữ liệu: tên công ty, địa chỉ, MST, SĐT, Email trong link chi tiết doanh nghiệp.

Phần mềm lấy dữ liệu từ website Scan Web Pro

 

Phần mềm lấy dữ liệu từ website Scan Web Pro
Các trường dữ liệu cần lấy.

Để có thể khai báo các cấu hình trên bạn cần có kiến thức về XPathRegex.

Ba bước để lấy dữ liệu trên website

Phần mềm Scan Web Pro sử dụng 3 bước sau để lấy link cũng như lấy các trường dữ liệu:

- Bước 1: Xác định khung chứa đối tượng cần lấy bằng XPath.
- Bước 2: Lấy đối tượng bằng Regex trong khung chứa đã xác định ở Bước 1.
- Bước 3: Sử dụng thay thế (Replace) để loại bỏ những phần không cần thiết từ kết quả lấy được ở Bước 2.

Ngoài ba bước trên, để có dữ liệu chính xác còn có thêm các tùy chỉnh nhỏ như: giải mã, nối đầu, nối đuôi.

XPathRegex

Ở đây mình không đi sâu vào hai thuật ngữ này mà chỉ nói phần liên quan sử dụng hai kỹ thuật này để tạo cấu hình quét website trong Phần mềm Scan Web Pro.

XPath là gì? Cách lấy XPath

XPath là một chuỗi nhằm xác định một đối tượng trên trang web. XPath được dùng để xác định khung chứa đối tượng trong Phần mềm Scan Web Pro.

Phần mềm lấy dữ liệu từ website Scan Web Pro
Ví dụ cần lấy MST thì bạn sẽ xác định XPath của khung chứa bên ngoài.

Để lấy được XPath, bạn nên dùng trình duyệt Google Chrome để kiểm tra phần tử. Click phải chuột lên đối tượng cần lấy chọn Kiểm tra.

Phần mềm lấy dữ liệu từ website Scan Web Pro
Kiểm tra phần tử.

Phần mềm lấy dữ liệu từ website Scan Web Pro
Cách xác định khung chứa.

Sau đi đã xác định khung chưa bằng cách kiểm tra phần tử, để lấy XPath ta chỉ cần click phải lên phần từ này và chọn copy XPath.

Phần mềm lấy dữ liệu từ website Scan Web Pro
Cách lấy XPath của đối tượng.

Dán để xem kết quả lấy được: //*[@id="listing_detail_left"]/div[5]

>> Xem hướng dẫn lấy XPath khung chứa danh sách link trang Batdongsan .com

Regex là gì? Cách tạo Regex

Regex là một chuỗi được định nghĩa để bắt một đối tượng trong văn bản. Regex được dùng để bắt dữ liệu khung chứa đã xác định bằng XPath. Cụ thể như sau:

Phần mềm lấy dữ liệu từ website Scan Web Pro
Dùng Regex để bắt mã số thuế trong một nội dung HTML Code phức tạp.

Để tạo ra Regex bạn sẽ chắp nối các quy tắt của Regex như:

. : ký tự bất kỳ.
\s : khoảng trắng.
\r\n : xuống hàng.
\t : khoảng TAB.
\w : chữ.
\d : số.
* : không có hoặc có một hoặc có nhiều.
+ : có một hoặc có nhiều.
? : có hoặc không.
.* : chuỗi bất kỳ.

Với các định nghĩa trên là đủ dùng cho phần mềm Scan Web Pro, để xem đầy đủ các quy tắc của Regex bạn xem link này.

Để tạo Regex dễ dàng và trực quan bạn nên truy cập http://regexstorm.net/tester.

Phần mềm lấy dữ liệu từ website Scan Web Pro
Regex bắt cụm có chứa Mã Số Thuế.

Phần mềm lấy dữ liệu từ website Scan Web Pro
Giải thích chi tiết cách Regex bắt đối tượng.

Như vậy sau khi áp dụng Regex thì ta bắt được chuỗi chứa đối tượng MST. Để lấy MST ra từ kết quả này ta cần dùng Regex để bỏ phần đầu và đuôi đi.

Phần mềm lấy dữ liệu từ website Scan Web Pro
Bỏ phần đầu và đuôi chỉ giữ lại phần MST.

Để bỏ phần đầu và đuôi này ta dùng Replace Regex (Bước 3) để thay thế đầu và đuôi bằng trống bằng cách cắt Regex thành 2 phần.

Phần mềm lấy dữ liệu từ website Scan Web Pro
Replace đầu và đuôi Regex thành trống.

Như vậy Regex được sử dụng bắt chuỗi chứa đối tượng và dùng Replace Regex để lấy chính xác đối tượng.

Áp dụng vào Phần mềm Scan Web Pro

Sau khi đã hiểu nguyên tắc và các kỹ thuật XPathRegex bạn có thể áp dụng để tạo cấu hình quét website bất kỳ. Sau đây mình sẽ hướng dẫn tạo cấu hình quét website trangvangvietnam.com.

Phần mềm lấy dữ liệu từ website Scan Web Pro
Vào mục cấu hình quét dữ liệu.

Tạo mới cấu hình quét: trangvangvietnam.com.

Phần mềm lấy dữ liệu từ website Scan Web Pro
Thêm cấu hình quét mới.

Phần mềm lấy dữ liệu từ website Scan Web Pro
Nhập tên cấu hình và URL website cần quét.

Phần mềm lấy dữ liệu từ website Scan Web Pro
Trang này không cần đăng nhập vẫn thấy được dữ liệu nên bỏ check.

Phần mềm lấy dữ liệu từ website Scan Web Pro

Thay số 3 bằng [SoTrang] ta sẽ có chuỗi nối trang.

 

Phần mềm lấy dữ liệu từ website Scan Web Pro


Chuỗi nối trang.

 

 

Phần mềm lấy dữ liệu từ website Scan Web Pro
Xác định XPath khung chứa tất cả các link doanh nghiệp.

Phần mềm lấy dữ liệu từ website Scan Web Pro
Dán XPath khung chứa link vào.

Phần mềm lấy dữ liệu từ website Scan Web Pro
Mẫu một link cần lấy.

Bạn có thể tạo Regex bắt nguyên cụm rồi sử dụng Replace Regex để bỏ đầu, bỏ đuôi sau, nhưng trong trường hợp này khá dễ để bắt chính xác bằng Regex.

Phần mềm lấy dữ liệu từ website Scan Web Pro
Mở: http://regexstorm.net/tester

Phần mềm lấy dữ liệu từ website Scan Web Pro
Tạo Regex bắt link doanh nghiệp.

Phần mềm lấy dữ liệu từ website Scan Web Pro
Một mẫu Regex đơn giản để bắt link.

Phần mềm lấy dữ liệu từ website Scan Web Pro
Nhập Regex vừa tạo vào.

Phần mềm lấy dữ liệu từ website Scan Web Pro
Link chuyên mục hay link tìm lọc có nhiều kết quả.

Phần mềm lấy dữ liệu từ website Scan Web Pro
Mẫu URL chứa nhiều link. Bạn có thể thay đổi mẫu này khi quét danh sách link.

Phần mềm lấy dữ liệu từ website Scan Web Pro
Cách chia sẻ cấu hình: không chia sẻ / chia sẻ miễn phí / chia sẻ có phí.

Phần mềm lấy dữ liệu từ website Scan Web Pro
Bấm thêm để hoàn tất cấu hình quét link.

Tới đây bạn có thể quét danh sách link cần lấy dữ liệu.

Phần mềm lấy dữ liệu từ website Scan Web Pro
Vào mục Quét dữ liệu website > Chọn cấu hình vừa tạo để quét thử.

Phần mềm lấy dữ liệu từ website Scan Web Pro
Nhập link cứa nhiều trang và danh sách trang cần lấy > BẮT ĐẦU LẤY.

Phần mềm lấy dữ liệu từ website Scan Web Pro
Kết quả lấy.

Tiếp theo ta tiến hành khai báo các dữ liệu cần lấy và cách lấy các dữ liệu này.

Nếu thấy quá trình cấu hình phức tạp bạn có thể mua cấu hình có sẵn hoặc đặt hàng cấu hình theo yêu cầu.

>> Xem danh sách cấu hình iClick đăng bán

Bài viết chi tiết phần mềm lấy dữ liệu từ website Scan Web Pro.

Cần hỗ trợ thêm vui lòng liên hệ chúng tôi.

Chúc bạn thành công, iClick.

 

Nội dung chính

 

hướng dẫn viết cấu hình quét website regex regex pattern scan web pro phần mềm scan web pro lấy dữ liệu từ website cấu hình quét dữ liệu website xpath cách lấy dữ liệu website hướng dẫn lấy dữ liệu website

Thời gian đăng bài viết Tác giả: quanly | Thời gian đăng bài viết Đăng lúc: | Thời gian sửa lần cuối bài viết Lần sửa cuối: 09/04/18 11:30 | Đếm số lượt xem Số lượt xem: 62,622

Hãy là người đầu tiên viết bình luận