Hướng dẫn khai báo các trường dữ liệu cần quét

Bài viết nói về phần mềm:

Phần mềm lấy dữ liệu website Scan Web Pro


Đang hoạt động
Phiên bản: 1.1.4.7
Lần cuối cập nhật: 16/08/2024 18:07
Dùng thử 3 ngày
Bản quyền: CẤP 3
Phần mềm chạy hiện điều hành windows | Kiểu phần mềm Windows

Quét dữ liệu có cấu trúc từ website bất kỳ.

Xem chi tiết

Nội dung chính

 


Bài cần xem trước: Hướng dẫn khai báo cấu hình quét dữ liệu

Trong bài viết trên bạn đã biết cách khai báo cấu hình quét dữ liệu của một website và ví dụ là trangvangvietnam.com. Trong bài viết trước có các khái niệm về XPath, Regex, Regex Replace sẽ được áp dụng trong quá trình lấy các trường dữ liệu từ website.

Xin nhắc lại quá trình lấy một trường dữ liệu:

- Lấy khung XPath chứa trường dữ liệu.
- Dùng Regex bắt chuỗi "thô" có chứa giá trị dữ liệu.
- Dùng Regex Replace để bỏ đầu, bỏ đuôi, bỏ phần không cần thiết để lấy chính xác giá trị từ chuỗi "thô".
- Decode nếu giá trị dữ liệu bị mã hóa.
 

Khai báo cấu hình quét trường dữ liệu

Chọn website rồi bấm CẤU HÌNH để mở cửa sổ quản lý các trường dữ liệu cần quét.

Phần mềm lấy dữ liệu Scan Web Pro
Cấu hình các trường dữ liệu cần quét.

Phần mềm lấy dữ liệu Scan Web Pro
Bấm thêm để khai báo trường mới.

 

Phần mềm lấy dữ liệu Scan Web Pro

Nhập tên và mã tường dữ liệu cần lấy.

Phần mềm lấy dữ liệu Scan Web Pro
Xác định khung chứa tên công ty sau đó lấy XPath của khung đó.

Phần mềm lấy dữ liệu Scan Web Pro
Dán XPath vừa lấy được.N

Phần mềm lấy dữ liệu Scan Web Pro

 

Phần mềm lấy dữ liệu Scan Web Pro
Copy đoạn code HTML của khung này để tạo Regex.

Phần mềm lấy dữ liệu Scan Web Pro
Mở trang: http://regexstorm.net/tester

Phần mềm lấy dữ liệu Scan Web Pro
Dán code HTML khung chứa và tạo Regex để bắt tên công ty.

Phần mềm lấy dữ liệu Scan Web Pro
Dán Regex vừa tạo.

Phần mềm lấy dữ liệu Scan Web Pro
Không cần giải mã nên bỏ check ô Có giải mã.

Ta chỉ lấy tên công ty vì vậy bỏ phần đầu và đuôi không cần thiết.

Phần mềm lấy dữ liệu Scan Web Pro
Chỉ lấy phần tô xanh với Regex tương ứng (.*).

Bạn thêm hai Replace Regex bỏ đầu và đuôi từ Regex gốc:

Regex gốc bắt được chuỗi "thô": <div class="tencongty"><h1>.*</h1></div>

- Bỏ đầu: <div class="tencongty"><h1> đổi thành trống
- Bỏ đuôi: </h1></div> đổi thành trống

Phần mềm lấy dữ liệu Scan Web Pro
Thêm Replace Regex bỏ đầu.

Phần mềm lấy dữ liệu Scan Web Pro
Thêm Regex bỏ đuôi.

Phần mềm lấy dữ liệu Scan Web Pro
Hai Regex Replace được tạo để bỏ đầu và đuôi.

Bạn có thể thêm nhanh 2 Replace Regex bỏ đầu và đuôi này bằng cách bấm Thêm nhanh.

Phần mềm lấy dữ liệu Scan Web Pro
Thêm nhanh 2 Regex bỏ đầu và bỏ đuôi.

Ngoài ra bạn có thể dùng Groups ngay trong Regex để bắt đối tượng mà không cần dùng Replace từ phiên bản 1.1.0.3 trở đi.

Phần mềm lấy dữ liệu Scan Web Pro
Bấm THÊM để hoàn thất cấu hình quét trường Tên Công Ty.

Phần mềm lấy dữ liệu Scan Web Pro
Bạn tiếp tục khai báo các trường khai tương tự

Có các trường tương tự nhau, cùng khung chứa XPath thì bạn có thể dùng nút COPY để copy ra và sửa lại cho nhanh.

Phần mềm lấy dữ liệu Scan Web Pro
Sử dụng nút copy để copy và sửa lại trường dữ liệu tương tự nhau.

Phần mềm lấy dữ liệu Scan Web Pro
Cấu hình 6 trường dữ liệu cần lấy.

Một số lưu ý thêm:

 

Phần mềm lấy dữ liệu Scan Web Pro
Vì MST không nằm chung khung chứa nên có XPath khác.

Phần mềm lấy dữ liệu Scan Web Pro
Dữ liệu SĐT có thể bị mã hóa nên có chọn Giải mã.

Tiến hành quét

Sau khi chọn website để quét và đã quét danh sách link thì chỉ cần bấm QUÉT để bắt đầu lấy dữ liệu:

Phần mềm lấy dữ liệu Scan Web Pro
Bấm QUÉT để bắt đầu lấy dữ liệu.

Nếu bạn bổ sung, loại bỏ cột trong khi đã quét rồi thì phải quét lại từ đầu.

Phần mềm lấy dữ liệu Scan Web Pro
Quá trình quét.

Phần mềm lấy dữ liệu Scan Web Pro
ImageĐể quét lại, Click phải trong khung danh sách link và chọn Xem như chưa quét.

Phần mềm lấy dữ liệu Scan Web Pro
Mở menu chuột phải trong danh sách kết quả.

Phần mềm lấy dữ liệu Scan Web Pro
Xuất excel trong danh sách kết quả.

Đến đây là bạn có thể cấu hình lấy dữ liệu bất kỳ website nàobất kỳ trường dữ liệu nào.

Nếu thấy quá trình cấu hình phức tạp bạn có thể mua cấu hình có sẵn hoặc đặt hàng cấu hình theo yêu cầu.

Xem bài viết: Hướng dẫn khai báo cấu hình quét dữ liệu

Bài viết chi tiết: phần mềm lấy dữ liệu từ website Scan Web Pro.

Cần hỗ trợ thêm vui lòng liên hệ chúng tôi.

Chúc bạn thành công, iClick.

 

Nội dung chính

 

regex scan web pro phần mềm scan web pro xpath hướng dẫn lấy dữ liệu website khai báo trường dữ liệu cần lấy regex replace lọc thông tin website

Thời gian đăng bài viết Tác giả: quanly | Thời gian đăng bài viết Đăng lúc: | Thời gian sửa lần cuối bài viết Lần sửa cuối: 09/04/18 11:33 | Đếm số lượt xem Số lượt xem: 99,102

Danh sách 1 bình luận

Dũng
10/04/23 11:36:11
Hi ad, em làm đến bước thêm trường vào thì báo lỗi " Dữ liệu thành viên không khớp" Nhờ ad hướng dẫn lỗi ở đâu ạ
quanly
12/04/23 14:20:19
bạn chat zalo mình xem ạ 0909826364 ạ