Quét dữ liệu có cấu trúc từ website bất kỳ.
Xem chi tiết
Bài cần xem trước: Hướng dẫn khai báo cấu hình quét dữ liệu
Trong bài viết trên bạn đã biết cách khai báo cấu hình quét dữ liệu của một website và ví dụ là trangvangvietnam.com. Trong bài viết trước có các khái niệm về XPath, Regex, Regex Replace sẽ được áp dụng trong quá trình lấy các trường dữ liệu từ website.
Xin nhắc lại quá trình lấy một trường dữ liệu:
- Lấy khung XPath chứa trường dữ liệu.
- Dùng Regex bắt chuỗi "thô" có chứa giá trị dữ liệu.
- Dùng Regex Replace để bỏ đầu, bỏ đuôi, bỏ phần không cần thiết để lấy chính xác giá trị từ chuỗi "thô".
- Decode nếu giá trị dữ liệu bị mã hóa.
Chọn website rồi bấm CẤU HÌNH để mở cửa sổ quản lý các trường dữ liệu cần quét.
Cấu hình các trường dữ liệu cần quét.
Bấm thêm để khai báo trường mới.
Nhập tên và mã tường dữ liệu cần lấy.
Xác định khung chứa tên công ty sau đó lấy XPath của khung đó.
Dán XPath vừa lấy được.N
Copy đoạn code HTML của khung này để tạo Regex.
Mở trang: http://regexstorm.net/tester
Dán code HTML khung chứa và tạo Regex để bắt tên công ty.
Dán Regex vừa tạo.
Không cần giải mã nên bỏ check ô Có giải mã.
Ta chỉ lấy tên công ty vì vậy bỏ phần đầu và đuôi không cần thiết.
Chỉ lấy phần tô xanh với Regex tương ứng (.*).
Bạn thêm hai Replace Regex bỏ đầu và đuôi từ Regex gốc:
Regex gốc bắt được chuỗi "thô": <div class="tencongty"><h1>.*</h1></div>
- Bỏ đầu: <div class="tencongty"><h1> đổi thành trống
- Bỏ đuôi: </h1></div> đổi thành trống
Thêm Replace Regex bỏ đầu.
Thêm Regex bỏ đuôi.
Hai Regex Replace được tạo để bỏ đầu và đuôi.
Bạn có thể thêm nhanh 2 Replace Regex bỏ đầu và đuôi này bằng cách bấm Thêm nhanh.
Thêm nhanh 2 Regex bỏ đầu và bỏ đuôi.
Ngoài ra bạn có thể dùng Groups ngay trong Regex để bắt đối tượng mà không cần dùng Replace từ phiên bản 1.1.0.3 trở đi.
Bấm THÊM để hoàn thất cấu hình quét trường Tên Công Ty.
Bạn tiếp tục khai báo các trường khai tương tự
Có các trường tương tự nhau, cùng khung chứa XPath thì bạn có thể dùng nút COPY để copy ra và sửa lại cho nhanh.
Sử dụng nút copy để copy và sửa lại trường dữ liệu tương tự nhau.
Cấu hình 6 trường dữ liệu cần lấy.
Một số lưu ý thêm:
Vì MST không nằm chung khung chứa nên có XPath khác.
Dữ liệu SĐT có thể bị mã hóa nên có chọn Giải mã.
Sau khi chọn website để quét và đã quét danh sách link thì chỉ cần bấm QUÉT để bắt đầu lấy dữ liệu:
Bấm QUÉT để bắt đầu lấy dữ liệu.
Nếu bạn bổ sung, loại bỏ cột trong khi đã quét rồi thì phải quét lại từ đầu.
Quá trình quét.
ImageĐể quét lại, Click phải trong khung danh sách link và chọn Xem như chưa quét.
Mở menu chuột phải trong danh sách kết quả.
Xuất excel trong danh sách kết quả.
Đến đây là bạn có thể cấu hình lấy dữ liệu bất kỳ website nào và bất kỳ trường dữ liệu nào.
Nếu thấy quá trình cấu hình phức tạp bạn có thể mua cấu hình có sẵn hoặc đặt hàng cấu hình theo yêu cầu.
Xem bài viết: Hướng dẫn khai báo cấu hình quét dữ liệu
Bài viết chi tiết: phần mềm lấy dữ liệu từ website Scan Web Pro.
Cần hỗ trợ thêm vui lòng liên hệ chúng tôi.
Chúc bạn thành công, iClick.
Tác giả: quanly | Đăng lúc: 09/04/18 11:33 | Lần sửa cuối: 09/04/18 11:33 | Số lượt xem: 99,102