Quét dữ liệu có cấu trúc từ website bất kỳ.
Xem chi tiếtTính năng lấy dữ liệu bằng trình duyệt tự động trong phần mềm Scan Web Pro từ phiên bản 1.1.0.5 có hỗ trợ viết script (code) để thao tác với trình duyệt trong quá trình lấy dữ liệu. Đoạn Script sẽ thực hiện một số lệnh cơ bản đối với trình duyệt sau khi load và trước khi quét dữ liệu.
Thứ tự các công đoạn.
Các thao tác như bấm chuột, cuộn, thực thi javascript ... là cần thiết để quét dữ liệu trong một website. Lấy ví dụ như một số website cần bấm chuột mới thấy được Số Điện Thoại thì ta cần viết script bấm chuột. Cấu trúc script gồm có nhiều dòng lệnh từ trên xuống, mỗi dòng lệnh một hàng, mỗi dòng gồm có mã lệnh và thông số.
Dưới đây là một số lệnh cơ bản mà bạn có thể viết:
Mã lệnh | Tham số 1 | Tham số 2 | Ví dụ | Giải thích |
---|---|---|---|---|
wait | kiểu số (mili giây) | wait 200 | Chờ một lúc. Chờ một lúc 200 mili giây (= 1/5 giây). |
|
jscript | java script | jscript window.scroll(0,900); | Thực hiện java script. Cuộn cửa sổ trình duyệt xuống 900 pixel. |
|
click |
css selector | click a[id='login'] |
Bấm vào một phần tử trên website |
|
scroll | css selector | scroll a[id='login'] |
Kéo khung nhìn tới phần tử trên website. |
|
jscriptcss | java script | css selector | jscriptcss arguments[0].scrollIntoView(true) a[id='login'] |
Thực hiện java script lên một phần tử trên website. |
Lưu ý các script và các tham số cách nhau bằng khoảng trắng: jscriptcss arguments[0].scrollIntoView(true) a[id='login'] , lần lượt là mã lệnh, tham số 1, tham số 2. Trường hợp các tham số có chứa khoảng trắng thì bạn phải thay các khoảng trắng này bằng dấu ngã (~). Ví dụ: click a[class='new~button'].
Các lệnh trên sẽ được bổ sung trong các phiên bản tiếp theo để bạn có thể tùy ý điều khiển trình duyệt trước khi lấy dữ liệu.
Viết Script trong mục cấu hình thêm của cấu hình quét.
Vào sửa một cấu hình website > Cấu hình thêm.
Viết Script ở đây.
Có tất cả 2 đoạn script: dành cho khi lấy danh sách link và dành cho khi lấy dữ liệu.
Lưu ý một lần nữa là Script chỉ dành cho quá trình lấy dữ liệu bằng trình duyệt tự động Google Chrome, quá trình lấy bằng request không sử dụng script.
Viết Script chỉ dành cho những cấu hình lấy dữ liệu bằng cách mở trình duyệt tự động Google Chrome.
Cần hỗ trợ thêm về Script cũng như phần mềm Scan Web Pro vui lòng liên hệ chúng tôi.
Chúc bạn thành công, iClick.
Tác giả:
quanly
|
Đăng lúc: 04/07/18 15:22 |
Lần sửa cuối: 04/07/18 15:22 |
Số lượt xem: 13,049