当前位置: 首页 > news >正文

前嗅ForeSpider采集配置界面介绍

今天,小编为大家介绍一下,前嗅ForeSpider的采集配置界面,具体内容如下:

启动ForeSpider采集软件后,默认界面如图所示。ROOT任务下有已经配置好的示例模板,点击网站图标即可进行采集预览。可在任务列表选择某一任务按照需求重新配置。

clipboard.png

【采集配置界面】

1.任务列表

clipboard.png

【任务列表】
任务对应着采集来源,通常一个采集来源对应着一个任务。如采集人民网时,人民网就是一个任务;通过百度采集全网信息时,百度就是一个任务;通过100个网址导航采集全球域名时,这100个网址导航就是一个任务。

2.任务属性配置
用户可根据采集需求与网站的设置选择性的配置任务属性。
任务属性配置包括登录网站、关键词采集、浏览器采集、采集类型、禁用Cookie及Cookie设置6个部分。

clipboard.png

【任务属性配置】
(1)登录网站
如果采集源的数据需要登录才可以采集到,则需要配置登录信息。开启登录后,右侧会出现操作向导。
(2)关键词采集
当采集对象是搜索栏时,需要进行关键词配置。开启关键词采集后,右侧会出现操作向导。
当网站登录与采集登录同时开启时,可在任务属性配置栏右侧切换操作向导。

clipboard.png

【登录与关键词采集】
(3)浏览器采集
通过浏览器插件的方式采集数据。适用于大量JS生成且采集难度大的网页。对JS支持好,近乎于在浏览器上点击,但采集效率低。
(4)采集类型
采集类型分为默认(html)和本地文件目录两种。
(5)禁用Cookie
禁止使用Cookie解析网页。
(6)Cookie
当网站需要Cookie验证才能采集时,需要配置Cookie信息。

3.模板抽取配置

clipboard.png

【模板抽取配置】

删除模板、链接抽取或数据抽取。

添加链接抽取。

添加数据抽取。

(1)模板
模板通过一个示例地址,模板化同一层级的页面,从而达到批量采集的效果。一个模板对应一个层级的页面,因此同一层页面只能配置一个模板,填写一个示例地址,但是一个模板中可以创建多个链接、数据抽取,每个链接抽取都要关联其他模板。
通过模板之间的关联,模拟网站各页面的跳转关系。通过链接抽取,抽出网页中的链接。通过数据抽取,抓取网页中的数据。
(2)模板属性配置

clipboard.png

【模板属性配置】
①抽取类型选择
抽取类型包括链接抽取和数据抽取。

clipboard.png

【抽取类型选择】
②示例地址
示例地址作为样例,成为模板,通过以该地址配置模板,可以抓取与该地址在同一层级、具有相似结构的页面数据。
任务第一个模板的示例地址默认为创建任务时填写的采集地址。

clipboard.png

【示例地址】
③高级选项
高级选项包括字符编码、文档类型、网页类型、主题过滤、未匹配处理模板5个部分。(不常用功能)

clipboard.png

【高级选项】
(3)链接(网址)配置

clipboard.png

【链接(网址)配置】
①关联模板
关联模板是指该“链接抽取”抽取出的链接,其下一层级页面对应的模板,也就是在浏览器中,点击链接打开的下一层页面。通过模板之间的关联,可以将网站各层级页面关联起来,在软件中形成与浏览器相同的跳转结构,从而完整的采集数据。
②链接类型
链接类型可分为普通网页链接、图片视频等资源链接和自定义类型三种。默认选择普通网页链接。
③智能过滤
智能过滤可以一键过滤出,链接地址规律相同的链接。适用于大多数情况,如过滤的不正确,可以使用地址/标题过滤。
④定位过滤
定位过滤是通过内置浏览器定位,适用于所需链接都集中在一小片区域的情况。
⑤地址/标题过滤
为了在抽取的链接中去除无关链接,有两种过滤方式,配置方式相同。地址过滤是通过url地址的规律,过滤无关链接。标题过滤是通过链接标题的规律,过滤无关链接。
(4)数据属性配置

clipboard.png

【数据属性配置】
①数据表单
在ForeSpider爬虫中,表单是可以复用的,所以可以在数据表单出直接选择之前建过的表单,也可以通过表单ID来进行查找并关联数据表单。
②点击创建表达
若在数据抽取链接下,没有相应表单可供选择,可点击“创建表单”按钮,快速创建表单。可添加表单名称、字段名称,选择字段类型、表单模板。(>>快速建表/>>自由建表)
③数据存储方式
指的是数据采集时,在数据库里的存储方式。
④列表数据
识别列表用于存储表格/列表的数据,将表格/列表的不同列对应存入不同字段,表格/列表的不同行分别存储为数据表的多条记录。(>>如何采集列表/表格数据)

4.采集地址
采集对象的入口地址(url地址)。比如采集整个淘宝网全部商品的信息,淘宝网首页就是入口地址。比如只采集“女装”类别的商品信息,“女装”首页就是入口地址。

clipboard.png

【采集地址】

5.内置浏览器
模拟不同版本的浏览器。填入采集地址,可点击内置浏览器显示采集页面。

clipboard.png

【内置浏览器】

相关文章:

  • Weblogic发布小问题——weblogic.descriptor.DescriptorException: VALIDATION PROBLEMS WERE FOUND
  • POI生成Excel
  • 关于Yii中CGridView关联表字段的filter问题解决方法
  • 78. Subsets
  • 如何识别一个字符串是否Json格式
  • 全能App研发助手!滴滴开源DoraemonKit
  • 码农张的Bug人生 - 初来乍到
  • cesiumjs开发实践(四) 地形介绍
  • Linux的文件管理类命令
  • java android 将小数度数转换为度分秒格式
  • [译] React v16.8: 含有Hooks的版本
  • sping 面向切面编程之引入通知
  • 自定义标签简介
  • 一张图知道HTML5布局(图)
  • 七牛云假注销小指南
  • [笔记] php常见简单功能及函数
  • 07.Android之多媒体问题
  • 10个确保微服务与容器安全的最佳实践
  • C学习-枚举(九)
  • E-HPC支持多队列管理和自动伸缩
  • SQLServer之创建显式事务
  • SwizzleMethod 黑魔法
  • Transformer-XL: Unleashing the Potential of Attention Models
  • zookeeper系列(七)实战分布式命名服务
  • 干货 | 以太坊Mist负责人教你建立无服务器应用
  • 关于 Linux 进程的 UID、EUID、GID 和 EGID
  • 人脸识别最新开发经验demo
  • 如何使用 OAuth 2.0 将 LinkedIn 集成入 iOS 应用
  • 深入浅出webpack学习(1)--核心概念
  • 温故知新之javascript面向对象
  • ​configparser --- 配置文件解析器​
  • ​LeetCode解法汇总2670. 找出不同元素数目差数组
  • ​创新驱动,边缘计算领袖:亚马逊云科技海外服务器服务再进化
  • ​如何在iOS手机上查看应用日志
  • ###STL(标准模板库)
  • #多叉树深度遍历_结合深度学习的视频编码方法--帧内预测
  • #中的引用型是什么意识_Java中四种引用有什么区别以及应用场景
  • $(function(){})与(function($){....})(jQuery)的区别
  • (1)常见O(n^2)排序算法解析
  • (2)Java 简介
  • (cljs/run-at (JSVM. :browser) 搭建刚好可用的开发环境!)
  • (力扣)1314.矩阵区域和
  • (免费领源码)Python#MySQL图书馆管理系统071718-计算机毕业设计项目选题推荐
  • (三)模仿学习-Action数据的模仿
  • (一) springboot详细介绍
  • (转)关于如何学好游戏3D引擎编程的一些经验
  • .net core 控制台应用程序读取配置文件app.config
  • .NET Core 项目指定SDK版本
  • .net 验证控件和javaScript的冲突问题
  • .NET/C# 编译期能确定的字符串会在字符串暂存池中不会被 GC 垃圾回收掉
  • [1181]linux两台服务器之间传输文件和文件夹
  • [autojs]逍遥模拟器和vscode对接
  • [CSDN首发]鱿鱼游戏的具体玩法详细介绍
  • [EFI]Dell Latitude-7400电脑 Hackintosh 黑苹果efi引导文件
  • [ERROR ImagePull]: failed to pull image k8s.gcr.io/kube-controller-manager失败