当前位置: 首页 > news >正文

大快搜索数据爬虫技术实例安装教学篇

大快搜索数据爬虫技术实例安装教学篇

爬虫安装前准备工作:大快大数据平台安装完成、zookeeper、redis、elasticsearch、mysql等组件安装启动成功。

1、修改爬虫安装配置文件(最好在线下修改好后再上传平台)

clipboard.png

clipboard.png

2、修改crawlerdkcrwjdbc.properties配置文件(只修改图片里的内容其他内容默认即可)

clipboard.png

Hbase.zookeeper.quorum所填地址应在DKM监控平台查看:

clipboard.png

Redis相关配置看如下界面:

clipboard.png

3、把已修改的crawlerdkcrw下的jdbc.properties配置文件替换到crawlerdkcrw-tomcat-7.0.56webappsROOTWEB-INFclasses下(这下面有一个没有改好的直接替换)

clipboard.png

修改好后把修改好的爬虫文件打压成压缩文件
4、上传平台主节点并解压(这里就不介绍怎么上传了的了,本次例子是上传到root目录下,安装包上传到任何目录下都可以推选root目录)

clipboard.png

unzip 解压命令,解压唱功后会多了一个 cuawler 的文件夹

clipboard.png

使用cd crawler 命令进入 crawler 文件夹下

clipboard.png

使用mysql -uroot -p123456 < numysql.sql 命令添加numysql.sql数据库

clipboard.png

5、分发爬虫文件

clipboard.png

每个节点都需要有dkcrw文件, dkcrw-tomcat-7.0.56文件只能放在一个节点上,不能放在主节点上(推选放在从节点)
命令:
scp -r {要分发的文件名可填写多个,如果不在要分发文件的目录下请添加路径} {分发到的服务器ip或名称:分发到的路径}
例如:
cd /opt/dkh
scp -r dkcrw dk2:/opt/dkh/
scp -r dkcrw dkcrw-tomcat-7.0.56/ dk2:/opt/dkh/

clipboard.png

6、在分发了dkcrw-tomcat-7.0.56文件的节点上给文件添加权限
命令:
chmod -R 755 {需要给权限的文件等}
例如:
cd /opt/dkh
chmod -R 755 dkcrw dkcrw-tomcat-7.0.56/

clipboard.png

7、启动爬虫界面
命令:
cd /opt/dkh/dkcrw-tomcat-7.0.56/bin/
./startup.sh

clipboard.png

启动界面之后再浏览器中输入启动界面节点的IP,来打开爬虫界面看是否启动成功(账号密码是默认的)

clipboard.png

8、启动每个节点的dkcrw.jar
命令:
主节点运行
cd /opt/dkh/dkcrw/
nohup java -jar dkcrw.jar master > dkcrw.log 2>&1 &

从节点运行
cd /opt/dkh/dkcrw/
nohup java -jar dkcrw.jar slave > dkcrw.log 2>&1 &

注意:可以先使用前台启动爬虫,确定爬虫没错误。
前台启动命令java -jar dkcrw.jar master/slave

相关文章:

  • 解决项目不编译4大clean
  • 迭代器 /生成器 yield
  • mysql表与表之间的关系
  • 对标汽车之家,新势力杉车网的另类崛起
  • RabbitMq集群搭建
  • vue-cli2使用cdn方式引入cytoscape
  • VS2015 提示 无法启动 IIS Express Web 服务器
  • P5003 跳舞的线 - 乱拐弯
  • 阿里数据库十年变迁,那些你不知道的二三事
  • RTSP(Real Time Streaming Protocol)实时流传输协议详解
  • 《三块广告牌》
  • 【重磅】Spring Boot 2.1.0 权威发布
  • Laravel Telescope:优雅的应用调试工具
  • iOS 传感器集锦
  • 2018-2019-1 20165323 《信息安全系统设计基础》第七周学习总结
  • 77. Combinations
  • Redis 懒删除(lazy free)简史
  • Sass 快速入门教程
  • 动态魔术使用DBMS_SQL
  • 关键词挖掘技术哪家强(一)基于node.js技术开发一个关键字查询工具
  • 前端性能优化--懒加载和预加载
  • 数组的操作
  • 为什么要用IPython/Jupyter?
  • 详解移动APP与web APP的区别
  • 一份游戏开发学习路线
  • ​LeetCode解法汇总2304. 网格中的最小路径代价
  • ​猴子吃桃问题:每天都吃了前一天剩下的一半多一个。
  • ​马来语翻译中文去哪比较好?
  • #git 撤消对文件的更改
  • $con= MySQL有关填空题_2015年计算机二级考试《MySQL》提高练习题(10)
  • (2)STL算法之元素计数
  • (2/2) 为了理解 UWP 的启动流程,我从零开始创建了一个 UWP 程序
  • (9)STL算法之逆转旋转
  • (pojstep1.1.1)poj 1298(直叙式模拟)
  • (二)springcloud实战之config配置中心
  • (二十一)devops持续集成开发——使用jenkins的Docker Pipeline插件完成docker项目的pipeline流水线发布
  • (三)docker:Dockerfile构建容器运行jar包
  • (原創) 如何解决make kernel时『clock skew detected』的warning? (OS) (Linux)
  • (原創) 如何使用ISO C++讀寫BMP圖檔? (C/C++) (Image Processing)
  • (转)原始图像数据和PDF中的图像数据
  • (转载)微软数据挖掘算法:Microsoft 时序算法(5)
  • ./configure、make、make install 命令
  • .NET CF命令行调试器MDbg入门(三) 进程控制
  • .NET Framework 和 .NET Core 在默认情况下垃圾回收(GC)机制的不同(局部变量部分)
  • .NET 读取 JSON格式的数据
  • .Net 应用中使用dot trace进行性能诊断
  • .net企业级架构实战之7——Spring.net整合Asp.net mvc
  • /usr/lib/mysql/plugin权限_给数据库增加密码策略遇到的权限问题
  • @EnableAsync和@Async开始异步任务支持
  • [2016.7 day.5] T2
  • [android] 看博客学习hashCode()和equals()
  • [Android]常见的数据传递方式
  • [C++][数据结构][算法]单链式结构的深拷贝
  • [CareerCup] 6.1 Find Heavy Bottle 寻找重瓶子
  • [CF543A]/[CF544C]Writing Code