当前位置首页 > 办公文档 > 工作计划
搜柄,搜必应! 快速导航 | 使用教程  [会员中心]

火车头采集教程火车头采集器使用说明

文档格式:DOC| 36 页|大小 4.30MB|积分 10|2022-09-08 发布|文档ID:149789392
第1页
下载文档到电脑,查找使用更方便 还剩页未读,继续阅读>>
1 / 36
此文档下载收益归作者所有 下载文档
  • 版权提示
  • 文本预览
  • 常见问题
  • 火车头 采集教程火车头采集器使用说明上图中,用红线圈住的LocoySpider.exe 是主程序,我们双击打开ps:这里说下,上图中,有好多任务是我自己用的新程序,并没有那么多我们会看到火车的界面,看起来非常复杂,是吧? 呵呵,其实并没有那么复杂,对于新手,有好多东西是用不到的下边会一一的讲解我们先补习一下,火车头采集软件的工作原理因为我们浏览到的网页,最后都是通过html输出的,那么意味着,我们可以查看到html的源码,那么火车头为什么会采集到内容呢?我们看下网站的基本结构 -------这些蓝色的东西,对于新手,我们不需要知道!网页的标题 ----红色的是网页的标题。

    如下图(1)内容                在这个和之间的,是网站的内容部分如下图(2) ----------这里是网站的结尾如果想查看一个网页的html源文件,之需要点击浏览器上的 查看,源文件即可1)(2)那么,我们知道了一个网页最基本的架构,那么就好理解火车采集的基本原理了火车采集软件是怎么采集的呢?我们配置好火车头采集规则,什么叫采集规则?就是我们查看网页的源文件,看看整个网页的源码,内容部分的开始标签,和结束标签,这样火车才能知道,我们要采集这个页面的哪个部分,比如下边我们演示的网页的标题内容我们想要采集“内容”那么就要告诉火车采集器,内容开始标签是,结束标签就是明白了么?呃。

    估计是我的表达能力不够好我们看下边的实例,在好好巩固下就OK那么我们开始一步一步教大家设置采集规则首先第一个我们的目标站discuz!x1.5架构的网站我们要把这个版块的内容以及回复都采集到我们的网站上去首先我们打开火车,新建一个站点点击火车左上角上的新建按钮,选择新建站点如下图我们只需要填写站点名就可以,其余的保持默认,然后点击保存按钮!然后在这个站点下,新建一个任务选中我们新建的站点,点击鼠标右键,选择第一个,从该站点新建任务如下图其中1,是任务的名字,必须填写2,是整个采集任务的步骤向导,3,是文章列表的设置区域(下边讲解),4,和3差不多5,是登录的地方,有些网址必须登录,我们才可以看到内容,就是这个东西!OK就这些,那么,我们一步一步的来!首先我们给我们的任务加一个标题下一步,我们就开始设置列表的采集规则(因为现在火车不知道 这个页面的文章列表是那些,所以我们要告诉火车!)这里有两种方式,新手嘛,我也不知道适合哪种我们就用默认的吧,第一种我们点击向导添加然后出现下图其中有4个选项卡,如果我们只采集目标站点的一个文章列表然后点击添加,点击完成就OK那么,如果我们要采集多个列表。

    那么我们回到 看下边的图其中1,是目标网站的地址其中2,是火车的通配符(就是某个东西识别的东西)其中3,是间隔数已经补零(下边一一讲解)其中4,数字变化下边讲解其中5,字母变化看下图图中在地址栏填写的是 这个那么,这是什么意思呢? 我们打开 这个地址,然后点击下一页发现地址变成了 那么我们在点击下一页,就是第三页,发现地址变成了 那么在点击第四页想必大家也知道变成什么了吧? 那么第一页:第二页:第三页:翻页中,我们发现,只有1在变化那么我们在火车那里就填写 这个,其中1用火车的通配符(*)替换掉意思就是,只有1在变化在看下边其中数字变化,从1到5.意思就是 从地址栏 1到5,就是下边这样的明白了么?其实很简单那么字母变化,就是 因为我们目标地址是数字变化我们继续看下边间隔倍数,和补零间隔倍数1是什么意思?40又是什么意思呢?间隔倍数1就是间隔倍数40就是明白了么?那么我们在看补零,补零就是就是这样其实很好理解我们继续我们填写完成后,点击添加 - 完成如下图到这里,我们的地址就添加完成了那么下边,我们来设置区域列表我们先设置第一个文章内容页面地址必须包含不得包含我们随便点开 这个网址中的两篇文章,看下URL。

    就是文章地址发现以上两个地址那么他们其中只有 红色部分在变动那么,文章内容必须包含我们写 这样就可以,那么我们点击“开始测试网址采集”这个时候,我们点开网站前边的+号发现,其实网址已经采集成功了其中的并不需要填写这是为什么呢?因为我们采集的页面 中的文章地址,就是 红色部分都会变动或者有可能变动所以我们加上通配符,所以我们不用填写这个,也可以采集成功那么,为了让大家更直白的了解火车,我们还是写一下那么我们打开 这个地址,在页面中,点击右键,选择“查看源文件”(因为不好截图发现上边的东西出现,都是一些猥琐的html代码我们怎么定义文章地址的区域呢?看下图我们复制页面中的“筛选”然后在页面源码中查找下,,,那么自然,下边的,就是文章地址的区域咯那么我们在这里,填写什么呢?我们要填写一个“唯一”的东西就是这个页面独有的一个,并且在文章地址上方的一个代码我们选择这段

    代码!然后我们复制
    这段代码,在我们打开的源文件中,向下查找看,看看有没有相同的。

    没有相同了那么我们在填写

    那么这里怎么填写呢?其实一样我们给下看看源码我们向上查找下OK....那么就填写.就OK照着这样填写就OK了其实这一步是多此一举只是教大家怎样填写罢了我们随便选中一条地址,双击鼠标左键直接跳到第二部,采集内容规则在这里,我们点击一下测试按钮发现,标题和内容都采集到了,但是在标题上,我们把目标站点的网站主标题也采集过来了是把整个页面乱七八糟的东西都采集过来了我们开始设置更精确的采集规则首先,我们设置标题现在默认的采集标题是 又出来个史上最强大的搜索引擎!!!!!!! - 无聊扯蛋 - 张家口市姚家房镇及周边地方娱乐门户站 - Powered by Discuz! 我们需要的标题是红色部分 我们双击上图被圈住的地方那么我们需要设置的地方就是那么我们现在采集到的标题是 又出来个史上最强大的搜索引擎!!!!!!! - 无聊扯蛋 - 张家口市姚家房镇及周边地方娱乐门户站 - Powered by Discuz! 这个,那么,我们只需要把蓝色的部分去掉怎么去掉呢?下图我们添加然后点击确定点击测试发现又出来个史上最强大的搜索引擎!!!!!!! - 无聊扯蛋 - 张家口市姚家房镇及周边地方娱乐门户站 - Powered by Discuz! 蓝色部分已经被去掉。

    那么我们这里来解释下上图中的开始字符串和结束字符串是什么呢?我们打开 这个页面,然后查看下源文件可以发现,在中就是我们要采集文章的标题,只是多了- 无聊扯蛋 - 张家口市姚家房镇及周边地方娱乐门户站 - Powered by Discuz! 这个,那么我们排除就可以了那为什么在中,要写成- (*) - 张家口市姚家房镇及周边地方娱乐门户站 - Powered by Discuz!这样的呢?为什么把 无聊扯蛋换成了(*)呢?因为我们可以看得出- 无聊扯蛋 - 张家口市姚家房镇及周边地方娱乐门户站 - Powered by Discuz! 无聊扯蛋 只是这个网站的一个版块,如果采集别的版块,那么 无聊扯蛋,就会变动到时候我们还得设置排除标签索性,我们把它改成通配符(*),那么在采集别的版块,就不用设置了那么其中的蓝色部分,是网站的主标题,在一般情况下是不会变动的所以不用搞成通配符我们就设置完成了下边来设置内容部分内容部分的采集规则设置,其实和列表一样!我们服饰内容,在源文件进行查找其中选中的部分,就是我们的内容部分我们在源码中 查找下

    这个标签,看看是不是唯一的。

    发现并不是唯一的而是每个楼层也就是回帖的内容都是用

    括起来的我们就输入上图所示在图中的 html标签排除我们全选因为我们之后的发布,是不支持发布附件的,也不支持html所以全部排除然后确定我们测试下其中内容和内容之间,用|||分割开了这是啥意思类?呵呵这个是循环匹配一个楼层与楼层之间的分隔符就是回复与回复之间的分隔符我也说不清楚啦这样就可以默认,保持不变就OK现在,标题也设置OK内容也OK接下来就是分页问题我们在源文件中查找“下一页”那么图中被选中的地方,就是下一页的全部源码那么,我们选中下一个的开始标签
    和结束标签
    ,对应输入到就可以了我们在分页内容合并链接代码这里输入|||这个至于什么意思就是分页嘛我也说不清楚总是输入就是了到这里,网址采集部分,和内容采集部分已经设置完毕了下边,我们要讲,发布现在开始讲解 火车头的发布因为我们需要发布到 我们的 discuz!x1.5的程序上那么,首先我们需要两个东西1.火车头的dz1.5的发布模块 (尘缘免费版)2.免登录接口 (尘缘免费版)那么下载地址。

    如果下载地址失效请加我QQ 索取 782711659下载后,解压我们需要配置接口我们进入接口文件夹并且进入对应编码的文件夹发现有两个php文件 其中的 Locoy.php是程序主文件,可以改名,Locoy.config.php是配置文件,不能改名那么我们先把Locoy.php的名字改掉我们改成 woca.php然后我们打开locoy.config.php 这个文件其中1,是发帖的用户,2,是回帖的用户这里我们可以填写自己的记得用|||分开这里说下,我们填写的用户名,可以是网站没有注册的,也可以是注册过的如果没有注册的,它会自动注册剩下其他的配置参数,可以根据自己的需要更改,都有注释,这里就不一一解释了更改完成后,我们把这两个文件上传到我们空间的根目录接口文件我们已经处理完毕我们开始处理发布模块进入火车我们导入圈中的模块因为我已经导入过了所以这里不用在图中圈住的地方我们要修改成我们自己改的名字记得在刷新列表那里也要修改模块基本完成了还有一点如果我们的版块开启了主题分类,,,那么我们还需要修改下模块比如我们要给维修知识里边发发现主题分类的typei=1 那么我们在发布模块中填写明白了呗? 呵呵。

    就这样我们的发布模块就配置完成了 我们保存给它加一个名字然后我们关闭当前的模块我们选中我们刚才修改过并且重命名的模块然后进行填写信息其中1,输入我们的网站地址2,把“目标网站需要登录的沟,去掉3.点击一下获取列表4,填写一个名字,并且保存配置在空白处,点击右键选择添加更多发布配置然后选中我们刚刚配置好的模块!选中,点击添加记得选中启用下一步,我们点击选择分类选择我们要发布的版块然后确定然后保存点击开始按钮采集内容列表中采集内容中发布成功偶尔有一两个发布失败那是有点帖子内容太少,而你的论坛设置帖子字数的原因Ok!!!!。

    点击阅读更多内容