本站所有内容仅限用于学习和研究目的,如有侵权请邮件与我们联系处理!
世上事本无难易,为之则易!

网站首页 蜘蛛池 蜘蛛池教程 正文

小旋风蜘蛛池如何写采集规则?

曹操 2019-12-04 蜘蛛池教程 7197 ℃ 5 评论 1443字 free 收藏

本文为小旋风蜘蛛池写后台采集规则的全套教程,如您会使用火车头采集器或者简数采集器,则本教程跳过,简单易用。

本文仅以小旋风蜘蛛池X6版本为例,如有不明白的地方可以在文末留言。

一、小旋风蜘蛛池如何采集标题

标题库采集还是很简单的,只需要设置一下采集源的地址就可以。  

首先添加采集规则,选择文章标题。  

小旋风蜘蛛池如何写采集规则?-第1张图片

分页的写法:  

http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_{p,1,9,1}.shtml

{p,1,5,1}表示分页,参数:p后面的数字分别代表开始、结束、递增/减值,即{p,开始,结束,递增/减值}  

http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_1.shtml
http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_2.shtml
http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_3.shtml
http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_4.shtml
http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_5.shtml
http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_6.shtml
http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_7.shtml
http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_8.shtml
http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_9.shtml

测试规则的时候可以从网址匹配里看到。  添加后,测试看看效果:

小旋风蜘蛛池如何写采集规则?-第2张图片

二、小旋风蜘蛛池如何采集句子及文章

添加规则:选择整篇内容或者句子段落  

比如说我们要采集新浪新闻,地址是:https://news.sina.com.cn/,就在列表配置选项的匹配网址里填上以上地址。

小旋风蜘蛛池如何写采集规则?-第3张图片

打开采集源的地址,选择其中一篇新闻。复制它的链接地址。  

小旋风蜘蛛池如何写采集规则?-第4张图片

这里的是地址是:https://news.sina.com.cn/c/2019-05-03/doc-ihvhiewr9625655.shtml  

然后,内容匹配规则可以这样写  

https://news.sina.com.cn/(w)/(d)-(d)-(d)/(w)-(w).shtml

内容截取规则:  

打开内容地址。右键查看源代码,找到内容区域。  

小旋风蜘蛛池如何写采集规则?-第5张图片

然后内容截取规则可以这样写:  

小旋风蜘蛛池如何写采集规则?-第6张图片

像新浪这种大型网站,它的内容页有些是不一样的,我们可以写多几个匹配。  

保存后,看看效果。 

小旋风蜘蛛池如何写采集规则?-第7张图片

注:您采集句子、文章的同时会自动采集到图片链接,所以不用担心您的内容库里面没有图片!

目录导航
  • 一、小旋风蜘蛛池如何采集标题
  • 二、小旋风蜘蛛池如何采集句子及文章

  • Tags:蜘蛛池教程蜘蛛池程序

    必看说明

    • 本站中所有被研究的素材与信息全部来源于互联网,版权争议与本站无关。
    • 本站文章或仅为文本内容原创,非程序原创。如有侵权、不妥之处,请联系站长第一时间删除。敬请谅解!
    • 本站所有内容严格遵守国家法律的条例,所有研究的算法技术均来源于搜索引擎公开默认允许用户研究使用的接口。
    • 阅读本文及获取资源前,请确保您已充分阅读并理解《访问曹操SEO网站需知:行为准则》。
    • 本站分享的任何工具、程序仅供学习参考编写架构,仅可在本地的虚拟机内断网测试,严禁联网运行或上传搭建!
    • 任何资源必须在下载后24个小时内,从电脑中彻底删除。不得传播或者用于其他任何用途!否则一切后果用户自负!
    • 转载请注明 : 文章转载自  曹操SEO 小旋风蜘蛛池如何写采集规则?
    • 本文标题:《小旋风蜘蛛池如何写采集规则?》
    • 本文链接:https://www.ccooc.cn/542.html

    已有5位网友发表了看法:

    • 气味儿

      气味儿  评论于 [2023-02-09 21:53:17]  回复

      采集到的文章发布后,无法正常在网站上显示,这要怎么解决

      • 访客

        访客  评论于 [2023-07-10 15:48:36]  回复

        伪静态没设置

      • 曹操

        曹操  评论于 [2023-02-14 18:27:18]  回复

        采集规则模型选择错误?排查一下

    • 访客

      访客  评论于 [2020-11-15 20:29:27]  回复

      小旋风8.11批量采集只有四条请问是哪里设置错了吗

    • 访客

      访客  评论于 [2020-04-06 20:22:52]  回复

      正则截取怎么写

    欢迎 发表评论:

    网站分类
    近期评论
    文章归档
    标签列表
    站点信息
    • 文章总数:2018
    • 页面总数:7
    • 分类总数:46
    • 标签总数:339
    • 评论总数:8848
    • 浏览总数:5149332