20
2024
08
10:29:48

wordpress 胖鼠 创建一个列表采集规则教程

创建一个列表采集规则教程


通过简单学习掌握爬虫技巧是胖鼠采集的核心


必填配置介绍

必填配置介绍描述
采集地址采集地址
采集范围采集范围的选择,决定列表采集是否成功
采集规则Jquery一般填a 属性href 注意:如果在采集范围中已经定位到a标签这里可以留空
详情页采集区域包含住你想要的数据块即可
详情页采集规则Title Content 两个字段为必填项 两个字段必须都获取到数据才能采集成功


下图中输入框后标星为必填项。



Jquery选择器 id是#号 class是. 一定不要落下哦


我下面的例子中每个选择器都有 . 或者 # 大家放大图仔细看

寻仙例子

目标采集目标地址: 这是国内某游戏新闻列表页 //xx.qq.com/webplat/info/news_version3/154/2233/3889/m2702/list_1.shtml

如图所画:他每页有十篇新闻

红色区域就是我们本页面所有文章所对应的数据区块,下面来采集这个区块

列表采集范围为 .down-nr>ul>li
解释:
    我们使用规则 .down-nr 定位到 ul li 的外侧
    再使用.down-nr>ul>li 可以定位到每一个li,这样就达到循环采集目的
    范围选择错误可能只获取到一个数据

还能怎么写?
1 .down-nr li
2 .news-list>li
3 .news-list li
4 .sub-cont>.down-nr>ul>li
5 .sub-cont>.down-nr li
.....

列表采集规则 
link字段 Jquery选择器 = a:last 属性 = href
解释:
    a 是选择a标签意思,但是他有两个a标签,第一个是分类列表页,第二个是我们想要的
        :last 是选择最后一个

还能怎么写?
1 a:eq(1) eq等于的意思,程序从0开始
2 a[target="_blank"]
3 a[style="color:;"]
.....


写法很多,选择你喜欢的 要求能在Debug返回的结果中看到正确的数据




小提示规则范围定位的约小,采集时寻找页面的html dom节点越快


下面来采集详情页,第一步分析页面

  

详情采集范围为 .sub-cont
解释:
    因为他包括住了我们想要的 标题数据/内容数据

还能怎么写?
1 body 最大范围
2 .t-cont
3 #main
4 .right_in
.....

详情采集规则
title字段   Jquery选择器 = .n_title 属性 = text // 文本的意思
content字段 Jquery选择器 = #news_cnt 属性 = html // 顾名思义 内容没有html标签不好看

title字段还能怎么写?
1 h3
2 .right_in>h3
2 .right_in>.n_title

content字段还能怎么写?
1 .sub-nr
2 .right_in>.sub-nr
2 .right_in>#news_cnt


规则创建完成后,在采集中心点击采集按钮,默默等待提示成功即可



Debug调试功能在每个页面都有返回哦,列表采集,历史分页采集,微信、简书、知乎、详情采集都有返回调试信息




还有什么疑惑来找胖鼠把,祝鼠友开心愉快!





推荐本站淘宝优惠价购买喜欢的宝贝:

image.png

本文链接:https://www.hqyman.cn/post/7708.html 非本站原创文章欢迎转载,原创文章需保留本站地址!

分享到:
打赏





休息一下~~


« 上一篇 下一篇 »

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

请先 登录 再评论,若不是会员请先 注册

您的IP地址是: