使用nodejs实现网页爬虫功能的案例-亚博电竞手机版

这篇文章主要介绍了使用nodejs实现网页爬虫功能的案例,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。

网页源码

使用http.get()方法获取网页源码,以hao123网站的头条页面为例

http://tuijian.hao123.com/hotrank

varhttp=require('http'); http.get('http://tuijian.hao123.com/hotrank',function(res){vardata=''; res.on('data',function(chunk){ data =chunk; }); res.on('end',function(){ console.log(data); }) });

获得的结果如下所示:

              热点排行榜-头条新闻-hao123新闻导航_hao123上网导航         window.aid="nwrkrj61pjnyriyyrhfsrhbsnhb";   
hao123
导航

休闲娱乐

电影动漫综艺搞笑直播视频页游明星交友体育足球nba星座电视剧小游戏

生活服务

团购银行军事房产股票基金天气菜谱汽车地图招聘儿童母婴健康大学手机

其他类别

软件邮箱微博公益宠物杀毒设计电脑桌面行业摄影英语考试学习小清新一键登录vip俱乐部退出
  • 头条
  • 娱乐
  • 体育
  • 财经
  • 军事
  • 国内
  • 国际
  • 历史
  • 科技
  • 汽车
  • 教育
  • 游戏
  • 房产
  • 时尚
  • 热点排行
送考车要讲究毛坦厂中学送考规模庞大
江苏"拇指西瓜"上市可连皮食用
非洲女子嫁中国郎2年后成广场舞明星
广州一考生去错考场交警蜀黍紧急送考
福建小伙南非建安保公司持ak47与劫匪激战
老师拔河搞怪表情走红拔河如戏全靠演技

八卦热点

更多八卦>>
  • 男子上山寻宝挖出这物吓坏了!
  • 千年巨蛇镇守古墓竟借尸还魂
    地球是个监狱人类只是试验品!dna检测是叔叔的可爸爸是独子出差两月打开电饭锅后惊呆了女孩中大奖4年后怒告彩票公司印度神牛竟拉出300多颗钻石!21岁男孩吞云吐雾成烟雾之神!继母让3孩子喝农药,继女死亡惊呆!实拍假鸡蛋制作的全过程
{di:"u0000",tn:"sitehao123_03",rsi0:"1190",rsi1:"150",type:"metro",version:"201",style:"lichun"}

实时热点

排名关键词搜索指数
1美国逮捕女斯诺登35388
2成都隐秘母乳买卖34497
3曝周杰伦青涩旧照1457
4老头公交强吻女孩1033075王传君恋情曝光266166杭州现奇葩窗口268377忘带全班准考证1251278未成年持械拍网红167299秒揍儿子8拳9319310戴耳机穿轨道被撞195745

今日热点

排名关键词搜索指数
1北京回龙观大火174225
2选美冠军车祸身亡172447
32017高考1368064成都老火锅店被查1217295陈浩民娇妻秀身材1158776海边直播发现浮尸861577曝印小天遭妻骗婚837498苹果开发者大会7814096万斤鱼缺氧死亡6898410安以轩夏威夷大婚56675

民生热点

排名关键词搜索指数
1北京回龙观大火174225
22017高考136806
3成都老火锅店被查1217294海边直播发现浮尸861575苹果开发者大会7814066万斤鱼缺氧死亡689847北控外援训练猝死506878武汉男子裸体捅人458109多国与卡塔尔断交4447510美驻华外交官辞职44394

电影

排名关键词搜索指数
1神奇女侠40981
2异星觉醒15245
3新木乃伊71834中国推销员58905荡寇风云30066异兽来袭25667李雷和韩梅梅16368北极星11399美好的意外97110夏天19岁的肖像783

电视剧

排名关键词搜索指数
1龙珠传奇999788
2楚乔传538848
3欢乐颂22570154欢乐颂1767995职场是个技术活731026择天记672907美食大冒险617928废柴兄弟504199人民的名义4635310三生三世十里桃花24386

综艺

排名关键词搜索指数
1变形计223319
2来吧冠军151641
3拜托了冰箱1495964昆仑决1396335天生是优我1244726姐姐好饿996197脑力男人时代687358奔跑吧兄弟619039我想和你唱5924910玫瑰之旅50425
意见反馈
返回顶部
hao123上网导航第一品牌关于亚博vip888常见问题反馈意见全站地图京icp证030173号
下载
手机端
收藏
本站

筛选数据

  以网页中的综艺热点部分

  相关源代码如下

  通过分析可知,‘综艺’模块与其他模块都位于

中,其中,综艺模块的内层p的monkey='zy',综艺模块的10条综艺节目的信息都位于

中,综艺节目的名称位于

cheerio

  我们怎么从源代码中获取到有用的数据呢?首先,nodejs不支持document对象。如果要使用笨办法,只能使用正则表达式来处理

  cheerio 是nodejs特别为服务端定制的,能够快速灵活的对jquery核心进行实现。它工作于dom模型上,且解析、操作、呈送都很高效

【安装】

【使用】

  它的使用方法和jquery相当类似,上手非常容易。以获取综艺热度前10名的节目名称为例

varhttp=require('http'); varcheerio=require('cheerio'); http.get('http://tuijian.hao123.com/hotrank',function(res){ vardata=''; res.on('data',function(chunk){ data =chunk; }); res.on('end',function(){ filter(data); }) }); functionfilter(data){ //保存搜索量前10的综艺节目标题 varresult=[]; //将页面源代码转换为$对象 var$=cheerio.load(data); //查找每个综艺节目标题的外层div vartemp_arr=$('[monkey="zy"]').find('.point-bd').find('.point-title'); //将综艺节目标题依次保存到结果数组中 temp_arr.each(function(index,item){ result.push($(item).text()); }) //['变形计','来吧冠军','拜托了冰箱','昆仑决','天生是优我','姐姐好饿','脑力男人时代','奔跑吧兄弟','我想和你唱','玫瑰之旅'] console.log(result); }

爬虫代码

  下面将hao123网页中的'实时热点'、'今日热点'、'民生热点'、'电影'、'电视剧'、'综艺'这6部分的排名爬下来,分别到对象名为'result'中的数组中,分别命令为'ss'、'jr'、'ms'、'dy'、'dsj'、'zy'

【代码如下】

varhttp=require('http'); varcheerio=require('cheerio'); http.get('http://tuijian.hao123.com/hotrank',function(res){ vardata=''; res.on('data',function(chunk){ data =chunk; }); res.on('end',function(){ filter(data); }) }); functionfilter(data){ //保存各部分搜索量前10的名称 //对象名为榜单名,如'实时热点' //对象内容为10个标题名称组成的数组 varresult={}; //将页面源代码转换为$对象 var$=cheerio.load(data); //查找'实时热点'、'今日热点'、'民生热点'、'电影'、'电视剧'、'综艺'这6个榜单所在的div vartemp_div=$('.top-wrap');  //保存榜单名称 vartemp_title=[];  temp_div.each(function(index,item){ //查找榜单名,并保存到temp_title文件夹中 temp_title.push($(item).find('h3').text());  //查找每类下每个标题的外层div vartemp_arr=$(item).find('.point-bd').find('.point-title');  //将result下的每个榜单初始化为一个数组 varinnerresult=result[temp_title[index]]=[];  //将节目标题依次保存到相应榜单的数组中 temp_arr.each(function(_index,_item){ innerresult.push($(_item).text()) }) }) console.log(result); }

【结果如下】

{'实时热点': ['美国逮捕女斯诺登', '成都隐秘母乳买卖', '曝周杰伦青涩旧照', '老头公交强吻女孩', '王传君恋情曝光', '杭州现奇葩窗口', '忘带全班准考证', '未成年持械拍网红', '9秒揍儿子8拳', '戴耳机穿轨道被撞'], '今日热点': ['北京回龙观大火', '选美冠军车祸身亡', '2017高考', '成都老火锅店被查', '陈浩民娇妻秀身材', '海边直播发现浮尸', '曝印小天遭妻骗婚', '苹果开发者大会', '6万斤鱼缺氧死亡', '安以轩夏威夷大婚'], '民生热点': ['北京回龙观大火', '2017高考', '成都老火锅店被查', '海边直播发现浮尸', '苹果开发者大会', '6万斤鱼缺氧死亡', '北控外援训练猝死', '武汉男子裸体捅人', '多国与卡塔尔断交', '美驻华外交官辞职'], '电影': ['神奇女侠', '异星觉醒', '新木乃伊', '中国推销员', '荡寇风云', '异兽来袭', '李雷和韩梅梅', '北极星', '美好的意外', '夏天19岁的肖像'], '电视剧': ['龙珠传奇', '楚乔传', '欢乐颂2', '欢乐颂', '职场是个技术活', '择天记', '美食大冒险', '废柴兄弟', '人民的名义', '三生三世十里桃花'], '综艺': ['变形计', '来吧冠军', '拜托了冰箱', '昆仑决', '天生是优我', '姐姐好饿', '脑力男人时代', '奔跑吧兄弟', '我想和你唱', '玫瑰之旅']} [finishedin0.7s]

感谢你能够认真阅读完这篇文章,希望小编分享的“使用nodejs实现网页爬虫功能的案例”这篇文章对大家有帮助,同时也希望大家多多支持恰卡编程网,关注恰卡编程网行业资讯频道,更多相关知识等着你来学习!

展开全文
内容来源于互联网和用户投稿,文章中一旦含有亚博电竞手机版的联系方式务必识别真假,本站仅做信息展示不承担任何相关责任,如有侵权或涉及法律问题请联系亚博电竞手机版删除

最新文章

网站地图