相思资源网 Design By www.200059.com
之前看了很多个版本,自己也搞一个。
1. 支持指定保存到哪个目录
2. 按文章进行分目录存放
3. 支持设置并行下载上限
下次有空再搞个整站下载的。
package.json
{ "name": "me2sex-images", "version": "0.0.1", "description": "Batch download images from http://me2-sex.lofter.com", "main": "index.js", "author": "Fay", "license": "MIT", "dependencies": { "async": "^0.9.0", "cheerio": "^0.18.0", "mkdirp": "^0.5.0", "request": "^2.51.0", "url": "^0.10.2", "xml2js": "^0.4.4" } }
index.js
var node = { async: require('async'), cheerio: require('cheerio'), fs: require('fs'), mkdirp: require('mkdirp'), path: require('path'), request: require('request'), url: require('url'), xml2js: require('xml2js'), }; var Me2SexImages = { /** * 配置选项 */ options: { // 网站sitemap地址 sitemap: 'http://sexy.faceks.com/sitemap.xml', // 保存到此文件夹 saveTo: '/Users/Fay/Pictures/me2sex', // 图片并行下载上限 downLimit: 5, }, posts: [], /** * 开始下载(程序入口函数) */ start: function() { var self = this; var async = node.async; async.waterfall([ self.wrapTask(self.sitemapXML), self.wrapTask(self.sitemapJSON), self.wrapTask(self.downAllImages), ], function(err, result) { if (err) { console.log('error: %s', err.message); } else { console.log('success: 下载成功'); } }); }, /** * 包裹任务,确保原任务的上下文指向某个特定对象 * @param {Function} task 符合asycs.js调用方式的任务函数 * @param {Any} context 上下文 * @param {Array} exArgs 额外的参数 * @return {Function} 符合asycs.js调用方式的任务函数 */ wrapTask: function(task, context, exArgs) { var self = this; return function() { var args = [].slice.call(arguments); args = exArgs ? exArgs.concat(args) : args; task.apply(context || self, args); }; }, /** * 获取站点sitemap.xml */ sitemapXML: function(callback) { console.log('开始下载sitemap.xml'); node.request(this.options.sitemap, function(err, res, body) { if (!err) console.log('下载sitemap.xml成功'); callback(err, body); }); }, /** * 将sitemap.xml转成json */ sitemapJSON: function(sitemapXML, callback) { var self = this; console.log('开始解析sitemap.xml'); node.xml2js.parseString(sitemapXML, {explicitArray: false}, function(err, json) { if (!err) { self.posts = json.urlset.url; self.posts.shift(); console.log('解析sitemap.xml成功,共有%d个页面', self.posts.length); } callback(err, self.posts); }); }, /** * 下载整站图片 */ downAllImages: function(callback) { var self = this; var async = node.async; console.log('开始批量下载'); async.eachSeries(self.posts, self.wrapTask(self.downPostImages), callback); }, /** * 下载单个post的图片 * @param {Object} post 文章 */ downPostImages: function(post, callback) { var self = this; var async = node.async; async.waterfall([ self.wrapTask(self.mkdir, self, [post]), self.wrapTask(self.getPost), self.wrapTask(self.parsePost), self.wrapTask(self.downImages), ], callback); }, mkdir: function(post, callback) { var path = node.path; var url = node.url.parse(post.loc); post.dir = path.join(this.options.saveTo, path.basename(url.pathname)); console.log('准备创建目录:%s', post.dir); if (node.fs.existsSync(post.dir)) { callback(null, post); console.log('目录:%s 已经存在', post.dir); return; } node.mkdirp(post.dir, function(err) { callback(err, post); console.log('目录:%s 创建成功', post.dir); }); }, /** * 获取post内容 */ getPost: function(post, callback) { console.log('开始请求页面:%s', post.loc); node.request(post.loc, function(err, res, body) { if (!err) post.html = body; callback(err, post); console.log('请求页面成功:%s', post.loc); }); }, /** * 解析post,并获取post中的图片列表 */ parsePost: function(post, callback) { var $ = post.$ = node.cheerio.load(post.html); post.images = $('.img') .map(function() {return $(this).attr('bigimgsrc');}) .toArray(); callback(null, post); }, /** * 下载post图片列表中的图片 */ downImages: function(post, callback) { console.log('发现%d张妹子图片,准备开始下载...', post.images.length); node.async.eachLimit( post.images, this.options.downLimit, this.wrapTask(this.downImage, this, [post]), callback ); }, /** * 下载单个图片 */ downImage: function(post, imgsrc, callback) { var url = node.url.parse(imgsrc); var fileName = node.path.basename(url.pathname); var toPath = node.path.join(post.dir, fileName); console.log('开始下载图片:%s,保存到:%s,文件名:%s', imgsrc, post.dir, fileName); node.request(imgsrc) .pipe(node.fs.createWriteStream(toPath)) .on('close', function() { console.log('图片下载成功:%s', imgsrc); callback(); }) .on('error', callback); } }; Me2SexImages.start();
以上所述就是本文的全部内容,希望大家能够喜欢。
标签:
nodejs,抓取美女图片
相思资源网 Design By www.200059.com
广告合作:本站广告合作请联系QQ:858582 申请时备注:广告合作(否则不回)
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
相思资源网 Design By www.200059.com
暂无用Node.js通过sitemap.xml批量抓取美女图片的评论...
《魔兽世界》大逃杀!60人新游玩模式《强袭风暴》3月21日上线
暴雪近日发布了《魔兽世界》10.2.6 更新内容,新游玩模式《强袭风暴》即将于3月21 日在亚服上线,届时玩家将前往阿拉希高地展开一场 60 人大逃杀对战。
艾泽拉斯的冒险者已经征服了艾泽拉斯的大地及遥远的彼岸。他们在对抗世界上最致命的敌人时展现出过人的手腕,并且成功阻止终结宇宙等级的威胁。当他们在为即将于《魔兽世界》资料片《地心之战》中来袭的萨拉塔斯势力做战斗准备时,他们还需要在熟悉的阿拉希高地面对一个全新的敌人──那就是彼此。在《巨龙崛起》10.2.6 更新的《强袭风暴》中,玩家将会进入一个全新的海盗主题大逃杀式限时活动,其中包含极高的风险和史诗级的奖励。
《强袭风暴》不是普通的战场,作为一个独立于主游戏之外的活动,玩家可以用大逃杀的风格来体验《魔兽世界》,不分职业、不分装备(除了你在赛局中捡到的),光是技巧和战略的强弱之分就能决定出谁才是能坚持到最后的赢家。本次活动将会开放单人和双人模式,玩家在加入海盗主题的预赛大厅区域前,可以从强袭风暴角色画面新增好友。游玩游戏将可以累计名望轨迹,《巨龙崛起》和《魔兽世界:巫妖王之怒 经典版》的玩家都可以获得奖励。