您尚未登录。

楼主 #1 2020-10-22 14:38:25

农夫三拳
会员
注册时间: 2020-10-09
已发帖子: 3
积分: 3

我用一条命令就把哇酷网备份了, web.archive.org 时光机(wayback)你值得拥有.

for i in {1..6000}; do echo $i; done | xargs -i curl https://web.archive.org/save/https://whycan.com/t_{}.html


太简单了, 我就不解释了。

离线

楼主 #2 2020-10-22 14:49:48

农夫三拳
会员
注册时间: 2020-10-09
已发帖子: 3
积分: 3

Re: 我用一条命令就把哇酷网备份了, web.archive.org 时光机(wayback)你值得拥有.

wayback.sh

#!/bin/bash

BEGIN=1
END=6000

for i in $(seq $BEGIN $END); do echo $i; done | xargs -i curl https://web.archive.org/save/https://whycan.com/t_{}.html

做成脚本执行

离线

#3 2020-10-23 08:37:54

孤星泪
会员
注册时间: 2020-03-18
已发帖子: 235
积分: 231

Re: 我用一条命令就把哇酷网备份了, web.archive.org 时光机(wayback)你值得拥有.

感谢分享,刚刚了解了一下,美国的法院可以接受时光机采集的数据作为证据。

离线

#4 2020-10-23 09:23:28

shawn.d
会员
注册时间: 2020-09-12
已发帖子: 164
积分: 95

Re: 我用一条命令就把哇酷网备份了, web.archive.org 时光机(wayback)你值得拥有.

要能把附件也备份了就好了,哈哈哈哈。

离线

#5 2020-10-23 09:30:41

Blueskull
会员
注册时间: 2020-02-20
已发帖子: 458
积分: 444.5

Re: 我用一条命令就把哇酷网备份了, web.archive.org 时光机(wayback)你值得拥有.

archive不存附件,如果不指定具体url的话,爬虫默认只从首页趴几级链接。这玩意除了看文字意义不大。

离线

楼主 #6 2020-10-28 21:08:49

农夫三拳
会员
注册时间: 2020-10-09
已发帖子: 3
积分: 3

离线

页脚

工信部备案:粤ICP备20025096号 Powered by FluxBB

感谢为中文互联网持续输出优质内容的各位老铁们。 QQ: 516333132, 微信(wechat): whycan_cn (哇酷网/挖坑网/填坑网) service@whycan.cn