Follow

发现gallery-dl好好用,写一下批量扒twitter图片的思路。
github.com/mikf/gallery-dl
1. 嘟主太懒了不想斗智斗勇写爬虫,获取url的方式是twitter主页直接f12过滤img,存har;
2. 把中间pbs.twimg.com/media/ 前缀的url抠出来,结尾的name填large;(还是太懒了编辑器里查找替换完成这一步),全扣出来之后存txt;
3. pip装gallery-dl,gallery-dl -i [url文件路径] -d [存图路径],结束

这样只能扣到缩略图,多张的话就不行了,但是试了一下status也可以直接下,下次感觉直接用usermedia就可以(但是下次再说了);
虽然写了但是感觉应该也没人需要,留作备忘,有疑问的香油可以问我详细;

试了一下,改爬全图只需要:
1. 存fetch包(usermedia开头)
2. 正则提取
twitter.com/xxxx/status/[0-9]* , vscode可以直接select all occurrence然后delete duplicate lines
3. 照常爬取,会自动放在twitter/id路径下

oops,看上去爬了一定数量之和twitter就对访问做了限制,应该是一些防止爬虫的措施(重连无效可能和ip有关吧……)这样感觉最好后面还是写个脚本定时跑

@cpdtc 感觉应该是ip相关的反爬,控制速度和每次的数量不知道行不行

Sign in to participate in the conversation
Mastodon

The social network of the future: No ads, no corporate surveillance, ethical design, and decentralization! Own your data with Mastodon!