发现gallery-dl好好用,写一下批量扒twitter图片的思路。https://github.com/mikf/gallery-dl1. 嘟主太懒了不想斗智斗勇写爬虫,获取url的方式是twitter主页直接f12过滤img,存har;2. 把中间https://pbs.twimg.com/media/ 前缀的url抠出来,结尾的name填large;(还是太懒了编辑器里查找替换完成这一步),全扣出来之后存txt;3. pip装gallery-dl,gallery-dl -i [url文件路径] -d [存图路径],结束
这样只能扣到缩略图,多张的话就不行了,但是试了一下status也可以直接下,下次感觉直接用usermedia就可以(但是下次再说了);虽然写了但是感觉应该也没人需要,留作备忘,有疑问的香油可以问我详细;
试了一下,改爬全图只需要:1. 存fetch包(usermedia开头)2. 正则提取 https://twitter.com/xxxx/status/[0-9]* , vscode可以直接select all occurrence然后delete duplicate lines3. 照常爬取,会自动放在twitter/id路径下
oops,看上去爬了一定数量之和twitter就对访问做了限制,应该是一些防止爬虫的措施(重连无效可能和ip有关吧……)这样感觉最好后面还是写个脚本定时跑
@cpdtc 感觉应该是ip相关的反爬,控制速度和每次的数量不知道行不行
The social network of the future: No ads, no corporate surveillance, ethical design, and decentralization! Own your data with Mastodon!
oops,看上去爬了一定数量之和twitter就对访问做了限制,应该是一些防止爬虫的措施(重连无效可能和ip有关吧……)这样感觉最好后面还是写个脚本定时跑