路人鬼 发表于 2022-6-28 17:14:21

爬虫学习

跟着“州的先生”写的博客试着实践,博客地址:
https://zmister.com/archives/category/scrap/pythonscrapbook/

路人鬼 发表于 2022-6-28 17:28:58

今天已经进行到了入门三(爬取腾讯新闻的内容)
可能是因为现在腾讯新闻已经不是简单的静态网页,因此直接用博客中的代码没法爬取到需要的内容,所以我把对象换成了宅子的水区,试着爬取了水区的帖子题目和链接。
另外值得注意的一个地方是网页源码中标签<a>的‘class’属性值中包含空格(a:s xst),在使用select函数时要输入a.s.xst。

路人鬼 发表于 2022-6-29 18:06:51

今天进行到了第五章,以今日头条为例子学习了爬取JS动态网页的方法,顺便把昨天的腾讯新闻拿来练习了。

路人鬼 发表于 2022-6-30 17:24:43

今天进行到第6章多线程的操作,比较摸鱼。#32m

路人鬼 发表于 2022-7-1 17:16:18

今天进行到第七章使用selenium爬取qq空间说说。有一些没有解决的问题:
1. 登录qq空间的时候有图形验证码,不知道怎么使用python通过。即使手动通过后也还是会被检测到异常登录,最后其实还是手机扫码登录的;
2.不是很理解样例代码中转换frame的意义,可能需要学习一下html的相关内容;
3.根据id,class name,css selector等寻找元素的方法的细节不太明白。

路人鬼 发表于 2022-7-6 17:25:24

今天学习了下载网页上图片的方法和ocr识别验证码,可以保存下想看的漫画。

路人鬼 发表于 2022-7-7 17:27:08

今天学习了使用代理ip的方法。
页: [1]
查看完整版本: 爬虫学习