温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

常见的python爬虫框架有哪些

发布时间:2020-12-01 10:45:39 来源:亿速云 阅读:195 作者:小新 栏目:编程语言

小编给大家分享一下常见的python爬虫框架有哪些,希望大家阅读完这篇文章后大所收获,下面让我们一起去探讨吧!

常见python爬虫框架:

(1)Scrapy: 很强大的爬虫框架,可以满足简单的页面爬取(比如可以明确获知url pattern的情况)。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面,如weibo的页面信息,这个框架就满足不了需求了。

(2)Crawley: 高速爬取对应网站的内容,支持关系和非关系数据库,数据可以导出为JSON、XML等

(3)Portia: 可视化爬取网页内容

(4)newspaper: 提取新闻、文章以及内容分析

(5)python-goose: java写的文章提取工具

(6)Beautiful Soup: 名气大,整合了一些常用爬虫需求。缺点:不能加载JS。

(7)mechanize:优点:可以加载JS。缺点:文档严重缺失。不过通过官方的example以及人肉尝试的方法,还是勉强能用的。

(8)selenium: 这是一个调用浏览器的driver,通过这个库你可以直接调用浏览器完成某些操作,比如输入验证码。

(9)cola: 一个分布式爬虫框架。项目整体设计有点糟,模块间耦合度较高。

看完了这篇文章,相信你对常见的python爬虫框架有哪些有了一定的了解,想了解更多相关知识,欢迎关注亿速云行业资讯频道,感谢各位的阅读!

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI