温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

Python爬虫之利用Github搜索资源的方法

发布时间:2020-11-20 10:58:02 来源:亿速云 阅读:669 作者:小新 栏目:编程语言

小编给大家分享一下Python爬虫之利用Github搜索资源的方法,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!

这段时间以来,我发现大家都把Github挂在嘴上,但是不少人其实并不会用Github。具体怎么说呢,比方说实现某些简单的功能的时候,自己可能需要花2-3小时去实现,那么大家愿意自己去实现。

具体一些,比方说我以前写一个简单的爬虫采集大众点评的一些数据的时候,我可能需要花时间去了解网站结构然后写爬虫,写下来没个半天不行。但是这种网站你上Github搜索「大众点评爬虫」或者「dazhongdianping」等等关键词。你会发发现有一堆的爬虫项目,你直接拿来稍微改一下就能用了。

这个直接能节省你半天甚至一天的时间,你可以节省这一天的时间用在更有意义的事情上面,比如说做深入的挖掘分析。

我们很多搞技术的人经常会陷入所有事情都要亲自干的这种误区。但记住并不是所有事情都要亲力亲为的,有时候只是浪费时间。比你成功的人通常不会重复造轮子,而是会利用资源。

在利用Github搜索资源的时候其实也是有一些小技巧的。也不能称之为技巧,但你往下看肯定是让你非常受益的。

1、awesome + xx

awesome这个单词表示的棒极了一类意思,如果你在Github中搜索awesome + xxxg关键词,你就能搜索这个关键词的资源大全,比方说:

awesome python

awesome go

awesome linux

你就会发现关于这些东西的学习资料真的是一大堆一大堆的。无论是书籍资源,库资源,还是学习视频、学习笔记,应有尽有。会了这个技能你再也不用到处求学习资源了。

Python爬虫之利用Github搜索资源的方法

2、功能 + 网站

我在上面举了个例子。比方说当你想采集某个网站的时候,你可以在Github里面搜「网站名称 +Scrapy」,如果搜不到可以搜「网站名称+采集」,还可以搜「网站名称+Python」等等。

如果你想做一个仿大众点评的App,那么你在Github上搜「仿大众点评」,你就能快速找到别人做的一个大众点评项目,拿来几乎可以直接用了,想一想这节省了你多少时间?

有时候你找不到,可能仅仅是你关键词弄得不对,记得换一换关键词,比如说英文搜索,拼音搜索,大多时候就能搜到了。

3、接口

大家在开发调用一些数据接口查询的时候,个人开发者一般来说都有一些调用的限制,必须要成为企业或者付费才能调高这些限制。

比如说百度的地图的路线规划API,普通开发者的Key一天只能调用2000次,而且并发只有20次,这个数量肯定不够,但是我们个人开发者又不愿意花钱去搞这件事情,怎么办呢?

Python爬虫之利用Github搜索资源的方法

我们看到这个接口调用是这样调用的,只要在最后写上开发者的AK就行了,所以我们把这个网址中不是自定义的内容直接拿到Github里面搜就可以了。全是你想要的东西。

Python爬虫之利用Github搜索资源的方法

其实类似的操作很多的,比方说搜数据库的密码。你想想在开发的过程中哪些东西是约定俗成不会变的,你在GitHub中就能搜索到了。当然并没有让你去干坏事撒。

类似的小技巧其实挺多的,Github其实真是一个藏宝的地方,关键是你会不会用。要会发挥想象力,多想多动手,千万不要不想只动手。

以上是Python爬虫之利用Github搜索资源的方法的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注亿速云行业资讯频道!

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI