在利用python语言实现爬虫时

乘机数据的雅量增进,我们必要在互联英特网摘取所须求的数据开展和煦查讨论究的剖判和尝试。那就用到了爬虫这一才能,下面就随之作者一同初遇python爬虫!

澳门太阳集团城网址,一、请求-响应

在利用python语言完成爬虫时,主要采取了urllib和urllib2多少个库。首先用一段代码表达如下:

1 import urllib
2 import urllib2
3 
4 url="http://www.baidu.com"
5 request=urllib2.Request(url)
6 response=urllib2.urlopen(request)
7 print response.read()

澳门太陽城集团登录网址,大家领会贰个网页正是以html为骨架,js为肌肉,css为衣裳所组成的。上述代码所实现的成效就是把百度网页的源码爬取到地头。

在利用python语言实现爬虫时。在利用python语言实现爬虫时。在利用python语言实现爬虫时。其中,url为要爬取的网页的网站;request发出诉求,response是经受央求后提交的响应。最终用read()函数输出的正是百度网页的源码。

在利用python语言实现爬虫时。二、GET-POST

在利用python语言实现爬虫时。两者都以向网页传递数据,最重要的区分是GET格局是一向以链接方式拜访,链接中含有了独具的参数,当然借使带有了密码的话是一种不安全的选料,可是你能够直观地看来自个儿交给了何等内容。

POST则不会在网站上出示全数的参数,但是若是你想平素查看提交了如何就不太有利了,大家能够酌情选用。

POST方式:

1 import urllib
2 import urllib2
3 values={'username':'2680559065@qq.com','Password':'XXXX'}
4 data=urllib.urlencode(values)
5 url='https://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn'
6 request=urllib2.Request(url,data)
7 response=urllib2.urlopen(request)
8 print response.read()

GET方式:

import urllib
import urllib2
values={'username':'2680559065@qq.com','Password':'XXXX'}
data=urllib.urlencode(values)
url = "http://passport.csdn.net/account/login"
geturl = url + "?"+data
request=urllib2.Request(geturl)
response=urllib2.urlopen(request)
print response.read()

三、万分管理

拍卖极其时,用到了try-except语句。

1 import urllib2
2 
3 try:
4     response=urllib2.urlopen("http://www.xxx.com")
5 except urllib2.URLError,e:
6     print e.reason

透过上述的介绍及代码体现,大家早已开首认知了爬虫进度,希望对大家享有扶助。

You may also like...

发表评论

电子邮件地址不会被公开。 必填项已用*标注

网站地图xml地图