爬我们学院的网站出现404notfound
Xb新博网址多少
Xb新博网址多少
当前位置 : Xb新博网址多少 > xb新博网址多少

爬我们学院的网站出现404notfound

# -*- encoding: utf8 -*-

import urllib
import urllib2
import re

page = 1
url = uhttp://math.xmu.edu.cn/ + strpage
user_agent = Mozilla/5.0 Windows NT 10.0; WOW64 AppleWebKit/537.36 KHTML, like Gecko Chrome/49.0.2623.112 Safari/537.36
headers = { User-Agent : user_agent}
try:
    request = urllib2.Requesturl,headers = headers
    response = urllib2.urlopenrequest
    content = response.read.decodeutf-8
    pattern = re.compiler<article class="home_news_l">.*?<p>.*?</p>.*?<p>.*?</p></article>,re.S
    items = re.findallpattern,content
    for item in items:
        print item.encodeutf-8

except urllib2.URLError, e:
    if hasattre,"code":
        print e.code
    if hasattre,"reason":
        print e.reason

这个网站我可以打开,但是用爬虫就是404,我也有head..不知道问题出在哪了,谢谢你


你构造出来的url是http://math.xmu.edu.cn/1,这个url本来就不存在,好好检查一下先

栏目列表

广告位

Xb新博网址多少