网站开发搭建合同范本,只有域名如何做网站,wordpress mycred,郑州网站建设工作室一. 前言 在前面的几篇文章中我介绍了如何通过Python分析源代码来爬取博客、维基百科InfoBox和图片,其文章链接如下: 其中核心代码如下:
# coding=utf-8
import urllib
import re #下载静态HTML网页
url=http://www.csdn.net/
content = urllib.urlopen(url).read…一. 前言 在前面的几篇文章中我介绍了如何通过Python分析源代码来爬取博客、维基百科InfoBox和图片,其文章链接如下: 其中核心代码如下:
#coding=utf-8
importurllib
importre#下载静态HTML网页
url='http://www.csdn.net/'
content=urllib.urlopen(url).read()
open('csdn.html','w+').write(content)
#获取标题
title_pat=r'(?=title).*?(?=/title)'
title_ex=re.compile(title_pat,re.M|re.S)
title_obj=re.search(title_ex,content)
title=title_obj.group()
printtitle
#获取超链接内容
href=r'ahref=.*?(.*?)/a'
m=re.findall(href,content,re.S|re.M)
fortextinm:
printunicode(text,'utf-8')
break#只输出一个url