网站教育培训机构排名,做ppt好的网站有哪些内容,建设通网站官网,传奇端游平台有如下一个网页#xff0c;想要抓取其中内容#xff0c;主要是IP Address和Port#xff0c;使用python实现。 用F12看一下网页源代码#xff0c;对应上图表格内容的部分如下#xff1a; 使用python和lxml来定位爬取。
首先要安装lxml#xff0c;如下命令#xff08;可以…有如下一个网页想要抓取其中内容主要是IP Address和Port使用python实现。 用F12看一下网页源代码对应上图表格内容的部分如下 使用python和lxml来定位爬取。
首先要安装lxml如下命令可以在pycharm项目的Terminal中运行
pip3 install lxml
实现代码
from lxml import etree
import requestsurl https://www.example.com
r requests.get(url)
result r.text
html etree.HTML(result)rows html.xpath(.//div[classtable-responsive fpl-list]/table/tbody/tr[position()0])proxy_list []
for row in rows:td_list1 row.xpath(./td[1])td_list2 row.xpath(./td[2])ip td_list1[0].text.replace( ,).replace(\t,).replace(\n,)port td_list2[0].text.replace( ,).replace(\t,).replace(\n,)web_proxy {ip: ip, port: port, types: 0, protocol: 0, country: 0, area: 0, speed: 100}proxy_list.append(web_proxy)print(proxy_list
说明
在HTML中tr、td、th是用于构建表格的核心标签trTable Row定义表格行tdTable Data定义标准数据单元格thTable Header定义表头单元格。
结合上述代码rows即是获取的表格中的所有行。
然后针对每一行进行操作。从每一行中定位并获取需要的单元格的文本内容此行第一列的单元格就是td[1]第二列就是td[2]使用.text获取其文本内容注意使用row.xpath获取出的是一个列表需要加一个[0]来成为单个元素。