平常他们做SEO组织工作的这时候,可能将须要以获取一大批页面的tdk两类的SEO重要信息,但无数个页面分页很慢,因此还极难手忙脚乱。因此我预备做这款能帮我大批量以获取tdk、h1重要信息的流程。这种不论有啥页面,我都能随心所欲搞掂了。
机能如是说:
第二步:把大部份须要查阅的URL放进urls.txt中
第三步:运转流程,重要信息手动聚合到excel文档中,方便快捷先期操作
流程如是说:
urls.txt
那个文档是用以放url条目的,第一行百度关键词强化网站网络流量两条;须要纯手工增建文档、加进、删除url流程全力支持url数目仅限,但提议每天千万别少于50条;
excelFile.xls
那个文档是用以放TDK,H1重要信息;流程手动聚合不须要手动增建,流程运转成功后手动聚合聚合位置是在流程所在目录里能在流程中修改文档名称 file_name = {}.xls.format(excelFile)excel中的重要信息顺序是:title,h1,keywords,descrip百度关键词强化网站网络流量tion
spider_url_list_title.py
python流程,python版本3.7.4提议使用PyCharm使用到的库:requests(2.22.0)、pyquery(1.4.0)、xlwt(1.3.0) 没有的须要安装后再运转
主要文档spider_url_list_title.py 代码如下:
#!/usr/bin/env python
# -*- encoding: utf-8 -百度关键词强化网站网络流量*-
# Created on 2020年7月3日16:25:11
import requests
import time
from pyquery import PyQuery
import xlwt
import sys
def urls():
以获取urls.txt文档中的内容,并聚合url条目
:return: url条目
try:
with open(urls.txt, r) as f:
url_str = f.百度关键词强化网站网络流量read()
url_list = url_str.split(\n)
except FileNotFoundError as e:
print(没有找到urls.txt;请检查urls.txt是否存在,是否和流程在同一目录中,错误内容:{}.format(e))
sys.exit()
return url_list
def spider(url):
ls = requests
try:
req = ls.get(百度关键词强化网站网络流量url)
time.sleep(0.5) # 避免给网站服务器压力
except Exception as e:
print(抓取页面时出现错误,请检查urls.txt是否符合规范,错误内容:{}.format(e))
return False
return req
def tdkh(req):
以获取页面的TDK h1 重要信息
:param req:
:return:
try:
req = PyQuery(req.tex百度关键词强化网站网络流量t)
title = req(title).text()
keywords = req([name=keywords]).attr(content)
description = req([name=description]).attr(content)
h1 = req(h1).text()
except Exception as e:
print(页面分析出现错误,错误内容:{}.format(e))
ret百度关键词强化网站网络流量urn False, False, False, False
return title, h1, keywords, description
def save(file_name):
存储TDK重要信息到excel中
:param file_name:
:return:
try:
myWorkbook.save(file_name)
except PermissionError:
print(请退出{}后在运转本流程.百度关键词强化网站网络流量format(file_name))
sys.exit()
urllist = urls() # 1. 以获取url条目
myWorkbook = xlwt.Workbook() # 2. 创建Excel组织工作薄
mySheet = myWorkbook.add_sheet(陈小龙SEO工具) # 3. 加进Excel组织工作表
file_name = {}.xls.format(excelFile) # 文档名称百度关键词强化网站网络流量,能修改
save(file_name)
errer_urls = [] # 存储出现错误的url
for i in range(len(urllist)):
url = urllist[i]
if url == :
print(跳过空行)
continue
req = spider(url)
if req is False:
print(页面抓取出现错误,手动跳过,url:{}.format(url))
errer百度关键词强化网站网络流量_urls.append(url)
continue
title, h1, keywords, description = tdkh(req)
if title is False:
print(页面分析出现错误,手动跳过,url:{}.format(url))
errer_urls.append(url)
continue
# 聚合excl内容
mySheet.write(i, 0, title)
mySheet.百度关键词强化网站网络流量write(i, 1, h1)
mySheet.write(i, 2, keywords)
mySheet.write(i, 3, description)
save(file_name)
print(流程运转完成……\n 抓取URL{}个.format(len(urllist)))
if len(errer_urls) is not 0:
print(一下是出现错误的url,你能检查url错误后重新加入)百度关键词强化网站网络流量
for u in errer_urls:
print(u)
工具问题处理
遇到问题能请千万别急着喊我,提议先百度解决,或给我留言,我会定期处理。提问时同时发送我你的本地环境、使用的pyhton版本、流程反馈的错误重要信息等内容。
欢迎关注我:陈小龙SEO