建站日志

使用百度站长平台

站长平台包含很多实用的站长工具,方便站长对平台进行更好的监控和管理。比如seo优化,站长统计等等。

SEO

Seo优化是为了让你的博客在google和百度搜索能够被搜索到。
google seo官网:https://www.google.com/webmasters/
百度站长平台:http://zhanzhang.baidu.com/dashboard/index

添加百度和google的站点地图

百度的站点地图就不弄了,因为github禁止了百度爬虫,所以就算你上传了baidusitemap.xml它不会抓取成功。所以只能采用主动提交链接的方式。我决定自己写脚本上传。

  • 什么是Sitemap
    Sitemap(即站点地图)就是您网站上各网页的列表。创建并提交Sitemap有助于百度发现并了解您网站上的所有网页。您还可以使用Sitemap提供有关您网站的其他信息,如上次更新日期、Sitemap文件的更新频率等,供百度Spider参考。
    百度对已提交的数据,不保证一定会抓取及索引所有网址。但是,我们会使用Sitemap中的数据来了解网站的结构等信息,这样可以帮助我们改进抓取策略,并在日后能更好地对网站进行抓取。
    此外,Sitemap 与搜索排名没有关系。
  1. 安装sitemap站点地图自动生成插件
    在博客根目录执行:

    1
    2
    npm install hexo-generator-sitemap --save
    npm install hexo-generator-baidu-sitemap --save
  2. 在站点或主题配置文件中添加以下配置:

    1
    2
    3
    4
    sitemap:
    path: sitemap.xml
    baidusitemap:
    path: baidusitemap.xml

修改站点配置文件中的url配置:

1
url:你博客网址的域名 #比如https://zhangsan.github.io

  1. 执行hexo g会再public文件夹生成两个site文件:baidusitemap.xml和sitemap.xml,第一个提交给百度,第二个提交给google。

百度提交:
站长平台 -> 工具 -> 网页抓取 -> 链接提交

主动提交链接的脚本:

1
2
3
4
#!/bin/bash
#用于git提交的脚本
python3 /Users/zhanglibin/myblog/getUrlsIntoFile.py
curl -H 'Content-Type:text/plain' --data-binary @/Users/zhanglibin/myblog/backup/baidu/urls.txt "http://data.zz.baidu.com/urls?site=https://zhanglibin1986.github.io&token=3z09qEIW0eZVxx"

python脚本getUrlsIntoFile.py:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
#! /usr/bin/env python
# -*- coding: utf-8 -*-
import re
import urllib
fpath = '/Users/zhanglibin/myblog/public/baidusitemap.xml'
outPath = '/Users/zhanglibin/myblog/backup/baidu/urls.txt'
with open(fpath, 'r', encoding='utf-8') as f:
content = f.read()
urls=re.findall(r"(?<=<loc>).*?(?=</loc>)|(?<=url=\").*?(?=\"/>)", content,re.I)
# ?<= 是零宽正向后行断言,将匹配表达式后面的
# ?= 零宽正向先行断言,将匹配表达式前面的
urlsContent = ""
for i in urls:
urlsContent = urlsContent + i + "\n"
print("urlsContent = \n" + urlsContent)
with open(outPath, 'w', encoding='utf-8') as fo:
fo.write(urlsContent)

根据个人需求创建robots

以下是百度站长平台对robots的说明:

  • 什么是robots文件
    robots是站点与spider沟通的重要渠道,站点通过robots文件声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。为了避免站长在设置robots文件时出现,百度站长平台特别推出了robots工具,帮助站长正确设置robots。
  • 使用说明
    1、robots.txt可以告诉百度您网站的哪些页面可以被抓取,哪些页面不可以被抓取。
    2、您可以通过Robots工具来创建、校验、更新您的robots.txt文件,或查看您网站robots.txt文件在百度生效的情况。
    3、Robots工具目前支持48k的文件内容检测,请保证您的robots.txt文件不要过大,目录最长不超过250个字符。

详细使用方法,请参考百度站长平台:http://zhanzhang.baidu.com/college/courseinfo?id=267&page=12#h2_article_title30

Google seo

  1. 在Google Search Console注册自己的站点:https://www.google.com/webmasters/

  2. 提交站点地图sitemap。

  3. 使用Google 抓取工具实时抓取一批网址。这个相当于不等待google主动抓取sitemap。