26
2024
09
09:42:06

站点地图与robots.txt文件配置

引言

站点地图(sitemap)是一种XML文件,它包含了网站上所有可供搜索引擎抓取的页面链接。通过站点地图,搜索引擎可以更有效地发现、索引和更新网站的内容。robots.txt文件是网站根目录下的一种文本文件,用于告诉搜索引擎爬虫哪些页面可以抓取,哪些页面不能抓取。


一、站点地图的作用

站点地图的主要作用包括:


1. 提高网站内容被抓取的效率。


2. 帮助搜索引擎了解网站的结构,及时通知搜索引擎网站的结构变化。


3. 有利于提高网站的搜索排名。


二、如何创建站点地图

创建站点地图可以用专业的站点地图工具生成,这里介绍的是手动创建站点地图的过程,相对简单,只需遵循以下步骤:


1. 使用XML编辑器创建一个新的XML文件,并将其命名为“sitemap.xml”。


2. 在文件中添加根元素<urlset> </urlset>,这是站点地图文件的基本结构。


3. 在"<urlset>"元素内部,添加"<url> </url>" 元素,用于描述网站上的每个页面。“<url>”元素需要包含以下属性:


loc:页面链接


lastmod:页面最后修改时间


changefreq:页面更新频率


priority:页面优先级,用于搜索引擎排序


4. 将所有“<url>”元素添加到"<urlset>"元素中,完成后保存文件。



三、站点地图的提交

创建好站点地图后,需要将其提交给搜索引擎。以下是提交方法:


1. 先将站点地图上传到网站根目录。


2. 登录百度站长平台或Google搜索控制台


3. 在相应平台中,找到“站点地图”或“网站地图”功能。


4. 按照提示,提交站点地图文件的位置(如://example.com/sitemap.xml)。


5. 提交成功后,等待搜索引擎抓取和索引站点地图中的页面。


四、robots.txt文件配置

以下是robots.txt文件的主要配置项:


User-agent:定义搜索引擎爬虫的名字,如:User-agent: Baiduspider。


Disallow:禁止爬虫抓取的页面,如:Disallow: /admin/。


Allow:允许爬虫抓取的页面,如:Allow: /content/。


Sitemap:指定网站的站点地图文件位置,如:Sitemap: //example.com/sitemap.xml。


五、robots.txt文件的优化

为了提高搜索引擎爬虫的抓取效率,需要对robots.txt文件进行优化,以下是建议:


1. 使用User-agent通配符,以便兼容多种搜索引擎爬虫。


2. 尽量减少Disallow指令,以增加被抓取的页面数量。


3. 将动态页面、重复页面、无内容页面添加到Disallow指令中。


4. 确保Sitemap指令指向正确的站点地图文件。


结语

站点地图和robots.txt文件对于网站的搜索引擎优化(SEO)具有重要意义。通过创建并提交站点地图,可以帮助搜索引擎更有效地发现、索引和更新网站内容;而合理配置robots.txt文件,可以提高搜索引擎爬虫的抓取效率,从而提升网站的搜索排名。








前面之所以大费周章得搞预渲染和动态meta,都是为了让爬虫更好的爬取我们的网站,接下来记录的是SEO中最基础也是最有用的:  robots.txt 和网站地图 sitemap

robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。

 Sitemap 可方便网站管理员通知搜索引擎他们网站上有哪些可供抓取的网页。最简单的 Sitemap 形式,就是XML文件,在其中列出网站中的网址以及关于每个网址的其他元数据(上次更新的时间、更改的频率以及相对于网站上其他网址的重要程度为何等),以便搜索引擎可以更加智能地抓取网站。

 因为我的服务器带宽较小,配置也一般,所以我的robots.txt设置成这样:

User-agent: *
Disallow: /css/
Disallow: /fonts/
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
Sitemap: https://www.baidu.com/sitemap.xml

其中

User-agent:* 是指可以然后任何爬虫来爬取页面

Disallow: ***   是指不允许爬虫爬取的页面或者目录(这里我禁止了图片的爬取,主要是服务器配置不高,这样可以在一定程度上防盗链,减轻服务器压力)

Sitemap:***   是告诉爬虫网站地图的位置使其更方便爬取

接下来说说网站地图 sitemap,规则咋看上去有点乱,一般怕写错可以在网站搜一下专门生成sitemap的网站来爬取生成。sitemap可以有多重格式,一般都是采用xml格式。

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
xmlns:mobile="http://www.baidu.com/schemas/sitemap-mobile/1/">
<url>
 <loc>https://www.baidu.com/Home</loc>
 <mobile:mobile type="pc,mobile" />
 <priority>0.5</priority>
 <lastmod>2019-07-21</lastmod>
 <changefreq>weekly</changefreq>
</url>
</urlset>

上面时间最简单的形式,只有一个页面的信息告知爬虫该页面的网址、可用来访问的设备、优先级、最近更新和更新频率等信息。

 




推荐本站淘宝优惠价购买喜欢的宝贝:

image.png

本文链接:https://www.hqyman.cn/post/8074.html 非本站原创文章欢迎转载,原创文章需保留本站地址!

分享到:
打赏





休息一下~~


« 上一篇 下一篇 »

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

请先 登录 再评论,若不是会员请先 注册

您的IP地址是: