什么是sitemap?

什么是sitemap?,第1张

sitemap 是什么?

sitemaps 是网站地图的意思。

网站地图是为便于搜索引擎抓取和用户更方便地找到自己需要的内容而设计的,它分两种,分别用于用户导航和搜索引擎收录:

1、sitemap.xml 格式网站地图

sitemap.xml 格式网站地图为:方便搜索引擎发现和爬取网页,这是重要的 SEO 工具。 它用于把一个网站的所有(或大多数)网址集中在一个按一定的标准组织的地图文件中。 以便于第三方(比如搜索引擎)、新闻订阅软件使用和更新。

2、用户导航网站地图

用于用户导航的网站地图,是为方便用户进入各个网站位置而设计的。

这种站点地图是根据网站的结构、框架、内容,生成的导航网页,对于提高用户体验有好处,它们为网站访问者指明方向,并帮助迷失的访问者找到他们想看的页面

3、对于搜索引擎的网站地图

用于搜索引擎优化的站点地图是将网站的所有网址列在这个文件中,为了方便搜索引擎发现并收录的。

参考资料

1.利用site生成器生成sitemap文件,新建文件 —— 输入域名(例如”www.fuyeor.com“),文件存储位置——进入生成页面,点击开始——文件生成之后导出文件,一般文件格式,可以是html,xml,txt格式。生成器会自动爬取”www.fuyeor.com“网站的链接并进行归纳整合、去重。

2.文件生成之后,先提交到自己网站根目录之下,一般我们使用ftp进行网站文件的上传下载。步骤:打开ftp,链接到对应的网站——将sitemap文件上传到我们的网站根目录之下,例如:”www.fuyeor.com / sitemap.xml“

3.使用百度站长工具上传网站地图。登录百度站长工具,—— 点击站点管理 —— 进入你要管理的网站 —— 点击网站抓取.详情 —— 页面下拉,点击手动提交 —— 输入你的地图地址。例如:”www.fuyeor.com / sitemap.xml“

Sitemap 可方便网站管理员通知搜索引擎他们网站上有哪些可供抓取的网页。最简单的 Sitemap 形式,就是XML 文件,在其中列出网站中的网址以及关于每个网址的其他元数据(上次更新的时间、更改的频率以及相对于网站上其他网址的重要程度为何等),以便搜索引擎可以更加智能地抓取网站。

Google、雅虎、和微软都支持一个被称为xml网站地图(xml Sitemaps)的协议,而百度Sitemap是指百度支持的收录标准,在原有协议上做出了扩展。百度sitemap的作用是通过Sitemap告诉百度蜘蛛全面的站点链接,优化自己的网站。百度Sitemap分为三种格式:txt文本格式、xml格式、Sitemap索引格式。

sitemaps是一个XML文件,其中包含站点中所有需要被index的page URLs。Google Search engine bot根据sitmap的内容crawl和indexing你的网站。

SiteMap可以被理解成一个网站(website)的url map(site map),这个map可以帮助Google迅速找到你的站点中所有的页面(或者是所有的link)。

即使你的主站并没有包含你的网站中的所有的link,只要link包含在这个sitemap中,google不仅会将主站的所有内容全部爬出,而且会读取到你的sitemap,将sitemap中的所有url对应的页面内容全部都爬出。当你站点中所有的page的内容都被google爬走后,就保证了一旦有人在google做search,你的站点就可能出现在Search Result中。

如果google不能够爬到你的页面,那么就相当于搜索引擎不知道你的存在,那么不论在任何search 结果中,你都看到不到你的页面。

这样一看来,sitemap对于你的页面在google的search result中的ranking可谓是及其重要了。

通常我们会建立一个XML SiteMap Index file,这个文件相当于是一个索引,将不同的内容放到不同的xml sitemap文件中,因为这样做有两个好处:

由URL组成

这些URL就相当于是直接告诉google我们有这些link,你可以直接爬

如果你希望你网页中的某一个页面出现在search result中,那么就必须要将这个页面放到sitemap中

如果你不希望你网页中的某一个页面出现在search result中,比如还没有完全做完的页面(用户体验可能不是很好),那么就不能写在你网站的sitemap中

对于网站中的搜索页面,如果进行搜索的时候,有某一个搜索页面没有results,那么在这种情况下,我并不想让google爬到这个页面,原因:

因此我们肯定希望不让google爬到我们这种页面上,那么可以选择在 sitemap 中直接删除

google强烈建议您将Sitemap放在HTML服务器的根目录下:

如果你的html请求是:

那么你的sitemap最好在:

因为这就相当于你跟google search engine 提前约定好的位置,google search engine会到这个位置寻找你站点的sitemap.

将你的sitemap file link(有时候我们会将sitemap xml file放在S3上)放在你网站的footer中,这样search engine bot就可以快速的发现你的sitemap,然后高效的 crawl/index

sitemap中列出的所有URL必须和sitemap的host相同,比如,如果sitemap在 http://www.example.com/sitemap.xml ,那么sitemap中绝对不能包含 http://subdomain.example.com . If the Sitemap is located at http://www.example.com/myfolder/sitemap.xml , it can't include URLs from http://www.example.com .

Sitemaps should be no larger than 10MB (10,485,760 bytes) and can contain a maximum of 50,000 URLs. These limits help to ensure that your web server does not get bogged down serving very large files. This means that if your site contains more than 50,000 URLs or your Sitemap is bigger than 10MB, you must create multiple Sitemap files and use a Sitemap index file. You should use a Sitemap index file even if you have a small site but plan on growing beyond 50,000 URLs or a file size of 10MB. A Sitemap index file can include up to 1,000 Sitemaps and must not exceed 10MB (10,485,760 bytes). You can also use gzip to compress your Sitemaps.

那当你已经给你的网站创建好了一个sitemp的XMl File, 除了我在上面提到的两个可以放置XML的位置,你其实还可以放在任意的地方,比如你可以扔在S3上。 那么问题就来了,你需要告诉Google到哪里找我的XML文件,这时候Google Search console,就相当于是一个配置工具,告诉google我的网站域名是啥,下次遇到我的网站的时候应该去哪找我的XML sitemap

我们通常使用google的工具 Google search console 去管理sitemap。

你可以先为你自己的站点产生一个sitemap file,然后在上图进行配置,

一旦提交之后,google会依次找到你的提交的sitemap然后对sitemap中的url进行crawl。

如上图,我们给网站 www.shoutmeloud 加sitemap, 相当于google会去 www.shoutmeloud/sitemap_index.xml / www.shoutmeloud/post_tag-sitemap.xml ...等等爬数据


欢迎分享,转载请注明来源:夏雨云

原文地址:https://www.xiayuyun.com/zonghe/19357.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-02-14
下一篇2023-02-14

发表评论

登录后才能评论

评论列表(0条)

    保存