前后端分离项目如何做seo_服务器知识

2019-04-16-09:22 于公司

假如面试官问你：前后端分离项目如何做seo？

1、使用prerender，如果说不用prerender，你怎么回答呢？

2、先去 www.baidu.com/robots.txt 找出常见的爬虫，然后在 ngnix 服务器上判断访问者的 User Agent （划重点）是否是爬虫。

如果是：用 ngnix 反向代理到我们自己用 nodejs + puppeteer 实现的爬虫服务器。

知识点：

puppeteer ：谷歌推出，可以理解为无界面版本的 chrome 浏览器，通俗说就是可以在服务端使用浏览器（页面不展示而已）。

实际上是通过调用Chrome DevTools开放的接口与Chrome通信，Chrome DevTools的接口很复杂，但puppeteer对其进行了封装，我们调用起来还是很方便的。

应对反爬策略的方法：1、模拟正常用户。反爬虫机制还会利用检测用户的行为来判断，例如Cookies来判断是不是有效的用户。

2、动态页面限制。有时候发现抓取的信息内容空白，这是因为这个网站的信息是通过用户的XHR动态返回内容信息。解决这种问题就要爬虫程序对网站进行分析，找到内容信息并抓取，才能获取内容。

3、降低IP访问频率。有时候平台为了阻止频繁访问，会设置IP在规定时间内的访问次数，超过次数就会禁止访问。所以绕过反爬虫机制可以降低爬虫的访问频率，还可以用IPIDEA代理IP换IP解决限制。

欢迎分享，转载请注明来源：夏雨云

前后端分离项目如何做seo