基于网站sitemap 抓取网页生成静态HTML
以下说明仅适用于动静分离的网站,目前仅支持最多二级抓取,嗯,如果不是就不要看了,局限性还是比较大,后面再修改。
最近某度云有活动,看了下说明,虚拟机有buff加成,所以买了台来试试。
想法是为搜索引擎专门开辟一条线路,但是发现数据库不好同步,目前数据库是良心云的MySql,所以想了想弄个静态站点得了。
周五下午的时候构思了下,回来写了点点,今天把她完善了下。
其实功能挺简单的,简单讲file_get_contents 和 file_put_contents 两个函数即可轻松实现。
不过难点在于如何优化,比如抓取回来的数据一次遍历的话,PHP 肯定会超时,而且源站也有可能宕机。
另外一个就是数据存放,抓取后的sitemap 存放在哪里?
代码请看这里 https://github.com/Hegreen/sitemap_robot
用法:
首先配置源站信息和sitemap,配置当前文件所在站点目录即可。
然后再浏览器运行即可,效果如下。
嗯,更多功能关注后续版本。
本站采用「署名 4.0 国际(CC BY 4.0)」创作共享协议,转载请注明本文出处及链接。