题目:X
老师上课讲了Robots
协议,小宁同学却上课打了瞌睡,赶紧来教教小宁Robots
协议是什么吧。
打开网站是空白的,直接访问,http://111.200.241.244:58883/robots.txt
。
发现了一个可以爬取的文件,f1ag_1s_h3re.php
,直接访问http://111.200.241.244:58883/f1ag_1s_h3re.php
,得到flag
。
基础知识:
1、robots.txt
这个文件名必需要是小写而且都要放在网站的根目录下。http://www.hongtaoseo.com/robots.txt
一般要通过这种URL
形式能访问到,才说明我们放的位置是正确的。
2、robots.txt
一般只写上两种函数:User-agent
和Disallow
。有几个禁止,就得有几个Disallow
函数,并分行描述。
至少要有一个Disallow
函数,如果都允许收录,则写: Disallow:
,如果都不允许收录,则写:Disallow: /
(注:只是差一个斜杆)。
3、User-agent: *
星号说明允许所有搜索引擎收录
4、Disallow: /search.html
说明http://www.honbgtaoseo.com/search.html
这个页面禁止搜索引擎抓取。
5、Disallow: /index.php?
说明类似这样的页面http://www.www.hongtaoseo.com/index.php?search=%E5%A5%BD&action=search&searchcategory=%25
都禁止搜索引擎抓取。