声明:
请遵守《中华人民共和国网络安全法》,禁止进行未经授权的渗透测试行为!
本人不提供任何攻击教程及工具,本文仅作研究和学习用途,请勿利用文中的技术资料进行未经授权的测试行为。利用文中所提供的信息对未授权的计算机系统造成的直接或间接后果和损失,由使用者承担。

内容挖掘分为三类:

  • 手动
  • 自动
  • OSINT(公开来源情报)

手动挖掘-Robots.txt

robots.txt是一个告诉搜索引擎哪个页面该被允许或禁止进行爬取和显示在搜索结果的文件,通常用来限制显示搜索结果,被禁止的区域通常为管理页面

手动挖掘-Favicon

Favicon是展示在浏览器地址栏的图标,通常是商标
有时站长用一个框架来建站,可能会遗留一个favicon在地址栏,这可以让我们知道站点用的是什么框架,可以在OWASP提供的favicon数据库查询,一旦我们知道了框架,就可以进一步挖掘,可以通过以下指令来计算favicon的md5 hash值

1
curl 'https://....../favicon.ico' | md5sum

手动挖掘-Sitemap.xml

和robots.txt不同, sitemap列出了站长希望在搜索引擎中展示的每一个网页,通常展示一些难以定位网页或旧网页

手动挖掘-HTTP Headers

当我们向web服务器发送请求时,服务器会返回一个请求头,可能包含很多有用的信息例如服务器软件和所用的编程语言,curl指令的-v会启动详细模式

1
curl http://...... -v

手动挖掘-Framework Stack

一旦你通过favicon或者网站源码发现了一个网站的框架,你可以找到框架的网站,我们可以了解到网杂货你的软件和其他信息

OSINT-Google Hacking / Dorking

利用谷歌引擎的高级搜索功能

筛选器 例子 描述
site site:pochacco.top 只返回特定网站的结果
inurl inurl:admin 返回在特定网站中有特殊词的结果
filetype filetype:pdf 返回特定文件格式的结果
intitle intitle:admin 返回标题中含有关键词的结果

OSINT-Wappalyzer

Wappalyzer是一个浏览器拓展插件,可以确定网杂货你使用的技术例如框架,CMS及其他

OSINT-Wayback Machine

The Wayback Machine是一个网站历史存档,可以通过搜索域名来查看网站过去的页面,可能会有沿用至今的页面

OSINT-Github

Git是一个版本控制系统,可以在github上查看文件的历史修改记录和源码

OSINT-S3 Buckets

是一个由AmzonAWS提供的储存桶服务,可以用来搭建静态网站,搭建的网站网址格式为http(s)://{name}.s3.amazonaws.com,一般公司的命名方式为{name}-assets, {name}-www, {name}-public, {name}-private

自动挖掘

利用词典自动挖掘存在的网址
词典:SecList

自动工具:
ffuf:

1
ffuf -w /usr/share/wordlists/SecLists/Discovery/Web-Content/common.txt -u http://....../FUZZ

dirb:

1
dirb http://....../ /usr/share/wordlists/SecLists/Discovery/Web-Content/common.txt

Gobuster:

1
gobuster dir --url http://....../ -w /usr/share/wordlists/SecLists/Discovery/Web-Content/common.txt