Web内容挖掘
声明:
请遵守《中华人民共和国网络安全法》,禁止进行未经授权的渗透测试行为!
本人不提供任何攻击教程及工具,本文仅作研究和学习用途,请勿利用文中的技术资料进行未经授权的测试行为。利用文中所提供的信息对未授权的计算机系统造成的直接或间接后果和损失,由使用者承担。
内容挖掘分为三类:
- 手动
- 自动
- OSINT(公开来源情报)
手动挖掘-Robots.txt
robots.txt是一个告诉搜索引擎哪个页面该被允许或禁止进行爬取和显示在搜索结果的文件,通常用来限制显示搜索结果,被禁止的区域通常为管理页面
手动挖掘-Favicon
Favicon是展示在浏览器地址栏的图标,通常是商标
有时站长用一个框架来建站,可能会遗留一个favicon在地址栏,这可以让我们知道站点用的是什么框架,可以在OWASP提供的favicon数据库查询,一旦我们知道了框架,就可以进一步挖掘,可以通过以下指令来计算favicon的md5 hash值
1 | curl 'https://....../favicon.ico' | md5sum |
手动挖掘-Sitemap.xml
和robots.txt不同, sitemap列出了站长希望在搜索引擎中展示的每一个网页,通常展示一些难以定位网页或旧网页
手动挖掘-HTTP Headers
当我们向web服务器发送请求时,服务器会返回一个请求头,可能包含很多有用的信息例如服务器软件和所用的编程语言,curl指令的-v会启动详细模式
1 | curl http://...... -v |
手动挖掘-Framework Stack
一旦你通过favicon或者网站源码发现了一个网站的框架,你可以找到框架的网站,我们可以了解到网杂货你的软件和其他信息
OSINT-Google Hacking / Dorking
利用谷歌引擎的高级搜索功能
筛选器 | 例子 | 描述 |
---|---|---|
site | site:pochacco.top | 只返回特定网站的结果 |
inurl | inurl:admin | 返回在特定网站中有特殊词的结果 |
filetype | filetype:pdf | 返回特定文件格式的结果 |
intitle | intitle:admin | 返回标题中含有关键词的结果 |
OSINT-Wappalyzer
Wappalyzer是一个浏览器拓展插件,可以确定网杂货你使用的技术例如框架,CMS及其他
OSINT-Wayback Machine
The Wayback Machine是一个网站历史存档,可以通过搜索域名来查看网站过去的页面,可能会有沿用至今的页面
OSINT-Github
Git是一个版本控制系统,可以在github上查看文件的历史修改记录和源码
OSINT-S3 Buckets
是一个由AmzonAWS提供的储存桶服务,可以用来搭建静态网站,搭建的网站网址格式为http(s)://{name}.s3.amazonaws.com,一般公司的命名方式为{name}-assets, {name}-www, {name}-public, {name}-private
自动挖掘
利用词典自动挖掘存在的网址
词典:SecList
自动工具:
ffuf:
1 | ffuf -w /usr/share/wordlists/SecLists/Discovery/Web-Content/common.txt -u http://....../FUZZ |
dirb:
1 | dirb http://....../ /usr/share/wordlists/SecLists/Discovery/Web-Content/common.txt |
Gobuster:
1 | gobuster dir --url http://....../ -w /usr/share/wordlists/SecLists/Discovery/Web-Content/common.txt |
Use this card to join the Pochacco and participate in a pleasant discussion together .
Welcome to Pochacco's home,wish you a nice day .