|
  
- 帖子
- 490
- 积分
- 1232
- 威望
- 1938
- 金钱
- 990
- 在线时间
- 9 小时
|
1楼
发表于 2009-10-2 23:46
| 只看该作者
【转载】GOOGLE搜索秘籍全攻略[Google Hack必经之路]
一
GOOGLE简介
Google(www.google.com)是一个搜索引擎
由两个斯坦福大学博士生Larry Page与Sergey Brin于1998年9月发明
Google Inc. 于1999年创立
2000年7月份
Google替代Inktomi成为Yahoo公司的搜索引擎
同年9月份
Google成为中国网易公司的搜索引擎
98年至今
GOOGLE已经获得30多项业界大奖
二
GOOGLE特色
GOOGLE支持多达132种语言
包括简体中文和繁体中文;
GOOGLE网站只提供搜索引擎功能
没有花里胡哨的累赘;
GOOGLE速度极快
据说有8000多台服务器
200多条T3级宽带;
GOOGLE的专利网页级别技术PageRank能够提供高命中率的搜索结果;
GOOGLE的搜索结果摘录查询网页的部分具体内容
而不仅仅是网站简介;
GOOGLE智能化的“手气不错”功能
提供可能最符合要求的网站;
GOOGLE的“网页快照”功能
能从GOOGLE服务器里直接取出缓存的网页
三
基本搜索:+
-
OR
GOOGLE无需用明文的“+”来表示逻辑“与”操作
只要空格就可以了
示例:搜索所有包含关键词“易筋经”和“吸星**”的中文网页
搜索:“易筋经 吸星**”
结果:已搜索有关易筋经 吸星**的中文(简体)网页
共约有726项查询结果
这是第1-10项
搜索用时0.13秒
注意:文章中搜索语法外面的引号仅起引用作用
不能带入搜索栏内
GOOGLE用减号“-”表示逻辑“非”操作
示例:搜索所有包含“易筋经”而不含“吸星**”的中文网页
搜索:“易筋经 -吸星**”
结果:已搜索有关易筋经 -吸星**的中文(简体)网页
共约有5,440项查询结果
这是第1-10项
搜索用时0.13秒
注意:这里的“+”和“-”号
是英文字符
而不是中文字符的“+”和“-”
此外
操作符与作用的关键字之间
不能有空格
比如“易筋经 - 吸星**”
搜索引擎将视为逻辑“与”操作
中间的“-”被忽略
GOOGLE用大写的“OR”表示逻辑“或”操作
但是
关键字为中文的或查询似乎还有BUG
无法得到正确的查询结果
示例:搜索包含布兰妮“Britney”或者披头士“Beatles”、或者两者均有的中文网页
搜索:“britney OR beatles”
结果:已搜索有关britney OR beatles的中文(简体)网页
共约有14,600项查询结果
这是第1-10项
搜索用时0.08秒
搜索:“布兰妮 OR 披头士”
结果:找不到和您的查询-布兰妮 OR 披头士-相符的网页
注意:小写的“or”
在查询的时候将被忽略;这样上述的操作实际上变成了一次“与”查询
“+”和“-”的作用有的时候是相同的
都是为了缩小搜索结果的范围
提高查询结果命中率
例:查阅天龙八部具体是哪八部
分析:如果光用“天龙八部”做关键字
搜索结果有26,500项
而且排前列的主要与金庸的小说《天龙八部》相关
很难找到所需要的资讯
可以用两个方法减少无关结果
1
如果你知道八部中的某一部
比如阿修罗
增加“阿修罗”关键字
搜索结果就只有995项
可以直接找到全部八部
“天龙八部 阿修罗”
2
如果你不知道八部中的任何一部
但知道这与佛教相关
可以排除与金庸小说相关的记录
查询结果为1,010项
可以迅速找到需要的资料
“天龙八部 佛教 -金庸”
四
辅助搜索:通配符、大小写、句子、忽略字符以及强制搜索
GOOGLE不支持通配符
如“*”、“?”等
只能做精确查询
关键字后面的“*”或者“?”会被忽略掉
GOOGLE对英文字符大小写不敏感
“GOD”和“god”搜索的结果是一样的
GOOGLE的关键字可以是词组(中间没有空格)
也可以是句子(中间有空格)
但是
用句子做关键字
必须加英文引号
示例:搜索包含“long, long ago”字串的页面
搜索:“"long, long ago"”
结果:已向英特网搜索"long, long ago". 共约有28,300项查询结果
这是第1-10项
搜索用时0.28秒
注意:和搜索英文关键字串不同的是
GOOGLE对中文字串的处理并不十分完善
比如
搜索“"啊
我的太阳"”
我们希望结果中含有这个句子
事实并非如此
查询的很多结果
“啊”、“我的”、“太阳”等词语是完全分开的
但又不是“啊 我的 太阳”这样的与查询
显然
GOOGLE对中文的支持尚有欠缺之处
GOOGLE对一些网路上出现频率极高的词(主要是英文单词)
如“i”、“com”
以及一些符号如“*”、“.”等
作忽略处理
如果用户必须要求关键字中包含这些常用词
就要用强制语法“+”
示例:搜索包含“Who am I ?”的网页
如果用“"who am i ?"”
“Who”、“I”、“?”会被省略掉
搜索将只用“am”作关键字
所以应该用强制搜索
搜索:“"+who +am +i"”
结果:已向英特网搜索"+who +am +i". 共约有362,000项查询结果
这是第1-10项
搜索用时0.30秒
注意:英文符号(如问号
句号
逗号等)无法成为搜索关键字
加强制也不行
五
高级搜索:site
link
inurl
allinurl
intitle
allintitle
“site”表示搜索结果局限于某个具体网站或者网站频道
如“sina.com.cn”、“edu.sina.com.cn”
或者是某个域名
如“com.cn”、“com”等等
如果是要排除某网站或者域名范围内的页面
只需用“-网站/域名”
示例:搜索中文教育科研网站(edu.cn)上所有包含“金庸”的页面
搜索:“金庸 site:edu.cn”
结果:已搜索有关金庸 site:edu.cn的中文(简体)网页
共约有2,680项查询结果
这是第1-10项
搜索用时0.31秒
示例:搜索包含“金庸”和“古龙”的中文新浪网站页面
搜索:“金庸 古龙 siteina.com.cn”
结果:已在sina.com.cn搜索有关金庸 古龙的中文(简体)网页
共约有869项查询结果
这是第1-10项
搜索用时0.34秒
注意:site后的冒号为英文字符
而且
冒号后不能有空格
否则
“site:”将被作为一个搜索的关键字
此外
网站域名不能有“http”以及“www”前缀
也不能有任何“/”的目录后缀;网站频道则只局限于“频道名.域名”方式
而不能是“域名/频道名”方式
诸如“金庸 site:edu.sina.com.cn/1/”的语法是错误的
“link”语法返回所有链接到某个URL地址的网页
示例:搜索所有含指向华军软件园“www.newhua.com”链接的网页
搜索:“link:www.newhua.com”
结果:搜索有链接到www.newhua.com的网页
共约有695项查询结果
这是第1-10项
搜索用时0.23秒
注意:“link”不能与其他语法相混合操作
所以“link:”后面即使有空格
也将被GOOGLE忽略
inurl语法返回的网页链接中包含第一个关键字
后面的关键字则出现在链接中或者网页文档中
有很多网站把某一类具有相同属性的资源名称显示在目录名称或者网页名称中
比如“MP3”、“GALLARY”等
于是
就可以用INURL语法找到这些相关资源链接
然后
用第二个关键词确定是否有某项具体资料
INURL语法和基本搜索语法的最大区别在于
前者通常能提供非常精确的专题资料
示例:查找MIDI曲“沧海一声笑”
搜索:“inurl:midi 沧海一声笑”
结果:已搜索有关inurl:midi 沧海一声笑的中文(简体)网页
共约有14项查询结果
这是第1-10项
搜索用时0.01秒
示例:查找微软网站上关于windows2000的安全课题资料
搜索:“inurlecurity windows2000 site:microsoft.com”
结果:已在microsoft.com内搜索有关 inurlecurity windows2000的网页
共约有198项查询结果
这是第1-10项
搜索用时0.37秒
注意:“inurl:”后面不能有空格
GOOGLE也不对URL符号如“/”进行搜索
GOOGLE对“cgi-bin/phf”中的“/”当成空格处理
allinurl语法返回的网页的链接中包含所有查询关键字
这个查询的对象只集中于网页的链接字符串
示例:查找可能具有PHF安全漏洞的公司网站
通常这些网站的CGI-BIN目录中含有PHF脚本程序(这个脚本是不安全的)
表现在链接中就是“域名/cgi-bin/phf”
语法:“allinurl:"cgi-bin" phf +com”
搜索:已向英特网搜索allinurl:"cgi-bin" phf +com. 共约有40项查询结果
这是第1-10项
搜索用时0.06秒
allintitle和intitle的用法类似于上面的allinurl和inurl
只是后者对URL进行查询
而前者对网页的标题栏进行查询
网页标题
就是HTML标记语言title中之间的部分
网页设计的一个原则就是要把主页的关键内容用简洁的语言表示在网页标题中
因此
只查询标题栏
通常也可以找到高相关率的专题页面
示例:查找******明星藤原纪香的照片集
搜索:“intitle:藤原纪香 写真”
结果:已搜索有关intitle:藤原纪香 写真的中文(简体)网页
共约有284项查询结果
这是第1-10项
搜索用时0.03秒
GOOGLE的罕用高级搜索语法:related
cache
info
related用来搜索结构内容方面相似的网页
例:搜索所有与中文新浪网主页相似的页面(如网易首页
搜狐首页
中华网首页等)
“related:www.sina.com.cn/index.shtml”
cache用来搜索GOOGLE服务器上某页面的缓存
这个功能同“网页快照”
通常用于查找某些已经被删除的死链接网页
相当于使用普通搜索结果页面中的“网页快照”功能
info用来显示与某链接相关的一系列搜索
提供cache、link、related和完全包含该链接的网页的功能
示例:查找和新浪首页相关的一些资讯
搜索:“infwww.sina.com.cn”
结果:有关www.sina.com.cn的网页信息
新浪首页
北京站 上海站 广东站. ... 游戏世界, |, 影音娱乐, |, Club缘, |, 男
人女人, |, 论坛聊天, |, 时尚潮流, |, 文教育儿, |, 车行天下, |,
软件下载. ...
Google 提供这个网址的信息:
查看Google网页快照里www.sina.com.cn的存档
寻找和www.sina.com.cn类似的网页
寻找网页有链接到www.sina.com.cn
寻找网页包含有`www.sina.com.cn`
六
其他重要功能
目录服务
如果不想搜索网页
而是想寻找某些专题网站
可以访问GOOGLE的分类目录“http://directory.google.com/”
中文目录是“http://directory.google.com/Top/World/Chinese_Simplified/”
不过由于GOOGLE的目录由志愿者服务
而GOOGLE在国内名气相对比较小
因此中文目录下收录站点很少
工具条
为了方便搜索者
GOOGLE提供了工具条
集成于浏览器中
用户无需打开GOOGLE主页就可以在工具条内输入关键字进行搜索
此外
工具条还提供了其他许多功能
如显示页面PageRank等
最方便的一点在于用户可以快捷的在GOOGLE主页、目录服务、新闻组搜索、高级搜索和搜索设定之间切换
欲安装GOOGLE的工具条
可以访问“http://toolbar.google.com/”
按页面提示可以自动下载并安装
新闻组(USENET)搜索
新闻组中有大量的有价值信息
DEJA一直是新闻组搜索引擎中的佼佼者
2001年2月份
GOOGLE将DEJA收购并提供了所有DEJA的功能
现在
除了搜索之外
GOOGLE还支持新闻组的WEB方式浏览和张贴功能
输入“http://groups.google.com/”后
便进入GOOGLE新闻组界面
可惜现在还没有中文界面
因为新闻组中的帖子实在是多
所以我点击“Advaced Groups Search”进入高级搜索界面http://groups.google.com/advanced_group_search
新闻组高级搜索界面提供对关键字、新闻组、主题、作者、帖子序号、语言和发布日期的条件搜索
其中作者项指作者发帖所用的唯一识别号电子信箱
比如要在alt.chinese.text内搜索著名老牌网络写手图雅的帖子
可以用下列指令“group:alt.chinese.text author:tuya@ccmail.uoregon.edu”
不过一般而言
我更推荐使用图形搜索界面
方便而且直观
搜索结果翻译
曾经为那些你不懂的法文、西班牙文页面烦恼么?现在
GOOGLE支持一项搜索结果翻译功能
可以把非英文的搜索结果翻译成英文!!虽然目前只支持有限的拉丁语、法语、西班牙语、德语和葡萄牙文
但是我不得不承认
这是个伟大的改进
不过
目前只能在英文状态GOOGLE下实现这个功能
进入GOOGLE的设置页面
http://www.google.com/preferences
有一个“BETA: Enable translation of search results into your interface language. ”的选项
把它选中
就OK了
搜索结果过滤
网络上的成人内容浩如烟海
而且很多站点具有欺骗或者其他不良企图
浏览者很容易掉入其中的陷阱
为此
GOOGLE新设立了成人内容过滤功能
见GOOGLE的设置页面
http://www.google.com/preferences
最底下有一个选项SafeSearch Filtering
不过
中文状态下的GOOGLE尚没有这个功能
PDF文档搜索
我对GOOGLE尤其欣赏的一点就是它提供对PDF文档内文的检索
目前GOOGLE检索的PDF文档大约有2500万左右
这真是太美妙了
PDF是ADOBE公司开发的电子文档格式
现在已经成为互联网的电子化出版标准
PDF文档通常是一些图文并茂的综合性文档
提供的资讯一般比较集中全面
示例:搜索关于电子商务(ECOMMERCE)的PDF文档
搜索:“inurldf ecommerce”
结果:已向英特网搜索inurldf ecommerce. 共约有19,200项查询结果
这是第1-10项
搜索用时0.11秒
下面是某项搜索结果:
[PDF] www.usi.net/pdf/outsoucing-ecommerce.pdf
Outsourcing Electronic Commerce Business Case White Paper By: John P. Sahlin, Product
Marketing Professonial (PMP) Implementation Manager, Web Engineering ...
一般文字档 - 类似网页
可以看到
GOOGLE在PDF档前加上了[PDF]的标记
而且
GOOGLE把PDF文件转换成了文字档
点击“一般文字档”
可以粗略的查看该PDF文档的大致内容
当然
PDF原有的图片以及格式是没有了
图像文档搜索
GOOGLE提供了Internet上图像文件的搜索功能!!目前该功能尚在B测试阶段
但已经非常好用
访问地址是“images.google.com”
你可以在关键字栏位内输入描述图像内容的关键字
如“britney spears”
也可以输入描述图像质量或者其他属性的关键字
如“high quality”
GOOGLE给出的搜索结果具有一个直观的缩略图(THUMBNAIL)
以及对该缩略图的简单描述
如图像文件名称
以及大小等
点击缩略图
页面分成两祯
上祯是图像之缩略图
以及页面链接
而下祯
则是该图像所处的页面
屏幕右上角有一个“Remove Frame”的按钮
可以把框架页面迅速切换到单祯的结果页面
非常方便
GOOGLE还提供了对成人内容图像的限制功能
可以让搜索者免受不必要的骚扰
不过
非常遗憾的是
图像搜索功能还不支持中文
七
搜索技巧杂谈
关键词的选择在搜索中起到决定性的作用
所有搜索技巧中
关键词选择是最基本也是最有效的
例一:查找《镜花缘》一书中淑士国酒保的酸话原文
分析:如果按照一般的思路
找某部小说中的具体段落
就需要用搜索引擎先找到这本书
然后再翻到该段落
这样做当然可以
但是效率很低
如果了解目标信息的构成
用一些目标信息所特有的字词
可以非常迅速的查到所需要的资料
也就是说
高效率的搜索关键字不一定就是目标信息的主题
在上面的例子中
酒保谈到酒的浓淡与贵贱的关系时
之乎者也横飞
因此
可以用特定的词语一下子找到目标资料
搜索:“酒 贵 贱 之”
OK
找到的第一条信息就是镜花缘的这一段落:“先生听者:今以酒醋论之
酒价贱之
醋价贵之
因何贱之?为甚贵之?真所分之
在其味之
酒昧淡之
故而贱之;醋味厚之
所以贵之
...”
以上的关键字选择技巧可以谓之“特定词法”
例二:“黄花闺女”一词中“黄花”是什么意思
分析:“黄花闺女”是一个约定的俗语
如果只用“黄花闺女 黄花”做关键词
搜索结果将浩如烟海
没什么价值
因此必须要加更多的关键词
约束搜索结果
选择什么关键词好呢?备选的有“意思”、“含义”、“来历”、“由来”、“典故”、“出典”、“渊源”等
可以猜到的是
类似的资料
应该包含在一些民俗介绍性的文字里
所以用诸如“来历”、“由来”、“出典”等词汇的概率更高一些
搜索:“黄花闺女 黄花 由来”
查到“黄花”原来出典于《太平御览》
与南朝的寿阳公主相关
如果想获得第一手资料
那就可以用“太平御览 寿阳公主”做搜索了
以上的关键字选择技巧可以谓之“近义词法”
例三:刘德华同志的胸围是多少
分析:首先声明
这是某个MM要我做的搜索
我把它作为搜索案例而已
没其他的意思
非常直接的搜索是
“刘德华 胸围”
但事实上
这么搜索出来的结果
尽是一些诸如“刘德华取笑莫文蔚胸围太小”之类的八卦新闻
无法快速得到所需要的资料
可以想到的是
需要的资料应该包含在刘德华的全面介绍性文字中
除了胸围
应该还包括他的身高
体重
生日等一系列相关信息
OK
这样就可以进一步的增加其他约束性关键词以缩小搜索范围
搜索:“刘德华 胸围 身高”
没有料到的情况发生了
网上炙手可热的痞子蔡《第一次亲密接触》里居然含有这样关键字
阿泰“改编自刘德华《忘情水》的变态歪歌”、“用身高体重三围和生日来加以编号”
好办
把这部小说去掉
“刘德华 胸围 身高 -阿泰”
OK
结果出来了
华仔胸围84cm
说明一下
为什么用“阿泰”而不用“第一次亲密接触”呢?这是因为小说的名字被转载的时候可能有变动
但里面角色的名字是不会变的
以上的关键字选择技巧可以谓之“相关词法”
八
其他常用搜索个案
例一:找人
分析:一个人在网上揭示的资料通常有:姓名
网名
性别
年龄
毕业学校
工作单位
外号
住址
电话
信箱
BP
手机号码
ICQ号
OICQ号等等
所以
如果你要了解一下你多年没见过的同学
那不妨用上述信息做关键字进行查询
也许会有大的收获
例二:找软件
分析一:最简单的搜索当然就是直接以软件名称以及版本号为关键字查询
但是
仅仅有软件名称和目标网站
显然还不行
因为搜索到的可能是软件的相关新闻
应该再增加一个关键字
考虑到下载页面上常有“点击此处下载”或者“download”的提示语
因此
可以增加“下载”或者“download”为关键字
搜索:“winzip 8.0 下载”
结果:已搜索有关winzip 8.0 下载的中文(简体)网页
共约有6,670项查询结果
这是第1-10项
搜索用时0.22秒
分析二:很多网站设有专门的下载目录
而且就命名为“download”
因此
可以用INURL语法直接搜索这些下载目录
搜索:“winzip 8.0 inurlownload”
结果:已搜索有关winzip 8.0 inurlownload的中文(简体)网页
共约有358项查询结果
这是第1-10项
搜索用时0.44秒
在互联网上随意的下载软件是不安全的
因为供下载的软件有可能带有病毒或者捆绑了木马
所以
对下载网站作一个限定
是一个稳妥的思路
可以用SITE语法达到这个目的
共享软件下载完之后
使用的时候
软件总跳出警示框
或者软件的功能受到一定限制
由于中国的网民多是穷棒子
所以应该再找一个注册码
找注册码
除了软件的名称和版本号外
还需要有诸如“serial number”、“sn”、“序列号”等关键字
现在
来搜索一下winzip8.0的注册码
搜索:“winzip 8.0 sn”
结果:已向英特网搜索winzip 8.0 sn. 共约有777项查询结果
这是第1-10项
搜索用时0.30秒
例三:找图片
除了GOOGLE提供的专门图片搜索功能
还可以组合使用一些搜索语法
达到图片搜索之目的
分析一:专门的图片集合
提供图片的网站通常会把图片放在某个专门目录下
如“gallary”、“album”、“photo”、“image”等
这样就可以使用INURL语法迅速找到这类目录
现在
试着找找小甜甜布兰妮的照片集
搜索:“"britney spears" inurlhoto”
结果:已向英特网搜索"britney spears" inurlhoto. 共约有2,720项查询结果
这是第1-10项
搜索用时0.23秒
分析二:提供图片集合的网页
在标题栏内通常会注明
这是谁谁的图片集合
于是就可以用INTITLE语法找到这类网页
搜索:“intitle:"britney spears" picture”
结果:已向英特网搜索intitle:"britney spears" picture. 共约有317项查询结果
这是第1-10项
搜索用时0.40秒
分析三:明星的FANS通常会申请免费个人主页来存放他们偶像的靓照
于是用SITE语法指定某免费主页提供站点
是个迅速找到图片的好办法
搜索:“"britney spears" site:geocities.com”
结果:已在geocities.com内搜索有关"britney spears"的网页
共约有5,020项查询结果
这是第1-10项
搜索用时0.47秒
例四:找MP3
分析一:提供MP3的网站
通常会建立一个叫做MP3的目录
目录底下分门别类的存放各种MP3乐曲
所以
可以用INURL语法迅速找到这类目录
现在用这个办法找找老歌“say you say me”
搜索:“"say you say me" inurl:mp3”
结果:已向英特网搜索inurl:mp3 "say you say me". 共约有155项查询结果
这是第1-10项
搜索用时0.17秒
分析二:也可以通过网页标题
找到这类提供MP3的网页
搜索:“"say you say me" intitle:mp3”
结果:已向英特网搜索"say you say me" intitle:mp3. 共约有178项查询结果
这是第1-10项
搜索用时0.73秒
当然
如果你知道某个网站的下载速度快
而且乐曲全
就可以用SITE语法先到该网站上看看有没有目标乐曲
例五:找书
分析一:对我而言
常访问的电子图书馆类网站就那么几个
比如文艺类的“www.shuku.net”
于是可以用SITE语法很简单的找到某本书(如果该网站上有的话)
比如
“旧唐书 sitehuku.net”
就可以马上找到该书
如果没有
通常别的网站上也很难找到
因此
找书的关键
是你了解一大批著名的图书馆网站
分析二:我上面介绍的第一项关键字选择技巧特定词法
对于迅速找到某书或者文章也是极其有用的
当然
这得建立在你已经读过该书
对书的内容有印象的基础上
比如如果了解堂吉诃德一书战风车的大致内容
就可以用“吉诃德 风车 桑乔”迅速找到该书
九
GOOGLE搜索FAQ
Q:如何全面的了解google.com?
A:查看网站相关页面“http://www.google.com/about.html”
Q:如何切换google.com的初始语言界面?
栏右边的“使用偏好”(Preferences)
选择“界面语言”(Interface Language)中你期望的语言
点击最下面的“设定使用偏好”(Save Preferences)按钮
需要提醒的是
GOOGLE用cookie记录这个偏好
所以如果你把浏览器的cookie功能关掉
就无法进行设定
Q:如何设定每页搜索结果显示数量?
A:同上
进入使用偏好
在该页的“查看结果”(Number of Results)选择显示结果数
数目越大
显示结果需要的时间越长
默认是10项
Q:搜索到的链接无法打开怎么办?
A:链接无法打开的原因很多
比如网站当机
或者ISP过滤等
可以点击GOOGLE的“网页快照”查看在GOOGLE服务器上的网页缓存
Q:打开搜索结果的链接
可是该页面太大
很难找到一下子找到目的资料怎么办?
A:直接打开“网页快照”
GOOGLE会把关键词用不同颜色标记出来
很容易找到. |
|