百度Google文档搜索应用与比较
互联网上除一般网页外,还如 PDF,DOC,RTF,xls,PPT(S) 等的文档文件 , 虽然这些文件不象 HTM 文件那样多,但这些文件通常会包含一些别处没有的重要资料 , 因此具有独特的价值和吸引力 ! 所以对网络中这部分资源的挖掘和利用也是搜索引擎的一个重要功能 . 对网络的这部分资源的挖掘和分析的水平也成了衡量一个搜索引擎完整与否 , 成熟与否的重要指标 . 多文档搜索是高级搜索的重要内容 , 与其他高级搜索功能一起 , 构成高级搜索功能体系 .
我们就一些搜索案例的比较来给大家展示一些网络文档搜索的技巧 , 并对主要提供文档搜索的搜索引擎百度和 google 做一比较 , 这些比较和方法也许会对你进一步准确获得你想要的信息有帮助 !
主要比较文档数量 , 语法使用的灵活性 , 准确性 , 多语法混合使用等等
数据
Query
参比引擎
百度
filetype:doc 搜索引擎
1050
743
filetype:doc 计算语言学
546
214
filetype:doc 计算机检索
17700
6080
filetype:ppt课件
13900
1480
filetype:ppt 软件开发模型
filetype:ppt 软件 模型
560
697
919000
697
filetype:pdf xml高级编程
55
116但是匹配的质量很差,由各自不同的分次特点决定的。
filetype:pdf 服务器安全
17800
6240
filetype:xls 报名
9940
1890
filetype:xls 名单
32300
3000
表1 文档数量比较
性能
功能
参比引擎
百度
灵活性
支持三种方式查询
1 filetype:格式 关键词
2 关键词filetype:格式
3 在高级搜索里选择
支持三种方式查询
1 filetype:格式 关键词
2关键词 filetype:格式
3 在高级搜索里选择
准确性 整体上讲根网页搜索的效果差不多 ,由于各自分词的特点不同,所以对中文语义的理解上就会出现差异,所以在结果的数量并不是全部,但是对大多数关键词来说,百度的结果还是比较符合搜索目标的,而个别google的搜索结果就不太能令人满意。这也是由于google的强行前台分词造成的,结果数量多,并不精准。对于文档搜索来说准确恰当才是最重要的,数量只是其次。
多语法混用
一般的逻辑搜索:+ - | 均能很好的支持
filetype:doc 演讲稿 吴敬琏
- 相关文章
- 百度主题推广代码完全解析[12-04]
- 百度研究:如何使你的网站受百度..[12-04]
- 百度“反垃圾网站”的若干问答[12-04]
- 百度与站长的故事[12-04]
- 百度的搜索排名原则[12-04]
- 百度作弊快速妙方[12-04]
- 最新文章
- 百度主题推广代码完全解析[12-04]
- 百度研究:如何使你的网站受百度..[12-04]
- 百度“反垃圾网站”的若干问答[12-04]
- 百度与站长的故事[12-04]
- 百度的搜索排名原则[12-04]
- 百度作弊快速妙方[12-04]
