Skip to main content

搜索之法

我们每天都使用各种各样的搜索引擎来获取信息,当你在搜索框中输入关键词或者语句,你就能在毫秒级内得到你想要的答案。你是否有问过自己这样一个问题:为什么搜索引擎能够在毫秒级内给出如此精确的搜索结果?它背后的原理是什么?

我们的每一次搜索就像是和机器的对话,机器是有其既定的规则,但它也会通过各种高级的算法来进行自我优化。但是我们是人,并且还是有自己个性和想法的人,想要让机器更好地懂得你的意图,我们就有必要了解它的【行为准则】,因此了解搜索引擎的原理有助于我们建立一个清晰的搜索模型以及思维方式。

搜索引擎背后的原理

这里偷个懒,三分钟的 Google 官方介绍视频,带你简单直观地了解搜索引擎背后的工作原理。 搜索引擎科普

简单总结一下,搜索引擎通过分析理解你输入的Query(问题),从网页中抓取相关信息,然后整理成最后的结果呈现给你。

当你提供给搜索引擎的信息不够明确时,我们就会发现搜索引擎会根据你的信息作出一些预测。

比如我在百度里面输入【时间管理】,搜索框的提示栏随即预测你会输入【时间管理大师】的词条,然后我们抱着好奇心点进去一看,内容大家都明白,不多说。

image-20220222214948341

但是既然搜索引擎是机器,就不可能完美地猜测你脑海里真正想搜索的信息,这种时候就需要你去优化你输入的Query,让搜索引擎更好地来理解你的诉求。

同时我们也能够发现一些中文里的虚词对搜索结果基本上是没有任何影响的,这也可以让我们更加简洁明了地描述我们的问题。比如说,像“怎么” “如何”等等一些没有实际意义的虚词或者语气词,我们都可以在初次搜索时去掉。

优化Query的方式一般来说有三种:

(1)修改关键词

(2)使用高级搜索指令

(3)使用搜索工具来过滤搜索结果。

我自己总结整理了一个 PACE 模型,来帮助你更好地优化自己的搜索结果。

PACE模型

容我先牵强附会地解释一下这个模型的含义:PACE英文本意为节奏,步距。换句话说,在你刚开始并不熟练时,先强迫自己按照这个模型一步步进行分析,而不是一开始就往搜索框里输入关键词。

等你拥有了自己的信息渠道库后,这个模型每一步之间的顺序就可以随意而为。等到那时,我想你就能随心所欲地搜到自己想要的信息了。

Predict-预测

PACE的模型第一步是预测,也就是 Predict 。

进行预测的目的是要对所需要搜索的信息进行一个大致的预测,从而避免不必要的时间浪费。

一般来说,可以从以下三个维度进行思考和权衡:

(1)信息或者资源是否存在。在搜索之前,我们可以先简单判断一下自己所要搜索的信息或者资源是不是能够找到。比如才出版不到半个月的新书,就完全没必要花大量时间去网络上寻找它的电子版,因为99%的可能你根本找不到对应的电子书资源。

(2)特定领域的特定渠道。假如你是金融领域的工作者,那么你就完全没有必要在搜索引擎上搜索一些相关的数据,而是应该去专业的财经网站以及数据网站寻找对应的信息。

(3)信息和资源的重要程度。如果你要搜索的信息的真实性和准确性很重要。

举个例子,假如你要购买一套房子,如此大额的金额支出,我想你肯定不会轻信网上任何关于房子的信息,而是应该花时间去实地考察,自己去看看那里的环境。

假如你要学习雅思托福,网上免费的课程资料的确层出不穷,自学倒也可行。但现在现在你的备考时间很紧张且以前没有接触过雅思,英语基础也不好,花钱去找老师带你度过小白阶段自然是很有必要的了。

如果你轻信那些网盘里分享的免费资料,浪费时间学了一些过时的题型和方法,最后不仅浪费考试费用,还迟迟出不了满意的成绩。

举个我自己的实践案例——我是怎么自学GRE和“半自学”托福的。(请大家谨慎模仿)

先说GRE,因为之前从来没接触过,所以我直接去b站搜索有没有什么带领小白入门的课程。

无意间发现了一家机构录制的系列视频,基本上介绍了关于考试的方方面面以及所有的答题方法。因为第一印象感觉还挺靠谱的,所以我决定去深入去了解一下这个机构。

不过大家心里肯定也清楚,既然是机构,肯定要以盈利为目的,因为信息差可能不同机构之间的价格差距会很大。

但机构也有好坏之分,自学并不意味着我们不需要借助外力。一番观察之后,我花了远低于其他机构的钱购买了一些真题资源和配套的答疑服务。当然同时我也多留了一个心眼,顺手购买了一些相关的辅导书,比对进行学习。

因为GRE的难点在于单词填空和阅读,做题正确率很大程度上取决于我们积累的词汇以及刷题熟练度,所以我也能根据自己的实力判断出来,GRE对我来说更加适合刷题。

再来聊聊托福的备考过程。稍微熟悉托福的童鞋应该都知道托福有听说读写四个部分,而往往我们中国学生的弱项在于口语和写作,恰恰这两门科目又是非常需要老师给予反馈。

再加上我的备考时间比较紧张(不到两个月),因此我在一开始就决定,这两门科目一定要找老师辅导,给予我反馈,这样才能有比较大的提升。

我并不需要老师手把手把这两个科目从头讲到尾,一些基本的方法论我完全可以自学。我需要的是老师给我指出我的薄弱之处,进行针对性的提升。于是我联系到自己做英语培训的亲戚进行针对性地授课,而非必须像其他机构一样绑定购买全部的课程。

你会发现之前两门课程的学习路径我都根据自己的实际情况进行了分析,并且根据我自己拥有的资源,最后得到了一个性价比还算不错的学习方案。。

这样的「预测」其实就是你对所要搜索的信息最直观的感觉。这种感觉的培养并没有方法或者捷径,而是取决于你自己的信息来源。关键是你在搜索信息时需要意识到「预测」这一步,先行筛选可能的信息渠道,而非遇到问题就去求助某度,白白浪费时间不说,还很难得到自己满意的答案。

2.分析

第二步叫做分析(Analyze),我把它分为两个大方向。

第一个是你有明确的搜索方向。比如说我想下载《活着》这本电子书,这个需求就没有进一步分析的必要,结合之后讲到的搜索途径就能够很快地得到搜索结果。

第二种是自己的搜索方向是模糊或者笼统的。这其实也是我们实际生活中最经常遇到的情况,同样也是最考验我们搜集信息和辨别信息的能力。

举几个栗子:

(1)该怎么准备考研?

(2)找实习该怎么找?

(3)出去旅游该怎么规划线路?

你会发现这类问题都会比较宽泛,你仅仅把这些问题输入到搜索框里并不会找到满意的答案。

因为你没有给搜索引擎一个准确的描述,再加上问题本身比较大而空洞,它自然也不会给你满意的结果。

那么怎么才能准确地去描述我们的问题呢?

Step1:初步了解

如果我们并没有一个明确的搜索方向,本质上是因为我们对搜索的内容并不了解。既然不了解,自然不知道怎么去描述它,更没有办法提取关键词。

还是拿之前讲到的托福备考为例,我一开始怎么了解的呢?

其实我的第一步和大部分人的做法是一样的,直接先把问题输入输入到搜索引擎中。虽然给我的结果并不是我满意的,但是通过这样的搜索你已经对自己真正所需要的信息有了更深层次的了解。

像这样的备考经验,备考规划等等问题,肯定就是上知乎去看看过来人的经验,一般这样的问题在知乎上都有过来人给出他们自己的真实经历,大多数都是真实可靠的。

一般浏览几个回答之后,你会发现它们讲的确实不咋滴,太过于笼统,大部分都是自己的经验之谈,推荐了很多资料,但是你作为小白却头被绕晕了。

甚至还有这样打着名义来推荐课程的(上图中千赞回答的评论区),知乎上也开始鱼龙混杂了。

不过通过这样的粗略浏览,我发现我至少对托福具体是什么,自学难度如何,大概考哪些内容清楚了。建立了初步认识后,接下来就是进一步根据自己的情况去分析问题了。

在了解信息的过程中,你也一定会碰到一些良心回答和建议。正确的做法把对应的链接保存下来,这样当你再次需要寻找它们时,就不必浪费时间再去慢慢搜索和筛选了。

Step2:定义问题

明确你需要解决的核心的问题真正是什么?切忌一上来找到资源之后开始漫无目的地猛学,学到一半才惊觉学的内容对自己需要解决的问题并没有什么卵用。

对问题的精准定义才能明确之后搜集信息的方向。

举个例子,之前有个读者问我:怎么才能拥有像你这样的写作能力呀?

我当时多问了一句,为什么你需要提升自己的写作能力呢?

他告诉我说:因为只有写出高质量的文章才能火,被人转发。

我又多问了他这么做背后的原因,略微总结一番,可以得到这样的逻辑链条:

因为转发高了才能带来粉丝,粉丝多了才可以接广告,接了广告我才能赚钱,赚钱了我就能靠自媒体养活自己了。

你会发现最后问题的本质是什么?

他想通过自媒体赚钱来养活自己,那么单单从这个目的来说,提升写作能力反而是最低效的方式。因为写作需要一个人长期的积累才能出高质量的文章,就算出高质量的文章也不一定会被人看到。

可你如果仅仅想做自媒体来赚钱,有很多方式都比提升写作能力来的实在和高效。你可以去帮别人代运营账号,你可以尝试去做 up主,那并不需要你又很高的写作水平。这些都比你去提升写作能力更为实用,你接下来去搜集信息的真正方向就应该是这些,而不是简简单单地提升自己的写作水平。

定义问题本身也没什么高深的技巧,就是有意识对你需要解决的问题多问问为什么,找到自己真正想要解决问题的关键点,才能明确之后搜集信息的方向。

Step3:拆分问题

拆分的目的是帮助你把一个复杂并且模糊的问题拆分成更为具体以及熟悉的小问题来逐步攻克。

在举例之前,先介绍两个实用的思维模型,能够帮你更加有效地拆分问题。

(1)MECE 原则

MECE 原则全称叫做 mutually exclusive collectively exhaustive,翻译成中文:不重复不遗漏。

我们运用这个原则的主要目的是用来帮助我们更全面地分析一个问题。

通常我们会使用一些互斥的概念,比如上下、内外、是非、有无、现状-未来、真-假,这样的概念彼此之间是没有重复部分。这么做的好处显而易见,能够让我们尽可能不遗漏任何需要考虑的因素。

举个简单的例子,下面思维导图中的公共课和专业课就是两组互斥的概念。

(2)5W1H 框架

分享一个很实用的5W1H模型,这个模型的意义在于:让我们有意识地从不同角度去思考问题。

让我们来用这个模型来分析一下【该怎么去找实习】这个问题。

  1. Who:谁知道实习的一手信息?搜索方向: 在对应公司工作过的学长学姐

  2. What:实习的具体内容是什么?搜索方向:招聘网站上的要求、知乎搜索对应工作岗位要求

  3. Why:为什么自己要去实习?搜索方向:知乎——实习的意义和好处

  4. How:我要怎么去找实习?哪些网站可以找实习? 简历该如何准备?

  5. When:什么时候该去实习?实习期限要求?寒暑假or平时上课?

  6. Where:具体去哪里实习?公司地理位置?租房信息?

你会发现根据上面的不同维度,你能够延伸出很多你需要准备的内容(表格中只列出了小部分)。当你有针对性地进行全方位的信息搜集后,是不是心里就会更加有底气了?提前了解像「租房」、「工作环境」等等一系列信息,能够帮你减少很多不必要的麻烦,

3.选择

现在到了我们 PACE 模型的第三步,选择(Choose)。

选择的关键在于:你的搜索武器库中是不是已经储备了大量的特定映射关系?

  • 你想搜索论文文献,那么你第一个想到的就应该是谷歌学术。

  • 如果你想搜索电子书,那么你就可以去虫部落电子书搜索板块看看。

  • 如果你想八卦明显的恋情,那么微博绝对是你吃瓜的不二之选。

  • 如果你想了解网友对于某个问题的看法,那么知乎中的【如何评价】blabla一定很适合你。

  • 如果你想去找各种各样的开源代码,GitHub一定是最大的开源社区,没有之一。

当然,这样的映射关系还有很多很多,通过我们平时的积累,你就能够在分析问题之后快速选择适合自己的搜索渠道,来找到自己想要的答案。

不过我们需要注意的是,互联网时代不同于以往,看似开放,实则封底。各大互联网巨头都在为了流量大肆圈地,形成一个个数据孤岛:

  • 百度上不能够搜索到微信上的公众号文章,因为微信不开放接口。
  • 谷歌上搜索不到任何 Facebook 的内容,因为 Facebook 也不开放接口。
  • ...

类似的例子还有很多,那么这意味着什么呢?这意味着仅仅靠搜索引擎,我们很难得到足够优质的信息了,有相当一部分我们所需要的信息已经超出了搜索引擎爬虫所能够触及的范围。

借助 L 先生一篇文章中的分类,我们目前所能接触到的信息有下面四种形式:

  • 信息海:完全开放的各类公开信息,也是唯一能被搜索引擎检索到的。

  • 社交圈:微博、朋友圈、Twitter、Facebook等社交平台的信息。

  • 垂直管:大众点评、美团、淘宝等生活所需的产品。

  • 内容墙:视音频等多形态的内容产品,以及由付费制、会员制所隔绝出来的内容供应。

因此,在现在互联网这个彼此圈地的环境下,我们能够获得优质信息的方式变得更加多元化,不要仅仅局限于百度,知乎,b站等等常见的搜索工具。许多专精于某个板块的APP,付费专栏以及博客等等信息源都是我们可以去获得的信息来源。

当然,鉴于每个人对于信息的需求不同,加上自己能力有限,我也很难给出一个适用于所有人的方法论。我在建立自己的信息渠道库一文里我详细介绍了我自己的秘诀,希望能够对你有所帮助。

4.执行

PACE模型的最后一步,当然是按下搜索的按钮了,别急,执行(Execute)这一步没这么简单。

之前给大家介绍了搜索引擎背后的原理,目的是想让大家意识到搜索引擎是机器,我们需要去优化自己的query,来让机器更好地理解自己的意图。

一般来说,只要我们完成了前三步,得到准确的搜索关键词之后,我们基本上就能找到自己想要的信息了。因此接下来介绍的技巧,你甚至可以不用去看,它们只是锦上添花的技巧而已。

你会发现市面上很多介绍搜索方法的文章或者课程,全都在过多地强调看似实用的技巧。它们并非没有用,只不过脱离了PACE模型的前三步,这些技巧很难帮助你解决复杂的搜索问题。我们

真正在执行搜索操作时,我们还可以优化以下三个方面:

(1)关键词处理

提高搜索准确性最高效的方式就是优化你的关键词。

其实我们对于关键词的处理往往是最容易忽视的。就算你之期接触到一些搜索技巧,大多也是告诉你一些搜索指令,就算你熟练掌握这些指令,没有了精确的关键词描述那也是白搭。

那么在进行关键词处理的时候我们可以注意的地方有哪些呢?

(1)化整为零

我们平时搜索的时候可以把自己想要搜索信息中的关键词提取出来放入到搜索引擎中,而不用完整地描述自己的问题。

举两个比较简单的例子,比如说:怎么才能在大学里脱颖而出?如果我们直接把这句话输入到搜索框中,出来的结果是这样的。如果我们化整为零后,提取关键词,大学 脱颖而出,其实可以看到搜索结果基本上是没有差异的。

(2)避免口语化的描述

一般在你知道自己确切搜索的目标是什么时候要尽可能避免,转化成搜索引擎可以理解的语言。

比如说你现在想要下载《活着》这本电子书,你当然可以在搜索框输入【活着在哪里下载】。不过如果我们直接输入【活着 pdf】,你会发现出来的结果会更加精确。

(3)采用直觉式描述

一般是在你不知道你要搜索的东西是什么的时候使用。

举个栗子,比如我现在问你鞋带末端的这个头叫什么?

这种情况下其实你就没办法去提取关键词,既然没有办法那就怎么方便怎么来。即便你心里隐隐觉得可能找不到想要的结果,但是不妨试一试。

于是我在百度输入:鞋带末端的东西叫什么?

你还别说真让我找到了在百度知道里找到了答案,它叫做绳花。

(4)切换英文搜索

当我们用中文搜索没有得到满意的结果时,可以换成英文去描述自己的问题,特别是在本身搜索的内容源自英文世界时特别有效。

作为一名工科生,我算是真真切切地感受到了英文搜索的好处。

比如说你可能在通过中文用百度搜索一些开源代码你会发现有时候还需要自己花钱才能下载,而你去Github上用英文一搜往往能免费下载。

再举个例子,我在平时的学习中不可避免会接触各种各样的芯片。比如这款叫做BTS7960的芯片,如果你直接在百度上输入这个关键词,你会发现你基本上找不到与之对应的信息。

可当我在谷歌搜索引擎上输入之后,我就立马找到了油管上别人手把手录制的详细使用教程。

如果你在中文世界没有找到满意的答案,不妨试试用英文来搜索试试,还能间接提升自己的英语水平,何乐而不为呢?

(2)高级搜索指令

这部分内容其实是比较次要的,我自己平时搜索时也只是偶尔使用而已,不过为了整个搜索体系的完整,还是简单介绍一下。

  • intitle: 加上英文的冒号,注意是英文的冒号,顾名思义就是在标题中包含关键词的全部,而不会出现把只有部分关键词出现在标题中的情况。

  • filetype: 来限定文件类型,比如你想搜索高数的教材就可以这么限定,就会发现出来的结果全部都是pdf版本的了。

  • 完全匹配搜索,还是使用英文的引号包含你要搜索的功能就可以了。你就会发现在搜索结果中所有的关键词都是连在一起的,不会把研究生出国拆成研究生和出国呈现在搜索结果之中。

  • site+英文冒号+指定网站的域名。比如说我在谷歌上搜索资己 site: zhihu.com,就可以找到我自己在知乎上留下的关于自己公众号的信息,曾经我因为留下了比较多的引流信息,一直被人举报,但是知乎没有搜索功能,于是我就可以通过这样的方式来找到我的回答中关于我自己公众号的信息。

(3)搜索工具过滤搜索结果

搜索工具过滤的功能其实和之前提到的高级搜索指令是重合的,如果你不记得上述的高级搜索指令,也可以使用搜索引擎自带的过滤工具。

具体的操作方法就不过多演示,大家知道有这么一个工具就可以了,有需要时别忘了它。

右上角的设置中找到高级搜索,点开就可以看到对应的界面了,功能基本上和高级搜索指令类似。

参考和致谢