1998 年,Google 推出了最初名为 Backrub 的搜索引擎,在斯坦福大学校园服务器上运行,拥有 40 GB 数据,并存放在由 Duplo 块制成的机箱中。截至 2025 年,Google 的搜索功能需要多个数据中心。

Ryan Pearce 创建了一个名为 Searcha Page 的 DIY 搜索引擎,其中包括一个名为 Seek Ninja 的注重隐私的版本,服务器位于他的洗衣房里,旁边是洗衣机和烘干机。 Pearce 表示:“现在,我在洗衣房里的存储空间比 2000 年 Google 的存储空间还多。想想就觉得很疯狂。”

服务器最初位于皮尔斯的卧室,但由于温度过高而被转移到杂物间。他说:“天气还不算太热,但如果门关得太久,就会出现问题。”

Searcha Page 的结果正在改善,其数据库包含 20 亿条条目,预计在六个月内将达到 40 亿条。相比之下,正如美国诉谷歌有限责任公司反垄断审判中所披露的那样,谷歌在 1998 年拥有 2400 万个页面,到 2020 年将拥有 4000 亿个页面。

Pearce 的引擎使用大型语言模型来进行关键字扩展和上下文理解。 “我所做的实际上是非常传统的搜索,”皮尔斯说。 “这可能是谷歌 20 年前所做的,唯一的调整是我确实使用人工智能来进行关键字扩展并协助上下文理解,这是一件困难的事情。”

人工智能一直是搜索引擎的关键组成部分,包括反向图像搜索、谷歌的 RankBrain 等工具,以及 2019 年 Bing 90% 机器学习驱动的结果。人工智能现在被视为有效构建和扩展搜索引擎的一种方式。

皮尔斯利用“升级套利”,购买旧的但功能强大的服务器硬件。他的 32 核 AMD EPYC 7532 CPU 在 2020 年的售价超过 3,000 美元,现在 eBay 上的售价不到 200 美元。 “我本来可以以同样的价格购买另一个芯片,它的线程数是原来的两倍,但它会产生太多的热量,”他说。

整个系统成本为 5,000 美元,其中存储费用为 3,000 美元。 Pearce 的代码库约有 150,000 行代码,估计有 500,000 行迭代工作。

Searcha Page 和 Seek Ninja 使用 SambaNova 以低成本快速访问 Llama 3 模型。 SambaNova 的首席营销官 Annie SheaWeckesser 指出,对于像 Pearce 这样的独立开发者来说,获得低成本模型变得越来越重要,她补充说,该公司“为开发者提供了快速、经济地运行强大人工智能模型的工具,无论他们是在家庭设置中工作还是在生产中运行。”

Pearce 使用 Common Crawl 存储库来构建他的爬虫。 “我真的很感激他们。我希望我能回馈他们一些东西,但也许等我长大了,”他说。

  Roku 将 2.99 美元的 Howdy 服务引入 iOS 和 Android

最初尝试使用矢量数据库失败了,导致了“非常艺术化”的结果。 Pearce 现在使用 LLM 生成的页面摘要。另一位 DIY 搜索引擎开发人员 Wilson Lin 使用自行创建的矢量搜索工具 CoreNN,并依靠九个独立的云服务来降低成本。 “它比 [Amazon Web Services] 便宜很多,而且价格相当可观,”Lin 说。 “它让我有足够的能力以合理的预算完成这个项目。”

Pearce 最初设想了一个类似于 Marginalia 的小型网站搜索引擎,与大型科技公司相比,更倾向于小型网站。 “一个来自中国的人实际上联系了我,因为……我认为他想要一个未经审查的搜索引擎,他想通过他的法学硕士来提供这个引擎,就像他的经纪人的搜索一样,”他说。

扩展到英语之外需要新的数据集。皮尔斯计划在流量达到一定阈值后将搜索引擎转移到托管设施,并通过联盟式广告产生适度的收入。

“我的计划是,如果我超过一定的流量,我就会被接待,”皮尔斯说。 “它不会永远呆在洗衣房里。”

Fast Company 最具创新公司奖的申请截止日期为 10 月 3 日星期五晚上 11:59。 PT。