Quantcast
Channel: 青蛙的分享 - 小众软件官方论坛
Viewing all articles
Browse latest Browse all 88

在笔记本电脑上索引所有英文版本的维基百科

$
0
0

由于 JVector 库的最新进展(将成为即将发布的 3.0 版本的一部分),在笔记本电脑上对整个英语维基百科进行索引已成为现实。

这篇文章详细介绍了如何做到这一点。

注意,这是因为早前 Cohere 发布了一个包含所有维基百科的数据集,通过多语言 v3 模型对其进行分块并嵌入到向量中。

自己计算如此多的嵌入将花费大约 5000 美元。

以及需要:

  1. Linux / macOS,不支持 Windows
  2. 数据集大约有 180GB 可用空间,完整索引有 90GB 可用空间。
  3. 在构建期间有足够的 RAM 来运行具有 36GB 堆空间的 JVM(约 28GB 用于索引,8GB 用于 GC 余量)。
  4. 在构建索引之前禁用交换。 Linux 会积极尝试缓存正在构建的索引,以至于交换出 JVM 堆的部分内容,这显然会适得其反。 在我的测试中,启用交换的构建速度几乎是关闭交换时的两倍。

3 个帖子 - 3 位参与者

阅读完整话题


Viewing all articles
Browse latest Browse all 88

Trending Articles