Kernel Memory 入门系列：文档预处理

风晓 2023-12-30 09:47:52  50337 赞同 0 反对 0

分类：资源

Embedding为我们提供了问题理解和文档检索的方法，但是面对大量的文档，如果在用于提问的时候再进行文档的Embedding的话，那这个过程是非常耗时的，再加之我们的文档并不会频繁变化，所以我们可以对文档进行预处理，提升检索的效率。

Alt text

文档的预处理大致分为了几个步骤：

文档的准备

首先需要把我们已有的文档整理出来，起码是需要进行检索的这些文档。文档的格式不会有很大的限制，可以是docx，也可以是pdf或者ppt，当然也可以是txt或者markdown，哪怕是图片、网页或者其他可以提取文本的文档格式都可以。
文本的提取

文本提取的过程，就是将已经整理好的文档中的文字提取出来，根据不同的文档类型匹配相应的提取方法。Kernel Memory中已经默认集成了docx、excel、ppt、pdf、plaintext(markdown、text)、json、image(via OCR)等类型的文本提取方法，如果有其他的文档类型，也可以自行添加。
文本的分片

我们的文档往往比较大，如果直接进行检索使用的话，会导致最终的提示词上下文太长，从而造成Token的浪费。另外提示词太长的话，生成的速度也会变慢，从而费时费钱。
其实另外一个最主要的原因是embedding的接口是有token限制的，所以太长的话要么造成信息丢失，要么引起生成错误。
所以最好的方法就是将文本进行分片处理。Kernel Memory中提供了一个默认的分片方法，根据文本的长度、段落、句子、标点符号等进行分片，当然也可以自行添加。
文档存储

这里其实只是做一个持久化的过程，可以用于管理文档处理的进度。
文本的Embedding

将分片好的文本进行Embedding，得到对应的向量。根据实际的需求，可以选用不同的Embedding模型，但是需要确保，最终和最终检索所使用的Embedding模型保持一致。
存储到向量数据库

将Embedding的结果存储到向量数据库中，这样的话，我们就可以在检索的时候，直接从向量数据库中读取向量，而不需要再进行Embedding，从而提升检索的效率。

一些其他的过程：

整个文档预处理的过程是讲已有的文本最终转化为向量，存储到向量数据库的过程。在这个处理流程中，另外需要消息队列来管理处理的进度。如果需要进行的文档的更新的话，可以使用文档删除的方法，将文档从向量数据库中删除，然后重新进行文档导入处理。

如果您发现该资源为电子书等存在侵权的资源或对该资源描述不正确等，可点击“私信”按钮向作者进行反馈；如作者无回复可进行平台仲裁，我们会在第一时间进行处理！

评价 0 条

相关资源

openstack如何创建项目上传含kernel、initramfs和rootfs三者的镜像 2024-01-31 48094 浏览
openstack如何创建项目上传含kernel、initramfs和rootfs三者的镜像
如何解决C++运行时错误：’out of memory exception’？ 2024-01-09 50314 浏览
引言：在C++编程中，经常会遇到内存不足的情况，特别是在处理大数据集合或者复杂的算法时。当程序无法再分配额外的内存来满足其需要时，就会抛出’out of memory exception’（内存不足异常）。本文将介绍如何解决这类问题，并给出相应的代码示例。
WPS使用技巧——为什么无法搜索到来自其它应用（如微信/QQ...）的文档？ 2023-12-16 53016 浏览
问题原因：根据系统规范，在Android 11设备上，无法直接访问其它应用内的数据。（Android 10及以下版本的设备不受影响）解决方法：您可以按照以下步骤，使用WPS Office打开其它应用内的文档（以QQ为例）： 1) 在该应用内找到所需的文档； 2) 选择 "其它应用打开" ，选择WPS Office； 3) 成功打开文档。
奔图P2200、P2500系列打印机如何查看碳粉余量？ 2023-12-20 54327 浏览
常用打印面的朋友们，应该都会经常监控打印机的碳粉用量，以便可以及时地购买耗材，避免正打印这一堆文件却没碳粉的尴尬，查看碳粉余量，难道每次都要麻烦地连接电脑吗？今天教你如何快速查看碳粉余量？适用用奔图PP2200、P2500系列打印机
奔图P3010-P3300、M6700-7300系列打印机如何调整纸盒？ 2023-12-20 48819 浏览
采购选定了奔图A4幅面打印面，可是入手后发现纸盒的长度不够，无法平整放入A4纸，2步教你如何调整纸盒。适用奔图P3010-P3300、M6700-7300系列打印机
电脑入门级最基础知识 2023-12-21 51501 浏览
适用于电脑操作人员,最基础知识
PowerShell系列（一）：PowerShell介绍和cmd命令行的区别 2023-12-25 51130 浏览
什么是Windows系统的命令行环境，之前我们在使用XP、Win7系统的时候，用的最多的就是微软官方自带的cmd命令窗口了，我们通过敲命令行窗口可以实现和操作系统之间的交互。当然随着微软技术的快速发展，到了目前比较流行的Win10操作系统，默认采用的就是PowerShell命令行交互工具了，今天就给大家介绍Powershell相关的知识，希望对大家学习能带来一些帮助！
PowerShell系列（二）：PowerShell和Python之间的差异介绍 2023-12-25 51823 浏览
今天给大家聊聊PowerShell和Python之间有哪些共同之处，各自有哪些优势，希望对运维的朋友了解两种语言能提供一些有用的信息。
飞腾软件认证动态 | 2024年5月124 款软件适配飞腾系列自主核心芯片 2024-06-28 31115 浏览
飞腾软件认证动态|2024年5月124款软件适配飞腾系列自主核心芯片
PowerShell系列（四）：PowerShell进入交互环境的几种方式 2023-12-25 49594 浏览
今天继续给大家讲解PowerShell相关的知识，本次给大家讲解基于Windows系统环境进入PowerShell交互环境的几种方式。希望对大家啊学习PowerShell能提供一些帮助！

Kernel Memory 入门系列： 文档预处理

相关资源

关注我们

Kernel Memory 入门系列：文档预处理