Kernel Memory 入门系列: 文档的管理


风晓
风晓 2023-12-30 09:52:48 52572 赞同 0 反对 0
分类: 资源
在Quick Start中我们了解到如何快速直接地上传文档。但是实际中,往往会面临更多的问题,例如文档如何更新,如何划定查询范围等等。这里我们将详细介绍在Kernel Memory文档的管理。

使用Document管理一组文件

当我们需要批量上传一组文件的时候,可以使用Document来管理。

 
 
var document = new Document();
 
document.AddFile("./sample-SK-Readme.pdf");
 
document.AddFile("./sample-KM-Readme.md");
 
await memory.ImportDocumentAsync(document);
 

其中Document 作为一个对象,可以将多个文件归结到一起,可以自行指定对应的DocumentId,如果不指定的话,会生成一个随机的DocumentId,这个DocumentId后续可以用来查询文档的处理状态或者用于更新删除文档。

后续的使用和管理,将会以Document为基本的文档单位进行管理。

使用Tag进行文档标记

当我们需要对上传的文档进行范围划定时,可以使用Tag来进行标记。Tag可以理解为一个文档的属性,可以充分的自定义,例如标记文档的类型、标记文档的来源、上传的用户、所属的项目、所属的领域等等。

 
 
var document = new Document();
 
document.AddFile("./sample-SK-Readme.pdf");
 
document.AddTag("type", "pdf");
 
document.AddTag("domain", "llm");
 
document.AddTag("user", "xbotter");
 
await memory.ImportDocumentAsync(document);
 

如果导入的是单文件,或者文件流的话,可以通过另外一种方式来添加Tag。

 
 
var tags = new TagCollection();
 
tags.Add("type", "pdf");
 
tags.Add("domain", "llm");
 
tags.Add("user", "xbotter");
 
await memory.ImportFileAsync("./sample-SK-Readme.pdf", tags: tags);
 

同样也适用于文本和网页的导入:

 
 
var tags = new TagCollection();
 
await memory.ImportTextAsync("这是一段文本", tags: tags);
 
 
 
await memory.ImportUrlAsync("https://www.github.com", tags: tags);
 

检索时进行筛选

使用Tag标记的最大用途就是在检索时候进行范围的筛选,例如我们可以指定,仅在所有pdf文档范围内搜索:

 
 
await memory.AskAsync("What's the SK?", filters: MemoryFilters.ByTag("type", "pdf"));
 

当然也可以指定文档进行筛选:

 
 
await memory.AskAsync("What's the SK?", filters: MemoryFilters.ByDocument("documentId"));
 

复杂筛选条件

当我们需要复杂的筛选条件时,可以使用MemoryFilters来实现AndOr的组合方式。
MemoryFilters多次的添加ByTag条件,表示为And的关系。

 
 
await memory.AskAsync("What's the SK?", filters: MemoryFilters.ByTag("type", "pdf")
 
.ByTag("domain", "llm"));
 

添加多个MemoryFilters,表示为Or的关系。

 
 
await memory.AskAsync("What's the SK?", filters: new List<MemoryFilter>() {
 
MemoryFilters.ByTag("type", "pdf"),
 
MemoryFilters.ByTag("domain", "llm")
 
});
 

更新文档

前面提及Document概念的时候已经提到,DocumentId用来指定一个文档,当我们需要更新文档的时候,可以直接指明DocumentId,然后上传新的文档即可。

 
 
var document = new Document(docId);
 
document.AddFile("./sample-SK-Readme.pdf");
 
await memory.ImportDocumentAsync(document);
 

此时,Kernel Memory会自动将原有的文档进行替换,实现文档的更新。

删除文档

当我们需要删除文档的时候,可以使用DeleteDocumentAsync方法,指定DocumentId即可。

 
 
await memory.DeleteDocumentAsync(docId);
 

使用Index进行隔离

上传文档和搜索的时候,另外一个需要指定的参数是index,index在向量存储中,可以理解为一个命名空间,可以用来隔离不同的文档,而且在检索的时候,也是无法跨index进行检索的。

当上传和检索文档时未指定index的时候,会使用默认的index。

如果您发现该资源为电子书等存在侵权的资源或对该资源描述不正确等,可点击“私信”按钮向作者进行反馈;如作者无回复可进行平台仲裁,我们会在第一时间进行处理!

评价 0 条
风晓L1
粉丝 1 资源 2038 + 关注 私信
最近热门资源
桌面通用(全架构)【在双系统环境下隐藏Windows启动菜单】操作指南  2096
银河麒麟桌面操作系统V10(SP1)2203-如何进行远程桌面互访?  2014
银河麒麟桌面操作系统【保留数据盘重装系统】  1824
麒麟系统各种原因开不了机解决(合集)  1631
桌面通用(全架构)【rpm包转成deb包】操作方法  933
银河麒麟桌面操作系统 V10-SP1 双系统安装 efi 分区问题  917
统信系统安装(合集)  863
统信桌面专业版【手动分区安装UOS系统】介绍  850
统启动异常几种类型(initramfs 模式)  691
银河麒麟服务器操作系统V10(X86|ARM)【进入单用户模式】操作方法  21
最近下载排行榜
桌面通用(全架构)【在双系统环境下隐藏Windows启动菜单】操作指南 0
银河麒麟桌面操作系统V10(SP1)2203-如何进行远程桌面互访? 0
银河麒麟桌面操作系统【保留数据盘重装系统】 0
麒麟系统各种原因开不了机解决(合集) 0
桌面通用(全架构)【rpm包转成deb包】操作方法 0
银河麒麟桌面操作系统 V10-SP1 双系统安装 efi 分区问题 0
统信系统安装(合集) 0
统信桌面专业版【手动分区安装UOS系统】介绍 0
统启动异常几种类型(initramfs 模式) 0
银河麒麟服务器操作系统V10(X86|ARM)【进入单用户模式】操作方法 0
作者收入月榜
1

prtyaa 收益393.72元

2

zlj141319 收益221.42元

3

1843880570 收益214.2元

4

IT-feng 收益213.03元

5

风晓 收益208.24元

6

777 收益172.82元

7

Fhawking 收益106.6元

8

信创来了 收益105.89元

9

克里斯蒂亚诺诺 收益91.08元

10

技术-小陈 收益79.65元

请使用微信扫码

加入交流群

请使用微信扫一扫!