第四章学习笔记第一节:混合检索一、稀疏向量vs密集向量1.1稀疏向量稀疏向量,也常被称为”词法向量”,是基于词频统计的传统信息检索方法的数学表示。它通常是一个维度极高(与词汇表大小相当)但绝大多数元素为零的向量。核心特点:采用精准的”词袋”匹配模型,将文档视为一堆词的集合向量的每一个维度都直接对应一
第三章学习笔记第一节向量嵌入一、向量嵌入基础1.1基础概念**向量嵌入(Embedding)**是一种将真实世界中复杂、高维的数据对象(如文本、图像、音频、视频等)转换为数学上易于处理的、低维、稠密的连续数值向量的技术。数据对象:任何信息,如文本”你好世界”,或一张猫的图片Embedding模型:一
第二章学习笔记第一节数据加载一、文档加载器概述在RAG系统中,数据加载是整个流水线的第一步,也是至关重要的一步。文档加载器负责将各种格式的非结构化文档(如PDF、Word、Markdown、HTML等)转换为程序可以处理的结构化数据。核心原则“垃圾进,垃圾出(GarbageIn,GarbageOut
1.核心概念拆解:为什么要搞RAG?1.1本质理解RAG(检索增强生成)说白了就是给LLM这种“文科生”发了一本实时更新的参考书。参数化知识(ParametricKnowledge):模型训练完就固化在权重里的记忆。相当于它的“内隐记忆”,不仅模糊,而且停留在训练截止日期前(TrainingCuto