AI技术

MarkItDown

是一个由微软开发的 Python 工具,用于将多种文件和办公文档格式转换为 Markdown 格式,支持 PDF、PowerPoint、Word、Excel 等多种文件类型的转换,并且支持使用大型语言模型来描述图像。 The MarkItDown library is a utility tool for…

Read More

新方法解决向量数据库缺陷

在构建人工智能应用时,工程团队使用向量数据库,常面临管理多个数据库和复杂同步逻辑的情况。 而 Timescale 提出了一种新的方法——“向量化器(Vectorizer)”,它可以自动化创建嵌入向量、生成嵌入表、同步嵌入数据等,使构建 RAG(检索增强生成)、搜索和 AI 代理等系统更加简便。 Vectorizer 基于 PostgreSQL 实现,通过自动同步嵌入向量,解决了向量数据库存在的两大核心问题: 嵌入与源数据分离:向量数据库(如 Pinecone)将嵌入向量视为独立的数据,与源数据(如文本、图像)脱节,迫使开发团队同时管理多个系统(如 DynamoDB、OpenSearch),来处理不同类型的数据和搜索功能。 复杂的同步操作:每次数据更新、删除时,需要在多个数据库中执行同步操作,增加了系统复杂性和出错的可能性,带来了维护成本的增加。…

Read More

Cursor 代码编辑神器

最近很火的 Cursor 代码编辑神器,不少朋友放弃 GitHub Copilot ,转投 Cursor。 在这里,给大家分享一份收集了各种开发语言最佳的 Cursor 配置提示词 cursor.directory。 涵盖 Python、Next.js、TypeScript、Swift、Node.js 等多种主流语言,旨在通过这些配置使 Cursor…

Read More

2分钟学点RAG – Embedding嵌入

Embedding是一种将高维数据映射到低维向量空间的技术,用来表示数据的语义或特征信息。简单来说,嵌入是将复杂的对象(如单词、句子、图像等)转化为固定大小的数值向量。视频介绍了Embedding的基本概念,Embedding嵌入向量生成的过程。 2分钟学点RAG -… – @黄建同学 的视频 – 视频 – 微博 (weibo.com)

Read More