2023年4月13日 23:29:23go评论192阅读模式

英文:

Question and answer over multiple csv files in langchain

问题

我有一个包含多个 CSV 文件的文件夹，我正在尝试找出一种方法将它们全部加载到 langchain 中并在所有文件上提出问题。

目前我所拥有的代码如下。

from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.vectorstores import Chroma
from langchain.text_splitter import CharacterTextSplitter
from langchain import OpenAI, VectorDBQA
from langchain.document_loaders import DirectoryLoader
from langchain.document_loaders.csv_loader import CSVLoader
import magic
import os
import nltk

os.environ['OPENAI_API_KEY'] = '...'

loader = DirectoryLoader('../data/', glob='**/*.csv', loader_cls=CSVLoader)

documents = loader.load()

text_splitter = CharacterTextSplitter(chunk_size=400, chunk_overlap=0)

texts = text_splitter.split_documents(documents)

embeddings = OpenAIEmbeddings(openai_api_key=os.environ['OPENAI_API_KEY'])

docsearch = Chroma.from_documents(texts, embeddings)

qa = VectorDBQA.from_chain_type(llm=OpenAI(), chain_type="stuff", vectorstore=docsearch)

query = "how many females are present?"
qa.run(query)

英文:

I've a folder with multiple csv files, I'm trying to figure out a way to load them all into langchain and ask questions over all of them.

Here's what I have so far.

from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.vectorstores import Chroma
from langchain.text_splitter import CharacterTextSplitter
from langchain import OpenAI, VectorDBQA
from langchain.document_loaders import DirectoryLoader
from langchain.document_loaders.csv_loader import CSVLoader
import magic
import os
import nltk

os.environ[&#39;OPENAI_API_KEY&#39;] = &#39;...&#39;

loader = DirectoryLoader(&#39;../data/&#39;, glob=&#39;**/*.csv&#39;, loader_cls=CSVLoader)

documents = loader.load()

text_splitter = CharacterTextSplitter(chunk_size=400, chunk_overlap=0)

texts = text_splitter.split_documents(documents)

embeddings = OpenAIEmbeddings(openai_api_key=os.environ[&#39;OPENAI_API_KEY&#39;])

docsearch = Chroma.from_documents(texts, embeddings)

qa = VectorDBQA.from_chain_type(llm=OpenAI(), chain_type=&quot;stuff&quot;, vectorstore=docsearch)

query = &quot;how many females are present?&quot;
qa.run(query)

答案1

得分: 1

你应该将它们全部加载到向量存储中，例如 Pinecone 或 Metal。然后根据是否需要内存，使用 RetrievalQAChain 或 ConversationalRetrievalChain。

英文:

You should load them all into a vectorstore such as Pinecone or Metal. Then use a RetrievalQAChain or ConversationalRetrievalChain depending on if you want memory or not.

答案2

得分: 1

以下是翻译好的部分：

"不确定您是想要将多个 CSV 文件集成到您的查询中，还是要在它们之间进行比较。如果您想要比较/查看多个 CSV 文件之间的差异，并使用类似的查询单个文件的方法，可以参考以下链接：https://python.langchain.com/en/latest/modules/agents/toolkits/examples/csv.html

agent = create_csv_agent(OpenAI(temperature=0), [&#39;titanic.csv&#39;, &#39;titanic_age_fillna.csv&#39;], verbose=True)
agent.run(&quot;age 列中有多少行不同？&quot;)

详细信息的截图

英文:

Not sure whether you want to integrate multiple csv files for your query or compare among them. Here is the link if you want to compare/see the differences among multiple csv files using similar approach with querying one file. https://python.langchain.com/en/latest/modules/agents/toolkits/examples/csv.html

agent = create_csv_agent(OpenAI(temperature=0), [&#39;titanic.csv&#39;, &#39;titanic_age_fillna.csv&#39;], verbose=True)
agent.run(&quot;how many rows in the age column are different?&quot;)

screenshot for more details

答案3

得分: 0

你也可以考虑使用开源的本地LLM，例如llama2，来实现此目的。尝试localGPT。https://github.com/PromtEngineer/localGPT

英文:

You can also consider using open source local LLM like llama2 for this purpose. Try localGPT. https://github.com/PromtEngineer/localGPT

通过集体智慧和协作来改善编程学习和解决问题的方式。致力于成为全球开发者共同参与的知识库，让每个人都能够通过互相帮助和分享经验来进步。

Question and answer over multiple csv files in langchain

问题

答案1

答案2

答案3

遇到问题：在点击按钮后无法获取HTML / WebDriverWait 在条件明显满足时超时

在Python中通过列表匹配删除列表中的重复项。

合并字典以保留相同值以及不同值。

将两个数据框有条件地合并，然后将输出写入文本文件。

What's the correct way to type hint an empty list as a literal in python?

如何在Highcharts Gantt中更改本地化的星期名称

如何在同一个流中使用多个过滤器和映射函数？

如何使用Map/Set来将代码优化到O(n)？

.NET MAUI Android在GitHub Actions上构建失败，错误代码为1。

如何在Playwright视觉比较中屏蔽多个定位器？

在C++中，可以使用可变模板参数来检索类型的内部类型。

selenium.common.exceptions.StaleElementReferenceException: Message: stale element reference: stale element not found

Creating and opening a URL to log in to Website via Basic Auth with Robot Framework/Selenium (Python)

AG Grid 在上下文菜单中以大文本形式打开

发表评论