如何使用Hugging Face Transformers微调F5以回答问题?

译者 | 布加迪审校 | 重楼使用Hugging Face Transformers对T5模型进行微调以处理问题回答任务很简单:只需为模型提供问题和上下文,它就能学会生成正确的答案。 T5是一个功能强大的模型,旨在帮助计算机理解和生成人类语言。 T5的全称是“文本到文本转换器”。

如何使用Hugging Face Transformers微调F5以回答问题?

译者 | 布加迪

审校 | 重楼

使用Hugging Face Transformers对T5模型进行微调以处理问题回答任务很简单:只需为模型提供问题和上下文,它就能学会生成正确的答案。

T5是一个功能强大的模型,旨在帮助计算机理解和生成人类语言。T5的全称是“文本到文本转换器”。它是一个可以完成许多语言任务的模型。T5将所有任务视为文本到文本问题。我们在本文中将学习如何优化T5以回答问题。

安装所需的库

首先,我们必须安装必要的库:

复制
pip install transformers datasets torch
  • Transformer:提供T5模型及其他Transformer架构的Hugging Face库。
  • 数据集:访问和处理数据集的库。
  • Torch:帮助构建和训练神经网络的深度学习库。

加载数据集

为了对T5进行微调以回答问题,我们将使用BoolQ数据集,该数据集含有答案为二进制(是/否)的问题/答案对。你可以使用Hugging Face的数据集库来加载BoolQ数据集。

复制
from datasets import load_dataset

# Load the BoolQ dataset
dataset = load_dataset("boolq")

# Display the first few rows of the dataset
print(dataset['train'].to_pandas().head())

如何使用Hugging Face Transformers微调F5以回答问题?

预处理数据

T5要求输入采用特定的格式。我们需要更改数据集,以便问题和答案都是文本格式。输入格式为问题:上下文:,输出将是答案。现在,我们需要加载T5模型及其分词器(Tokenizer)。分词器将把我们的文本输入转换成模型可以理解的词元ID(token ID)。接下来,我们需要对输入和输出数据进行分词。分词器将文本转换成输入ID和注意力掩码,这是训练模型所必需的。

复制
from transformers import T5Tokenizer, T5ForConditionalGeneration, Trainer, TrainingArguments

# Initialize the T5 tokenizer and model (T5-small in this case)
tokenizer = T5Tokenizer.from_pretrained("t5-small")
model = T5ForConditionalGeneration.from_pretrained("t5-small")

# Preprocessing the dataset: Prepare input-output pairs for T5
def preprocess_function(examples):
    inputs = [f"Question: {question}  Passage: {passage}" for question, passage in zip(examples['question'], examples['passage'])]
    targets = ['true' if answer else 'false' for answer in examples['answer']]
    
    # Tokenize inputs and outputs
    model_inputs = tokenizer(inputs, max_length=512, truncation=True, padding='max_length')
    labels = tokenizer(targets, max_length=10, truncation=True, padding='max_length')
    model_inputs["labels"] = labels["input_ids"]
    
    return model_inputs

# Preprocess the dataset
tokenized_dataset = dataset.map(preprocess_function, batched=True)

微调T5

现在数据已经准备好了,我们可以对T5模型进行微调了。Hugging的Trainer API通过处理训练循环、优化和评估简化了这个过程。

复制
from transformers import Trainer, TrainingArguments

training_args = TrainingArguments(
    output_dir="./results",
    evaluation_strategy="epoch",
    learning_rate=2e-5,
    per_device_train_batch_size=8,
    per_device_eval_batch_size=8,
    num_train_epochs=3,
    weight_decay=0.01,
    logging_dir="./logs",
    logging_steps=10,
)

# Initialize the Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_dataset["train"],
    eval_dataset=tokenized_dataset["validation"],
)

# Fine-tune the model
trainer.train()

评估模型

在微调之后,重要的是在验证集上评估模型,看看它如何很好地回答问题。你可以使用Trainer的评估方法。

复制
# Evaluate the model on the validation dataset
eval_results = trainer.evaluate()

# Print the evaluation results
print(f"Evaluation results: {eval_results}")
Evaluation results:  {‘eval_loss’: 0.03487783297896385, ‘eval_runtime’: 37.2638, ‘eval_samples_per_second’: 87.753, ‘eval_steps_per_second’: 10.976, ‘epoch’: 3.0}

进行预测

一旦T5模型经过微调和评估,我们就可以用它来预测新的问题回答任务。为此,我们可以准备一个新的输入(问题和上下文),对其进行分词,从模型生成输出(答案)。

复制
from transformers import T5Tokenizer, T5ForConditionalGeneration

# Load the fine-tuned model and tokenizer
model = T5ForConditionalGeneration.from_pretrained("./results")
tokenizer = T5Tokenizer.from_pretrained("t5-base")

# Prepare a new input
input_text = "question: Is the sky blue? context: The sky is blue on a clear day."

# Tokenize the input
input_ids = tokenizer(input_text, return_tensors="pt").input_ids

# Generate the answer using the model
output_ids = model.generate(input_ids)

# Decode the generated tokens to get the predicted answer
predicted_answer = tokenizer.decode(output_ids[0], skip_special_tokens=True)

# Print the predicted answer
print(f"Predicted answer: {predicted_answer}")  # Predicted answer: yes

结论

总之,微调T5可以帮助它更好地回答问题。我们学习了如何准备数据和训练模型。使用Hugging库使这个过程更容易。训练后,T5可以听懂问题并给出正确的答案。这对聊天机器人或搜索引擎等许多应用大有帮助。

原文标题:How to Fine-Tune T5 for Question Answering Tasks with Hugging Face Transformers,作者:Jayita Gulati

相关资讯

成立仅半年,Mistral估值暴涨七倍,开源重塑AI战局

机器之能报道编辑:Sia烧钱的闭源,逆袭的开源。当 LLaMA 被泄露出去、任何人都可以下载时,开源的命运齿轮已经开始转动,并在 Mistral AI 最新一轮融资中达到高潮。七个月前,来自 Meta 和谷歌的研究人员在巴黎成立了 Mistral AI 。短短六个月,这家拥有22名员工的初创企业在最近 A 轮融资中筹集了 4.15 亿美元,估值从 2.6 亿美元狂飙到 20 亿美元,涨了七倍多。同时,公司也低调发布了大模型 Mixtral 8X7B。Mixtral 8x7B 采用了一种独特的架构方法——专家混合 (

完蛋!又来了一个人工智障,口无遮拦瞎回复,把微博大V整破防

机器之能报道编辑:杨文碎嘴子的AI小助理,一点不懂人情世故。别家都在疯狂卷大模型、卷 AI 视频、卷 AI 生图,唯独新浪微博,在评论小机器人上蒙眼狂飙。继那个赛博 gai 溜子「评论罗伯特」后,微博又推出了一款AI 小助理。微博官方给它立的人设是这样的:AI 小助理能够根据博主发布的历史内容,学习博主的语言风格,并以博主的口吻回复粉丝的评论,或者与粉丝进行聊天对话。理想很丰满,现实很骨感。这个 AI 小助理不按套路出牌,那小嘴跟淬了毒似的,创飞每一个喘气的人类。-1-驴唇不对马嘴瞎回复近日,微博正在小流量测试一款

AI 背后的原理是什么?如何搭建一个 AI 聊天机器人?

AI无疑是当下最热门的一个话题,不管你是不是做技术,多多少少都听过它,很多人甚至都担心自己的工作会被它取代,那么,AI的背后的原理是什么? 为什么它会这么流行? 这篇文章,我们通过搭建一个简单的聊天机器人来了解 AI背后的秘密。