Home » 部落格 » AI 管理机器学习数据集

AI 管理机器学习数据集

Google 的 Vertex AI 是一个基于 Google Cloud 的平台,企业家、开发者和 AI 研究人员可以使用它来管理他们的 AI 项目。我们在之前的文章“ Google Vertex AI:加速 AI 开发及更多”中详细讨论了整个 Vertex AI 生态系统的架构。

本文将讨论 Vertex AI 中的托管 ML 数据集以及如何使用它们来创建生成式 AI 应用程序。我们将在此介绍以下主题:

1.什么是托管数据集?

2.如何准备管理数据集?

2.1.基于图像的数据集

2.2.表格数据集

2.3.文本数据集

2.4.视频数据集

3.如何创建托管数据集?

4.结论

什么是托管数据集?

托管数据集是在 Vertex AI 框架内工作的数据集。您需要它们进行 AutoML 训练(和 Gemini 训练),但不需要它们进行自定义模型训练。

但是,通过提供多种功能,管理数据库可以减少您在 Vertex 生态系统中的工作量。托管数据库的好处包括:

1. 您可以从集中位置管理您的 菲律賓電話國碼 数据集。

2.您可以轻松创建标签和多个注释集。

3.可以创建人工标记的任务。

4.您可以根据AI模型跟踪该数据库的谱系,以进行迭代和训练。

5. 您可以使用相同的数据集训练多个模型来比较AI模型的性能。

6.您可以生成统计数据,

7.Vertex 允许您将数据集分成训练、测试 聊天机器人与对话式人工智能和验证数据。

这些功能可让您使用所需的任何数据集在 Vertex AI 上以本地方式端到端运行您的 AI 项目。您还可以使用 Google 提供的数据集来训练您的模型并检查其性能。

但是,您可以访问的数据库将 消费者数据 取决于数据集的服务器位置。由于训练和迭代的速度取决于您与所选服务器的物理距离,因此建议您选择距离项目所需的模型和训练数据集最近的位置。

现在,让我们讨论如何创建数据集。

如何为 Vertex AI 准备数据集?

可以使用Google Cloud Platform (GCP)或 Google Vertex API 创建 Vertex AI 的托管数据集。您的流程将根据您使用的数据类型和要 AI 管理机器学习数据集执行的操作而有所不同。

对于导入的每个数据集,您需要一个结构化的 JSON 或 CSV 文件,将数据放入结构中并允许注释。

准备图像数据集

用于分类的图像数据集

分类任务是自动标记图像并识别特征的任务。例如,分类任务可能是找出照片中花朵的种类。让我们来谈谈训练此类模型所需的数据。

返回頂端