Google 的 Vertex AI 是一个基于 Google Cloud 的平台,企业家、开发者和 AI 研究人员可以使用它来管理他们的 AI 项目。我们在之前的文章“ Google Vertex AI:加速 AI 开发及更多”中详细讨论了整个 Vertex AI 生态系统的架构。
本文将讨论 Vertex AI 中的托管 ML 数据集以及如何使用它们来创建生成式 AI 应用程序。我们将在此介绍以下主题:
1.什么是托管数据集?
2.如何准备管理数据集?
2.1.基于图像的数据集
2.2.表格数据集
2.3.文本数据集
2.4.视频数据集
3.如何创建托管数据集?
4.结论
什么是托管数据集?
托管数据集是在 Vertex AI 框架内工作的数据集。您需要它们进行 AutoML 训练(和 Gemini 训练),但不需要它们进行自定义模型训练。
但是,通过提供多种功能,管理数据库可以减少您在 Vertex 生态系统中的工作量。托管数据库的好处包括:
1. 您可以从集中位置管理您的 菲律賓電話國碼 数据集。
2.您可以轻松创建标签和多个注释集。
3.可以创建人工标记的任务。
4.您可以根据AI模型跟踪该数据库的谱系,以进行迭代和训练。
5. 您可以使用相同的数据集训练多个模型来比较AI模型的性能。
6.您可以生成统计数据,
7.Vertex 允许您将数据集分成训练、测试 聊天机器人与对话式人工智能和验证数据。
这些功能可让您使用所需的任何数据集在 Vertex AI 上以本地方式端到端运行您的 AI 项目。您还可以使用 Google 提供的数据集来训练您的模型并检查其性能。
但是,您可以访问的数据库将 消费者数据 取决于数据集的服务器位置。由于训练和迭代的速度取决于您与所选服务器的物理距离,因此建议您选择距离项目所需的模型和训练数据集最近的位置。
现在,让我们讨论如何创建数据集。
如何为 Vertex AI 准备数据集?
可以使用Google Cloud Platform (GCP)或 Google Vertex API 创建 Vertex AI 的托管数据集。您的流程将根据您使用的数据类型和要 AI 管理机器学习数据集执行的操作而有所不同。
对于导入的每个数据集,您需要一个结构化的 JSON 或 CSV 文件,将数据放入结构中并允许注释。
准备图像数据集
用于分类的图像数据集
分类任务是自动标记图像并识别特征的任务。例如,分类任务可能是找出照片中花朵的种类。让我们来谈谈训练此类模型所需的数据。