数据注释是标记数据集的每个点以显示监督机器学习模型需要预测的实际输出的过程。这是对数据进行分类和标记的过程,这意味着用户将获取每个可用的数据点并手动对其进行分类以供机器学习模型使用。
例如,要构建一个机器学习模型,该模型可以拍摄猫或狗的图像,并可以区分和预测在给定图像中发现哪种动物,那么用户将需要(例如)为模型提供1,000张两者的图像动物(猫500张图像,狗500张图像)。为此,在为模型提供这些图像之前,应将每张图像标记为狗或猫。在通过模型运行它们之前将每个图像标记为这两个类别之一就是数据注释。
一个一个地标记数以万计的数据点是乏味的,但是已经开发了替代方法,使这项任务变得更容易。这就是数据注释工具派上用场的地方!
数据注释工具用于注释(标记)数据集中的数据点,可以帮助标记用于机器学习、深度学习、计算机视觉、自然语言处理等的数据集。
根据给定的任务,可以使用不同的数据注释工具。例如,根据数据类型(文本、图像、音频)将有助于决定使用哪种工具。一些公司甚至创建了他们的数据注释工具。
在本文中,我们使用了LabelStudio,这是一种数据注释工具,可以对多种不同的数据集格式进行注释,例如文本、图像、音频、时间序列和多域。
LabelStudio是一个开源数据标记工具,用于标记和探索多种数据类型。它允许用户使用多种数据格式执行不同类型的标记。用户还可以将LabelStudio与机器学习模型集成,为标签(预标签)提供预测或执行持续的主动学习。
在本文中,我们将使用LabelStudio作为我们的主要数据标注工具。我们将回顾一些示例,展示如何使用不同格式注释或标记不同的数据集。在此之前,我们必须首先在我们的设备上安装LabelStudio软件!
LabelStudio的实际安装和使用过程非常简单。它们提供了一个小的学习曲线,重点是对初学者友好,伴随着易于下载、简短的命令和清晰、易于使用的GUI,
LabelStudio提供了多种数据格式和标签选择。LabelStudio为图像、音频、文本、时间序列和不同数据格式的多域数据格式提供数据注释。在图像标记方面,LabelStudio提供对象检测、图像分类和语义分割。而文本标注提供文本分类、问答、情感分析和命名实体。有关其他标签技术,请查看LabelStudio官方网站。
有了一个文档齐全的网站和大量关于LabelStudio使用的在线教程和视频,用户在遇到困难时总能找到在线帮助!
使用pip、brew、git或docker安装LabelStudio。我们将使用pip通过将以下行复制粘贴到cmd(命令行界面)中来安装labelstudio:
完成安装后,将以下命令复制粘贴到cmd中:
使用以下命令,标签工作室的浏览器页面将在您选择的浏览器上打开并打开。
之后,LabelStudio会要求您使用您的帐户进行注册。如有必要,创建一个只需要电子邮件和密码即可注册的新帐户。
在这个简单的文本数据注释教程中,我们将属于动物或物体的任何单词分为两组。
登录到您的LabelStudio帐户后,首先创建一个新的数据注释项目。为您的项目选择一个名称,并简要描述您要通过它实现的目标。在这种情况下,我们将项目命名为“动物与物体”,并表示主要目的是对文本数据进行分类。
在命名您的项目并为其提供项目描述后,单击屏幕中央顶部的“数据导入”按钮。然后单击“上传更多文件”并从本地设备导入您选择的数据集。对于本例中使用的数据,我们编写了三个简单的句子,每个句子都包含一个与动物、物体或两者有关的词。确保以可接受的格式上传数据文件。此处使用的格式是.txt扩展名。
注意:不要忘记选择“将CSV/TSV视为任务列表”选项。
接下来,单击屏幕右上角的“标签设置”。如前所述,我们要对文本数据进行数据标注,所以点击NaturalLanguageProcessing。自然语言处理是语言学、计算机科学和人工智能的一个子领域,涉及计算机与人类语言之间的交互以及如何对计算机进行编程以处理和分析大量自然语言数据。
接下来,单击“命名实体识别”,这将使我们能够将数据分类为我们选择的多个类别。命名实体识别是信息提取的一个子任务,旨在将非结构化文本中提到的命名实体定位和分类为预定义的类别,例如名称、组织、位置、医疗代码、时间表达式、数量、货币价值、百分比等。
选择模板选项后,在我们的例子中是命名实体识别,我们需要识别我们的标签或类。我们将删除所有现有标签并创建两个新标签,即动物标签和对象标签。要创建这两个标签,请转到屏幕左侧的添加标签名称文本框,然后将这两个类写到两个单独的行中。之后,单击文本框下方的“添加”按钮。
添加标签后,您可以根据需要更改每个标签的颜色。我们选择将动物类设为红色,将对象类设为蓝色。完成后,单击屏幕右上角的保存按钮。
之后,您应该会找到一个列表,其中包含在您的数据中找到的所有列。
选择第一个ID(数据点)并手动将标识动物的单词标记为红色,将标识对象的单词标记为蓝色(请注意,您在上一步中选择了颜色)。在这种情况下,我们用红色突出显示单词dog,用蓝色突出显示单词ball。接下来,按屏幕右上角的蓝色提交按钮。对其他两列重复此过程。
完成数据标注后,您可以以多种不同格式导出带注释的数据。为此,请返回主项目屏幕并单击屏幕右上角的导出按钮。
在此之后,您现在可以将列表导出为JSON、JSON-MIN、CSV、TSV和CONLL2003。此处不支持其他数据格式,因为它们与文本数据注释无关(它们用于图像和语音数据注释)。我们选择的数据格式是CSV。您可以选择最适合您工作的格式。
下面是最终注释数据集的图像。它显示了标记数据的存储方式。指示标记词的开始和结束索引,标记词本身,以及它所属的类别。