Detectron：训练自己的数据集——将自己的数据格式转换成COCO格式_detectron2训练自己的数据集,detectron2数据格式资源-CSDN文库

共1个文件

py：1个

版权申诉

COCO

Detectron

训练自己的数据

5星 · 超过95%的资源 166 浏览量 2022-04-07 12:12:17 上传评论收藏 2KB RAR 举报

在计算机视觉领域，训练深度学习模型，特别是目标检测模型，通常需要大量的标注数据。Detectron是由Facebook AI Research（FAIR）开发的一个强大的开源目标检测、分割和关键点检测框架。它基于PyTorch，提供了先进的算法，如Faster R-CNN、Mask R-CNN等。然而，为了使用Detectron进行自定义数据集的训练，首先需要将数据集转换为特定的格式，COCO（Common Objects in Context）格式就是其中之一。 COCO数据集是一种广泛接受的图像注释标准，用于目标检测、分割和实例分割任务。它包含丰富的信息，如图像ID、类别ID、边界框坐标以及分割掩码等。转换数据集到COCO格式的主要步骤包括以下几个部分： 1. **数据准备**：你需要有图像文件和对应的标注文件。标注文件通常包含了每个对象的类别、边界框坐标和可能的分割掩码。这些信息可以是XML、TXT或其他格式，具体取决于原始数据集的提供者。 2. **读取和解析标注**：使用Python编程语言，你可以编写脚本来读取这些标注文件，解析其中的信息。例如，`这是txt标记转换为COCO的代码.py`可能就是这样一个脚本，它读取TXT文件并提取必要的数据。 3. **构建COCO格式的数据结构**：COCO API提供了数据结构来存储这些信息。你需要创建一个字典，包含`images`、`categories`和`annotations`三个主要部分。`images`包含每张图片的信息，如文件名、宽度、高度和ID。`categories`存储类别的ID和名称。`annotations`则记录每个对象的边界框、类别ID和关联的图像ID。 4. **映射类别**：根据Detectron的要求，你需要为你的数据集定义一个类别ID与类别名称的映射。通常，COCO数据集中预定义了一些常见的物体类别，但自定义数据集可能包含额外的类别。确保每个类别都有一个唯一的ID。 5. **生成JSON文件**：将构造好的COCO格式数据写入JSON文件。这个文件可以直接被Detectron的训练程序读取。 6. **运行Detectron训练**：完成数据转换后，你就可以使用Detectron的命令行工具或API来加载这个新的COCO格式数据集，并开始训练自定义的模型了。在实际操作中，可能还会遇到一些挑战，比如处理类别不平衡、调整训练参数、验证集的划分等。理解COCO数据格式和Detectron的工作原理是解决这些问题的关键。此外，优化数据预处理流程，如图像增强和规范化，也能提升模型的性能。将数据转换为COCO格式是使用Detectron训练自定义数据集的第一步。通过这个过程，你可以使你的模型更好地适应特定领域的任务，从而提高目标检测的准确性和泛化能力。

资源推荐

资源详情

资源评论

收起资源包目录

这是txt标记转换为COCO的代码.rar （1个子文件）

这是txt标记转换为COCO的代码.py 4KB

# coding=utf-8 import json import os import cv2 import time start = time.time() # 根路径，里面包含images(图片文件夹)，annos.txt(bbox标注)，classes.txt(类别标签),以及annotations文件夹(如果没有则会自动创建，用于保存最后的json) root_path = '/home/renjiaxin/detectron/detectron/datasets/data/coco/' # 用于创建训练集或验证集 phase = 'train' # 训练集和验证集划分的界线 # split = 7955 dataset = {'licenses': [], 'info': {}, 'categories': [], 'images': [], 'annotations': []} # 打开类别标签 with open(os.path.join(root_path, 'classes.txt')) as f: classes = f.read().strip().split() # 建立类别标签和数字id的对应关系 for i, cls in enumerate(classes, 1): dataset['categories'].append({'id': i, 'name': cls, 'supercategory': 'mark'}) # 读取images文件夹的图片名称 _indexes = [f for f in os.listdir(os.path.join(root_path, 'aug'))] # # 判断是建立训练集还是验证集 # if phase == 'train': # indexes = [line for i, line in enumerate(_indexes, 1) if i <= split] # elif phase == 'val': # indexes = [line for i, line in enumerate(_indexes, 1) if i > split] # 读取Bbox信息 with open(os.path.join(root_path, 'total_train_annos.txt')) as tr: annos = tr.readlines() n_p , n_a = 0, 0 for k, index in enumerate(_indexes): # 用opencv读取图片，得到图像的宽和高 im = cv2.imread(os.path.join(root_path, 'aug/') + index) height, width, _ = im.shape if phase == 'train': n_p += 1 print '第{}张图片'.format(n_p) # 添加图像的信息到dataset中 dataset['images'].append({'file_name': index, 'id': k, 'width': width, 'height': height}) elif phase == 'val': # 添加图像的信息到dataset中 dataset['images'].append({'file_name': index, 'id': k + split + 10000000, # 加上一个很大的数是为了和增强后的训练集进行区分， # 不然会有重叠，下面annotations的image_id对应着这个ID，所以也是这个原因这两者的数值相同， # 如果不增强训练集的话，这个常数改为1，并且这个常数只在val中需要添加，train不用管 'width': width, 'height': height}) for ii, anno in enumerate(annos): parts = anno.strip().split() # 如果图像的名称和标记的名称对上，则添加标记 if parts[0] == index: n_a += 1 print '第{}个注释'.format(n_a) # 类别 cls_id = parts[1] # x_min x1 = float(parts[2]) # y_min y1 = float(parts[3]) # x_max x2 = float(parts[4]) # y_max y2 = float(parts[5]) width = max(0, x2 - x1) height = max(0, y2 - y1) if phase == 'train': dataset['annotations'].append({ 'area': width * height, 'bbox': [x1, y1, width, height], 'category_id': int(cls_id), 'id': ii, 'image_id': k, 'iscrowd': 0, # mask, 矩形是从左上角点按顺时针的四个顶点 'segmentation': [[x1, y1, x2, y1, x2, y2, x1, y2]] }) elif phase == 'val': dataset['annotations'].append({ 'area': width * height, 'bbox': [x1, y1, width, height], 'category_id': int(cls_id), 'id': ii + 10000000, # 默认为1 'image_id': split + k + 10000000, # 该常数默认为1 'iscrowd': 0, # mask, 矩形是从左上角点按顺时针的四个顶点 'segmentation': [[x1, y1, x2, y1, x2, y2, x1, y2]] }) # 保存结果的文件夹 folder = os.path.join(root_path, 'annotations') if not os.path.exists(folder): os.makedirs(folder) json_name = os.path.join(root_path, 'annotations/2{}.json'.format(phase)) with open(json_name, 'w') as f: json.dump(dataset, f) end = time.time() print "time:{}小时".format((end-start)/3600)

评论收藏

内容反馈

版权申诉