object-detection-metric

TL; DR⚑

객체 검출 모델의 성능을 평가하는 대표적인 지표는 mAP가 있음
AP는 PR 곡선 아래 면적을 의미하고, 구체적으로 계산하는 방법은 PASCAL VOC와 COCO 평가 방식이 있음
mAP는 여러 클래스에 대한 AP의 평균을 의미함

Object Detection의 평가 방식⚑

PASCAL VOC 평가 방식:
- 주로 IoU 임계값 0.5에서의 평균 정밀도(AP)를 사용함
- 11-point 보간법을 사용하여 AP를 계산함
COCO 평가 방식:
- 여러 IoU 임계값(0.5에서 0.95까지 0.05 간격)에서의 AP를 평균내어 사용함
- 101-point 보간법을 사용하여 AP를 계산함
KITTI 평가 방식:
- 자율주행 차량을 위한 객체 검출에 특화된 평가 방식임
- 3D 바운딩 박스와 2D 바운딩 박스 모두에 대해 평가함
- 쉬움, 보통, 어려움의 세 가지 난이도로 평가함
Open Images 평가 방식:
- 계층적 레이블 구조를 고려한 평가 방식을 사용함
- 그룹 평균 정밀도(Group-Average Precision)를 사용하여 클래스 간 불균형을 처리함

IoU 에 따른 True Positive, False Positive, False Negative⚑

IoU 임계값: 예측된 바운딩 박스와 실제 바운딩 박스의 겹치는 정도를 측정하는 임계값
- 일반적으로 0.5나 0.7과 같은 값을 사용함
- IoU 임계값이 높을수록 더 엄격한 평가 기준이 됨
True Positive (TP):
- 예측된 바운딩 박스와 실제 바운딩 박스가 IoU 임계값 이상으로 겹치는 경우
- 올바른 클래스로 예측되어야 함
- 하나의 실제 객체에 대해 가장 높은 IoU를 가진 예측만 TP로 간주됨
False Positive (FP):
- 예측된 바운딩 박스가 실제 바운딩 박스와 IoU 임계값 이상으로 겹치지 않는 경우
- 배경을 객체로 잘못 예측한 경우도 포함됨
- 동일한 객체에 대해 중복 예측된 경우도 FP로 간주됨
False Negative (FN):
- 실제 바운딩 박스가 예측된 바운딩 박스와 IoU 임계값 이상으로 겹치지 않는 경우
- 모델이 객체를 검출하지 못한 경우를 의미함
추가 고려사항:
- 클래스별 평가: 각 클래스마다 별도로 TP, FP, FN을 계산함
- 신뢰도 점수: 객체 검출 모델은 각 예측에 대한 신뢰도 점수를 제공하며, 이를 기반으로 정밀도-재현율 곡선을 그릴 수 있음
- 다중 IoU 임값: COCO 평가 방식처럼 여러 IoU 임계값에 대해 평가를 수행하여 모델의 성능을 더 종합적으로 평가할 수 있음
True Negative (TN)의 부재:
- 객체 검출에서는 True Negative를 명시적으로 정의하지 않음
- 이유:
- 배경의 정의: 객체가 없는 모든 영역을 배경으로 간주하면, TN의 수가 무한대에 가까워질 수 있음
- 관심 대상: 객체 검출의 주요 목적은 객체를 찾는 것이므로, 배경을 올바르게 식별하는 것은 덜 중요함
- 평가 지표: 주로 사용되는 mAP나 정밀도-재현율 곡선은 TN을 필요로 하지 않음
- 대신 False Positive를 통해 모델이 배경을 객체로 잘못 식별하는 경우를 평가함
객체 검출에서의 이진 분류와의 차이:
- 이진 분류에서는 TP, TN, FP, FN 모두를 사용하지만, 객체 검출은 TP, FP, FN만을 사용함
- 이로 인해 정확도(Accuracy)와 같은 TN을 포함하는 지표 대신 mAP, F1 점수 등을 주로 사용함

지표⚑

정밀도(Precision):
- 예측된 양성 샘플 중 실제 양성 샘플의 비율임
- 수식: Precision = True Positives / (True Positives + False Positives)
재현율(Recall):
- 실제 양성 샘플 중 예측된 양성 샘플의 비율임
- 수식: Recall = True Positives / (True Positives + False Negatives)
평균 정밀도(Average Precision, AP):
- 정밀도와 재현율의 곡선 아래 면적임
- 모든 가능한 재현율 값에 대한 정밀도의 평균임
IoU (Intersection over Union):
- 예측된 바운딩 박스와 실제 바운딩 박스의 겹치는 정도를 측정함
- 수식: IoU = (예측 박스 ∩ 실제 박스) / (예측 박스 ∪ 실제 박스)
mAP (mean Average Precision):
- 여러 클래스에 대한 AP의 평균임
- 객체 탐지 모델의 전체적인 성능을 나타내는 단일 지표임
F1 점수:
- 정밀도와 재현율의 조화 평균임
- 수식: F1 = 2 (Precision Recall) / (Precision + Recall)
FPS (Frames Per Second):
- 모델의 실시간 처리 능력을 나타내는 지표임
- 초당 처리할 수 있는 이미지 프레임 수임

mAP의 계산⚑

포인트 개수의 영향:
- 포인트 개수가 적으면: 계산은 빠르지만 정확도가 떨어질 수 있음
- 포인트 개수가 많으면: 더 정확한 결과를 얻을 수 있지만 계산 시간이 늘어남
보간 방법:
- PASCAL VOC: 11-point 보간법을 사용함. 재현율 0부터 1까지 0.1 간격으로 11개 포인트에서 정밀도를 계산함
- COCO: 모든 포인트를 사용하여 PR 곡선 전체 영역을 적분함
안정성 개선 방법:
- 모든 포인트 사용: 가능한 모든 임계값에 대해 정밀도와 재현율을 계산함
- 정밀도 평활화: 각 재현율 수준에서 해당 재현율 이상의 최대 정밀도를 사용함
- 보간법 사용: 선형 보간이나 더 복잡한 보간 방법을 사용하여 곡선을 부드럽게 만듦
구현 시 주의사항:
- 일관성 유지: 평가 시 항상 동일한 방법과 포인트 개수를 사용해야 함
- 표준 준수: 가능한 PASCAL VOC나 COCO와 같은 표준 평가 방식을 따르는 것이 좋음
- 충분한 포인트: 정확한 결과를 위해 충분한 수의 포인트를 사용해야 함
라이브러리 활용:
- pycocotools나 VOC 평가 스크립트와 같은 검증된 라이브러리를 용하면 일관성 있는 결과를 얻을 수 있음

IoU 에 따른 True Positive, False Positive, False Negative⚑

True Negative (TN)의 부재:
- 객체 검출에서는 True Negative를 명시적으로 정의하지 않음
- 이유:
  - 배경의 정의: 객체가 없는 모든 영역을 배경으로 간주하면, TN의 수가 무한대에 가까워질 수 있음
  - 관심 대상: 객체 검출의 주요 목적은 객체를 찾는 것이므로, 배경을 올바르게 식별하는 것은 덜 중요함
  - 평가 지표: 주로 사용되는 mAP나 정밀도-재현율 곡선은 TN을 필요로 하지 않음
- 대신 False Positive를 통해 모델이 배경을 객체로 잘못 식별하는 경우를 평가함
객체 검출에서의 이진 분류와의 차이:
- 이진 분류에서는 TP, TN, FP, FN 모두를 사용하지만, 객체 검출은 TP, FP, FN만을 사용함
- 이로 인해 정확도(Accuracy)와 같은 TN을 포함하는 지표 대신 mAP, F1 점수 등을 주로 사용함

Code Implementation⚑

https://learnopencv.com/mean-average-precision-map-object-detection-model-evaluation-metric/
참고 : Precision / Recall 이 안정적이지 않을 때, 보간법을 사용하여 안정적인 AP를 계산

import numpy as np
from collections import defaultdict

def calculate_iou(box1, box2):
    # IoU 계산 함수
    x1, y1, w1, h1 = box1
    x2, y2, w2, h2 = box2

    inter_x1 = max(x1, x2)
    inter_y1 = max(y1, y2)
    inter_x2 = min(x1 + w1, x2 + w2)
    inter_y2 = min(y1 + h1, y2 + h2)

    inter_area = max(0, inter_x2 - inter_x1) * max(0, inter_y2 - inter_y1)
    union_area = w1 * h1 + w2 * h2 - inter_area

    return inter_area / union_area if union_area > 0 else 0


def compute_ap_pascal_voc(recall, precision):
    # PASCAL VOC 스타일: 11-point 보간법
    ap = 0.
    for t in np.arange(0., 1.1, 0.1):
        if np.sum(recall >= t) == 0:
            p = 0
        else:
            p = np.max(precision[recall >= t])
        ap = ap + p / 11.
    return ap

def compute_ap_coco(recall, precision):
    # COCO 스타일: 모든 포인트를 사용한 적분
    mrec = np.concatenate(([0.], recall, [1.]))
    mpre = np.concatenate(([0.], precision, [0.]))

    for i in range(mpre.size - 1, 0, -1):
        mpre[i - 1] = np.maximum(mpre[i - 1], mpre[i])

    i = np.where(mrec[1:] != mrec[:-1])[0]
    ap = np.sum((mrec[i + 1] - mrec[i]) * mpre[i + 1])
    return ap

def calculate_ap(gt_boxes, pred_boxes, iou_threshold, ap_method):
    # AP 계산 (공통 로직)
    num_gt = len(gt_boxes)
    num_pred = len(pred_boxes)

    pred_boxes = sorted(pred_boxes, key=lambda x: x[4], reverse=True)

    tp = np.zeros(num_pred)
    fp = np.zeros(num_pred)

    matched = [False] * num_gt

    for i, pred in enumerate(pred_boxes):
        best_iou = 0
        best_gt_idx = -1

        for j, gt in enumerate(gt_boxes):
            if not matched[j]:
                iou = calculate_iou(pred[:4], gt[:4])
                if iou > best_iou:
                    best_iou = iou
                    best_gt_idx = j

        if best_iou >= iou_threshold:
            if not matched[best_gt_idx]:
                tp[i] = 1
                matched[best_gt_idx] = True
            else:
                fp[i] = 1
        else:
            fp[i] = 1

    tp_cumsum = np.cumsum(tp)
    fp_cumsum = np.cumsum(fp)

    recalls = tp_cumsum / num_gt
    precisions = tp_cumsum / (tp_cumsum + fp_cumsum)

    if ap_method == 'pascal_voc':
        return compute_ap_pascal_voc(recalls, precisions)
    elif ap_method == 'coco':
        return compute_ap_coco(recalls, precisions)
    else:
        raise ValueError("Unknown AP method")

def calculate_map(gt_boxes_all, pred_boxes_all, iou_thresholds, ap_method):
    aps = defaultdict(list)

    for image_id in gt_boxes_all.keys():
        gt_boxes = gt_boxes_all[image_id]
        pred_boxes = pred_boxes_all[image_id]

        for class_id in set([box[4] for box in gt_boxes + pred_boxes]):
            gt_class = [box[:4] for box in gt_boxes if box[4] == class_id]
            pred_class = [box for box in pred_boxes if box[4] == class_id]

            for iou_threshold in iou_thresholds:
                ap = calculate_ap(gt_class, pred_class, iou_threshold, ap_method)
                aps[class_id].append(ap)

    mean_ap = np.mean([np.mean(ap_list) for ap_list in aps.values()])
    return mean_ap

def pascal_voc_map(gt_boxes_all, pred_boxes_all):
    return calculate_map(gt_boxes_all, pred_boxes_all, [0.5], 'pascal_voc')

def coco_map(gt_boxes_all, pred_boxes_all):
    return calculate_map(gt_boxes_all, pred_boxes_all, np.arange(0.5, 1.0, 0.05), 'coco')

# 사용 예시
gt_boxes_all = {
    'image1': [[10, 10, 100, 100, 0], [150, 150, 50, 50, 1]],
    'image2': [[30, 30, 80, 80, 0]]
}

pred_boxes_all = {
    'image1': [[15, 15, 95, 95, 0, 0.9], [155, 155, 45, 45, 1, 0.8]],
    'image2': [[35, 35, 75, 75, 0, 0.95]]
}

pascal_map_score = pascal_voc_map(gt_boxes_all, pred_boxes_all)
print(f"PASCAL VOC mAP: {pascal_map_score}")

coco_map_score = coco_map(gt_boxes_all, pred_boxes_all)
print(f"COCO mAP: {coco_map_score}")