PraxVis는 최첨단 딥러닝 기술을 기반으로 영상 속 의미를 읽어내는 지능형 영상분석 시스템입니다. 단순히 화면을 보여주는 것을 넘어, 무엇이 어디에 있고(객체 탐지), 어떤 영역이 무엇인지(영상 분할), 사람이 어떻게 움직이는지(자세·행동 분석), 그리고 정상과 비정상을 구분(이상 탐지)하는 일을 실시간으로 자동 수행합니다. 드론·항공 영상의 초소형 물체 탐지부터 의료 영상 병변 분석, 산업 현장의 안전 모니터링, 수자원 관리, 보행 기반 건강관리까지 — 현장의 요구에 맞춘 맞춤형 영상 지능을 제공합니다.

영상에서 의미를 읽어내는 기술
사람은 사진 한 장을 보면 "길 위에 사람이 서 있고, 그 옆에 자전거가 있다"는 사실을 한순간에 이해합니다. 컴퓨터에게 영상은 본래 숫자의 나열일 뿐이며, 이 숫자 더미에서 사람·사물·행동·이상 징후 같은 '의미'를 끄집어내는 일이 바로 컴퓨터비전입니다. PraxVis는 이 과정을 사람의 개입 없이 자동으로, 그리고 영상이 들어오는 즉시 실시간으로 수행하도록 설계되었습니다.
PraxVis는 영상 이해를 네 개의 축으로 나누어 다룹니다. 첫째는 화면 속 대상이 무엇인지 알아내고 위치를 찍는 객체 탐지·분류, 둘째는 픽셀 단위로 영역의 경계를 정밀하게 가르는 영상 분할, 셋째는 사람의 관절을 추적해 자세와 움직임을 읽는 행동 분석, 넷째는 정상과 다른 비정상 패턴을 가려내는 이상 탐지입니다. 이 네 축은 독립적으로도, 하나의 파이프라인으로 결합해서도 동작합니다.
기술의 강점은 '맞춤형'에 있습니다. 동일한 컴퓨터비전 기법이라도 드론이 30~50m 상공에서 찍은 4K 영상과, 공장 천장의 CCTV가 찍은 작업 현장, 의료 장비가 만든 단면 영상은 요구 조건이 전혀 다릅니다. PraxVis는 공개 사전학습 모델을 그대로 쓰는 대신, 각 현장의 영상 특성에 맞춰 모델 구조와 학습 전략을 재설계(파인튜닝)함으로써 현장 적합도를 높입니다.
- 네 가지 영상 이해 축: 객체 탐지·분류 / 영상 분할 / 자세·행동 분석 / 이상 탐지
- 영상이 들어오는 즉시 자동으로 분석하는 실시간 추론 지향 설계
- 현장(드론·CCTV·의료 장비)의 영상 특성에 맞춘 맞춤형 모델 설계
- 단일 기능부터 통합 파이프라인까지 유연하게 구성 가능
객체 탐지·분류 — 무엇이 어디에 있는가
객체 탐지는 영상 속에서 사람·차량·장비 같은 대상을 찾아 네모 상자(바운딩 박스)로 위치를 표시하고, 그것이 무엇인지 이름표(클래스)를 붙이는 작업입니다. PraxVis의 탐지 엔진은 실시간 탐지에 강점을 가진 YOLO 계열 구조를 기반으로 하되, 특정 현장 — 특히 드론이 높은 상공에서 촬영해 대상이 화면에서 아주 작게 보이는 '초소형 객체' 상황 — 에 맞춰 커스터마이징했습니다.
작은 물체를 놓치지 않으려면 영상의 미세한 단서까지 살려야 합니다. 이를 위해 네트워크의 깊이(Depth)를 늘려 복잡한 특징(Complex Feature)을 더 풍부하게 추출하고, 폭(Width)을 넓혀 정보 흐름(Information Flow)을 강화했습니다. 또한 채널 수를 늘리고 셔플(Shuffle) 기법으로 채널 간 상호작용을 키워, 드론 환경의 다양한 객체를 더 안정적으로 탐지하도록 했습니다.
탐지 정밀도를 높이기 위해 'Coarse-to-Fine(거친 것에서 정밀한 것으로)' 전략을 채택했습니다. 초기 단계에서는 큰 윤곽(Large Contour)을 잡아 대상의 대략적 위치를 빠르게 파악하고, 이어지는 단계에서 세밀한 디테일(Fine Detail)을 분석합니다. 예측을 담당하는 헤드(Prediction Head)를 여러 단계(Multi-stage)로 설계해, 속도와 정밀도의 균형을 맞췄습니다.
- 실시간 탐지에 강한 YOLO 계열 기반의 커스텀 모델
- Depth·Width 확장으로 작은 객체의 복잡한 특징과 정보 흐름 강화
- 채널 확장 + Shuffle로 드론 환경의 다양한 객체 탐지 성능 향상
- Coarse-to-Fine 다단계 예측으로 위치 파악과 정밀 탐지를 동시에
- 복잡한 지형·그림자 속에서도 사람과 소형 물체를 안정적으로 인식
영상 분할 — 픽셀 단위로 경계를 가르다
객체 탐지가 '네모 상자'로 위치를 표시한다면, 영상 분할(Segmentation)은 한 걸음 더 나아가 대상의 정확한 윤곽을 픽셀 단위로 칠해 구분합니다. 분할은 두 종류로 나뉩니다. 의미론적 분할(Semantic Segmentation)은 '여기는 물, 저기는 땅'처럼 같은 종류의 영역을 통째로 구분하고, 인스턴스 분할(Instance Segmentation)은 '1번 작업자, 2번 작업자'처럼 같은 종류라도 개체별로 따로 떼어 구분합니다.
PraxVis는 분할 과제를 현장별로 특화했습니다. 의료 영상 분야에서는 U-Net 아키텍처를 기반으로, 멀티채널 의료 영상을 다루는 입력(stem) 레이어를 새로 설계하고 어텐션(Attention) 구조를 더했습니다. 또한 영역의 겹침 정도를 평가하는 Dice Loss와 분류 오차를 다루는 Cross-Entropy Loss를 결합한 손실 함수를 사용해, 병변의 복잡하고 불규칙한 경계까지 또렷하게 잡아냅니다.
수자원 관리 분야에서는 DeepLabv3 기반 모델로 드론이 상공에서 찍은 4K 영상을 실시간 처리합니다. 일반 합성곱을 'Atrous(확장) 합성곱'으로 바꾸고 확장 비율(Dilation)을 조절해, 멀리 있는 물체나 세밀한 수계 경계까지 잡아내도록 했습니다. 산업 안전 분야에서는 FPN(Feature Pyramid Network)을 활용한 인스턴스 분할로, 서로 가까이 붙어 있는 작업자들도 개별적으로 구분하고 보호장비 착용 여부를 정밀하게 가려냅니다.
- 의미론적 분할(영역 단위) + 인스턴스 분할(개체 단위) 모두 지원
- 의료 영상: U-Net + Attention, Dice·Cross-Entropy 결합 손실로 병변 경계 정밀 분할
- 수계 인식: DeepLabv3 + Atrous 합성곱으로 4K 항공 영상의 수면·경계 실시간 분할
- 산업 안전: FPN 기반 인스턴스 분할로 근접한 작업자·보호장비 개별 식별
- 탐지 결과와 분할 영역을 동시에 출력하는 통합 구조
자세·행동 분석 — 움직임을 정량화하다
사람이 '어디에 있는가'를 넘어 '어떻게 움직이는가'를 읽는 것이 자세·행동 분석입니다. 핵심 기술은 사람 자세 추정(Human Pose Estimation)으로, 영상 속 인물의 주요 관절점(keypoints) — 어깨·팔꿈치·무릎·발목 등 — 을 찾아 골격처럼 연결합니다. PraxVis는 보행 시 발생하는 미세한 움직임까지 포착하기 위해 다수의 주요 관절점을 추적하도록 설계했습니다.
정확한 자세 추정을 위해 여러 기법을 결합했습니다. 먼저 YOLOv8로 영상 속 사람을 정교하게 탐지한 뒤, 부정확하게 잘린 영역에서도 올바른 자세를 추정하도록 SSTN(Symmetric Spatial Transformer Network)을 적용합니다. 여러 결과가 겹칠 때는 P-NMS(Parametric Pose Non-Maximum Suppression)로 중복된 사람을 정리해, 혼잡한 장면에서도 깔끔한 결과를 얻습니다.
추적한 관절점의 시간에 따른 위치 변화를 계산하면 보행(Gait) 파라미터를 정량적으로 산출할 수 있습니다. 보행 속도, 보폭, 좌우 균형, 한 걸음의 주기(Cycle Time)와 지지 시간(Stance/Swing Time) 같은 지표가 그 예입니다. 이러한 수치는 사람마다 다른 보행 패턴과 시간에 따른 변화를 객관적으로 비교할 수 있게 해주며, 비대칭 보행처럼 변동이 큰 패턴에서도 안정적으로 추출됩니다.
- 사람 자세 추정(Human Pose Estimation)으로 주요 관절점을 골격처럼 추적
- YOLOv8 정교 탐지 + SSTN으로 잘린 영역에서도 정확한 자세 복원
- P-NMS로 중복 인물 제거, 혼잡한 장면에서도 안정적 추정
- 관절점의 시계열 변화로 속도·보폭·좌우 균형 등 보행 파라미터 정량화
- 비대면·비접촉 방식으로 프라이버시를 보호하며 움직임 분석
이상 탐지·자동 품질검사·작업장 안전
이상 탐지(Anomaly Detection)는 영상 안에서 정상인 영역과 비정상인 영역을 구분하는 기술입니다. 무엇이 '정상'인지를 학습한 모델은, 그 기준에서 벗어나는 결함·이물·예외 상황을 가려냅니다. 이는 사람이 일일이 눈으로 검사하기 어려운 대량·고속·반복 작업에서 특히 강력합니다. PraxVis는 이 능력을 자동 품질검사와 안전 모니터링이라는 두 축으로 현장에 적용합니다.
자동 품질검사 측면에서는 광학 단면 이미지 등에서 정상 제품과 결함 영역을 자동으로 분리해, 검사 인력의 부담을 줄이고 일관된 기준으로 판정합니다. 사람의 주관과 피로에 좌우되지 않으므로, 같은 결함을 매번 같은 기준으로 잡아낼 수 있다는 점이 핵심 이점입니다.
작업장 안전·규정 준수 모니터링 측면에서는 CCTV 영상에서 작업자가 안전모·안전조끼 같은 보호장비(PPE)를 제대로 착용했는지 실시간으로 판별합니다. 인스턴스 분할로 작업자별 프로토타입 마스크를 생성하고 임계값(Thresholding)으로 착용 여부를 판단하며, 미착용이 감지되면 관리자에게 보고합니다. 이로써 사고를 예방하고, 축적된 데이터로 안전 관리 체계를 지속적으로 개선할 수 있습니다.
- 정상/비정상 영역을 구분하는 Anomaly Detection 기반 자동 결함 검출
- 사람의 주관·피로에 무관하게 일관된 기준으로 판정하는 자동 품질검사
- CCTV 기반 PPE(안전모·조끼) 착용 여부 실시간 탐지 및 관리자 보고
- 프로토타입 마스크 + 임계값 판정으로 정확도와 속도의 균형 유지
- 축적된 데이터로 안전 관리 체계를 지속 개선하는 선순환 구조
활용 분야와 데이터·프레임워크
PraxVis는 하나의 기술 세트를 여러 산업에 맞춰 적용합니다. 드론·항공 영상에서는 재난 현장의 실종자와 유류품을 탐지해 구조의 골든타임 확보를 돕고, 산업 현장에서는 작업자 안전과 자동 품질검사를 지원합니다. 의료 영상에서는 병변의 경계와 크기를 정밀하게 분석해 진단을 보조하고, 수자원 분야에서는 하천·수면적·수변 지형을 픽셀 단위로 모니터링합니다. 보행 분석은 요양·재활·임직원 건강관리 등 예방적 건강관리로 확장됩니다.
모델의 신뢰성은 학습에 쓰인 데이터의 폭과 검증 방식에서 나옵니다. PraxVis는 일상 객체를 폭넓게 담은 COCO, 사물 중심의 대규모 데이터셋 ImageNet, 대규모 바운딩 박스·관계 주석을 가진 Open Images V7, 그리고 드론 환경 벤치마크인 VisDrone 등 검증된 공개 데이터셋을 활용합니다. 여기에 실제 운용 환경(예: 상공에서 사람을 촬영한 영상)에 맞춘 자체 수집 데이터를 결합해, 공개 데이터만으로는 채우기 어려운 현장 특수성을 보완합니다.
각 솔루션은 학습 과정의 손실(Loss) 추이와 별도 테스트셋 추론 결과로 성능을 검증하며, 단순 분류 정확도뿐 아니라 분할 영역의 겹침 정도(IoU·Dice), 보행 파라미터의 예측 오차(MSE·MAE) 등 과제 특성에 맞는 다양한 지표로 평가합니다. 모델 개발과 학습은 딥러닝 표준 프레임워크인 PyTorch와 PyTorch Lightning 위에서 이루어져, 재현성과 확장성을 갖춘 안정적인 개발 기반을 제공합니다.
- 재난 구조: 드론 영상으로 실종자·유류품 탐지, 구조 골든타임 확보
- 산업·의료·수자원·헬스케어 등 다분야 맞춤형 적용
- 검증된 공개 데이터셋(COCO·ImageNet·Open Images V7·VisDrone) + 자체 수집 데이터
- 과제별 맞춤 지표(IoU·Dice·MSE·MAE 등)와 별도 테스트셋으로 성능 검증
- PyTorch·PyTorch Lightning 기반의 재현 가능하고 확장 가능한 개발 기반