AI CCTV 자체역량 확보 전략

AI CCTV 도입한다고 하면 대부분 이렇게 생각한다. “그냥 업체 찾아서 계약하면 되는 거 아니야?” 틀린 말은 아니다. 당장은 그게 가장 빠르고 편하다. 근데 5년 뒤, 10년 뒤를 생각해보면 완전히 다른 이야기가 된다.

지금부터 할 얘기는 좀 길다. 그런데 이 글을 끝까지 읽고 나면, 왜 어떤 회사들은 “지금은 외주로 시작하지만 결국엔 우리 것으로 만든다”는 전략을 세우는지 이해하게 될 것이다. 그리고 “아, 우리 회사도 이거 진지하게 고민해야겠는데?”라는 생각이 들 수도 있다.

AI CCTV는 더 이상 그냥 “똑똑한 감시 카메라” 수준이 아니다. 앞으로 건설 현장의 운영체제(OS)가 될 기술이다. 스마트폰에 안드로이드나 iOS가 없으면 그냥 벽돌 덩어리인 것처럼, 미래의 건설 현장은 AI CCTV 플랫폼 없이는 작동하지 않게 될 것이다.

특히 휴머노이드 로봇 시대가 오면 이야기는 완전히 달라진다. Boston Dynamics, Figure, Tesla 같은 회사들이 만드는 휴머노이드 로봇들은 “철근 조립”, “용접”, “페인트칠” 같은 단일 작업에는 엄청나게 특화되어 있다. 근데 이 로봇들한테 물어보면 “너 지금 전체 현장에서 무슨 일이 일어나고 있는지 알아?”라고 하면 모른다. 그들은 자기 눈앞에 있는 작업에만 집중한다.

그럼 누가 전체 현장을 보고 조율할까? 바로 AI CCTV 플랫폼이다. 마치 우리 몸에서 각 세포는 자기 일만 하지만, 뇌와 신경망이 전체를 조율하는 것처럼. AI CCTV는 “3번 로봇은 철근 작업 중이고, 5번 로봇은 5분 후에 용접을 시작할 예정이니까, 둘 사이 동선이 겹치지 않게 조정해야겠다” 같은 전체적인 맥락을 관리하는 중앙신경망이 되는 것이다.

근데 이런 중요한 기술을 계속 외주로만 돌리면 어떻게 될까? 영원히 남의 손에 우리 운명을 맡기는 셈이다. 휴대폰 만드는 회사가 운영체제를 직접 못 만들고 계속 외주로만 쓴다고 생각해보라. 그 회사가 혁신적인 제품을 만들 수 있을까? 당연히 아니다.

그래서 우리 전략은 이거다. 장기적으로는 반드시 내재화한다. 근데 지금 당장은? 솔직히 우리 실력이 거의 없다. 그러니까 외주로 시작하되, 그걸 단순히 “남한테 맡기기”가 아니라 “배우기 위한 도구”로 쓰는 것이다.

외주를 학습 도구로 쓴다는 건 무슨 뜻인가

여기서 중요한 마인드셋 전환이 필요하다. 외주 업체를 “우리 대신 일해주는 사람”으로만 보면 안 된다. “우리한테 가르쳐주는 선생님”으로 봐야 한다.

PoC(개념 검증) 단계부터 우리 연구원들을 붙인다. 외주 업체가 현장에 카메라 설치할 때, 우리 사람도 옆에서 본다. AI 모델 파인튜닝할 때, 우리 연구원이 옆에 앉아서 과정을 다 본다. MLOps 파이프라인 구축할 때, 우리 팀이 함께 참여한다. 그냥 보는 게 아니라, 노트북 켜놓고 똑같이 따라 해본다.

이게 일반적인 외주 계약과 다른 점이다. 보통은 “결과물만 주세요”인데, 우리는 “결과물도 주되, 만드는 과정을 우리한테 가르쳐주세요”를 계약서에 넣는 것이다. 물론 비용은 더 들 수 있다. 근데 그게 투자다. 우리가 사는 건 AI CCTV 솔루션 하나가 아니라, AI를 만드는 방법 자체니까.

현장 팀도 마찬가지다. AI CCTV를 설치하고 나서, 현장 직원들이 “어떻게 쓰는지”를 배워야 한다. 오탐이 나왔을 때 어떻게 대응하는지, 계절이 바뀌면 뭘 조정해야 하는지, 새로운 공정이 시작되면 AI를 어떻게 업데이트하는지. 이런 걸 6개월, 1년 동안 몸으로 익히는 것이다.

그러면 뭐가 쌓이냐면, 우리만의 노하우가 쌓인다. “아, 우리 현장은 이런 특성이 있구나. 조명이 이렇게 바뀌면 AI 성능이 떨어지는구나. 이런 상황에서는 재학습이 필요하구나.” 이런 걸 직접 겪으면서 배우는 것이다. 외주 업체는 프로젝트 끝나면 가버리지만, 이 경험은 우리한테 남는다.

그렇게 12개월, 18개월 정도 지나면 내재화 로드맵이 나온다. “우리가 이제 이 정도는 할 수 있겠다” 싶은 부분들이 보이기 시작한다. 그럼 그때부터 단계적으로 자체 개발로 전환하는 것이다. 처음엔 간단한 파인튜닝부터, 그다음엔 MLOps 파이프라인 일부, 점점 확장하면서.

최종 목표는 명확하다. 5년, 10년 뒤 휴머노이드 로봇이 건설 현장에 본격적으로 투입될 때, AI CCTV 기반의 전체 현장 관제 시스템을 우리가 직접 운영하는 것이다. 그리고 필요할 때마다 새로운 AI 모델을 공장에서 제품 찍어내듯이 만들어낼 수 있는 역량을 갖추는 것이다.

AI가 늙는다는 걸 아는 사람이 별로 없다

여기서 하나 짚고 넘어가야 할 게 있다. 대부분의 사람들이 AI를 한 번 만들면 영원히 잘 작동한다고 생각한다. 완전히 틀린 생각이다. AI는 늙는다. 정확히 말하면 ‘부식’된다.

2년 전에 97% 정확도로 안전모 미착용을 잡아내던 AI가, 지금은 82%밖에 못 잡는다. 왜 그럴까? 이유가 웃기다. 공장에서 LED 조명을 교체했기 때문이다. 조명의 색온도가 바뀌면서 카메라가 찍는 영상의 색감이 달라졌고, AI는 그걸 제대로 인식하지 못하는 것이다.

이게 끝이 아니다. 계절이 바뀌어서 습도가 달라지면? 카메라 렌즈가 2년 동안 먼지 쌓이고 미세하게 긁히면? 작업 방식이 조금 바뀌면? 전부 AI 성능에 영향을 준다. 마치 자동차를 2년 동안 정비 한 번 안 하고 계속 타면 성능이 떨어지는 것처럼, AI도 지속적으로 관리하지 않으면 성능이 계속 떨어진다.

근데 외주 업체한테 맡기면 이런 문제가 생긴다. 2년 전에 프로젝트 끝내고 계약 종료됐는데, 지금 와서 “AI 성능이 떨어져서 다시 학습시켜주세요”라고 하면? 새로운 견적서가 날아온다. 몇천만 원짜리. 그것도 한 번으로 끝나는 게 아니라 몇 개월마다 반복된다.

이걸 해결하는 게 MLOps(Machine Learning Operations)다. 쉽게 말하면 AI를 계속 살아있게 유지하는 시스템이다. 자동으로 매주 성능을 체크하고, 문제가 생기면 알려주고, 새로운 데이터로 재학습시키고, 업데이트된 모델을 현장에 배포하는 전체 과정을 자동화하는 것이다.

공장 생산라인을 생각해보면 이해하기 쉽다. 제품 하나 만들려고 사람이 손으로 하나하나 조립하는 게 아니라, 컨베이어 벨트에서 자동으로 쭉쭉 만들어지잖나. MLOps도 마찬가지다. AI 모델을 “손으로 하나씩 만드는” 방식에서 “공장에서 찍어내듯이 계속 만들어내는” 시스템으로 바꾸는 것이다.

그래서 우리가 외주 업체한테 배워야 하는 가장 중요한 것이 바로 이 MLOps다. 데이터를 어떻게 모으는지, 라벨링은 어떻게 하는지, 재학습은 언제 트리거하는지, 새 모델 배포는 어떻게 자동화하는지. 이런 세부적인 레시피를 하나하나 우리 것으로 만들어야 한다.

MLOps를 제대로 구축하면 신입 엔지니어도 2주면 새 모델을 배포할 수 있다. 외주 업체한테 맡기면 3개월 걸리는 일을, 우리 팀이 3일 만에 끝낼 수 있다. 그것도 매번 수천만 원씩 들이지 않고. 이게 진짜 차이다.

그리고 여기서 중요한 게 또 있다. 데이터 보관 문제다. 많은 사람들이 “원본 영상 100만 장을 다 저장해야 하나요? 그럼 스토리지 비용이 엄청난데요”라고 걱정한다. 근데 사실 원본 영상(1TB)을 다 보관할 필요는 없다. 진짜 자산은 그 데이터로 학습시킨 AI 가중치 파일(200MB)이다.

하지만 전략적으로 꼭 보관해야 할 데이터들이 있다. “이거 안전한가, 위험한가?” 애매한 경계 사례, 수억 원 손실로 이어진 미탐지 사고 영상, 법적 증거로 쓸 수 있는 데이터, 설비를 새로 교체하거나 공정을 바꾼 시점의 변곡점 데이터. 이런 건 반드시 남겨야 한다.

반도체 회사들은 이런 식으로 한다. 3개월 된 데이터는 원본을 전부 보관한다. 6개월 된 건 10%만 샘플링해서 남긴다. 12개월 이후는 AI 가중치 파일과 핵심 케이스만 남긴다. 이렇게 하면 보관 비용을 95% 절감하면서도 필요한 건 다 챙길 수 있다. 이런 것도 외주 업체한테 배워서 우리 것으로 만들어야 하는 노하우다.

건설 현장 AI는 왜 이렇게 어려운가?

제조업 사례를 많이 들지만, 건설업은 제조업이랑 완전히 다르다. 그걸 이해 못 하면 돈만 날리고 실패한다.

제조업 공장을 생각해보자. 불량률이 2% 정도다. 제품 100개 만들면 2개가 불량이고, 98개는 정상이다. 그럼 AI는 “정상”과 “불량”을 구분하는 패턴을 배우기가 비교적 쉽다. 데이터가 충분하니까.

근데 건설 현장은? 정상 대 위험의 비율이 99,999:1이다. 하루 종일 현장을 찍어도 위험한 상황은 거의 안 나온다. 대부분은 평범한 작업 장면이다. 이런 상황에서 AI한테 “위험을 찾아라”고 하면? AI는 그냥 “전부 안전합니다”라고만 대답해도 정확도가 99.999%가 나온다. 그럼 쓸모가 없다. 그 0.001%의 진짜 위험을 못 잡으면 의미가 없으니까.

더 큰 문제는 건설 현장은 매일 환경이 바뀐다는 것이다. 제조업은 같은 공장에서 같은 라인에서 같은 제품을 만든다. 통제된 환경이다. 근데 건설 현장은? 오늘 비 오고, 내일 바람 불고, 다음 주엔 다른 공정으로 넘어가고, 작업자들도 계속 바뀐다. 완전한 비정형 환경이다.

그래서 건설 현장 AI는 단순한 패턴 인식으로는 안 된다. ‘맥락 이해’가 필수다. 이게 뭐냐면, 같은 행동이라도 상황에 따라 의미가 완전히 달라진다는 것을 AI가 이해해야 한다는 뜻이다.

예를 들어보자. “안전모를 안 쓴 작업자”를 AI가 발견했다. 이게 위험한가? 상황에 따라 다르다. 점심시간에 휴게실에서 밥 먹고 있는 거면? 당연히 안전하다. 20층 외벽 작업 중인데 안전모가 없으면? 엄청 위험하다. 2층 사무실 복도에서 안전모 없이 걸어가는 건? 애매하다.

단순한 AI는 이 셋을 구분하지 못한다. 그냥 “안전모 없음 = 위험”이라고 하루에 3,000건의 알람을 울린다. 근데 진짜 위험은 0건이다. 그럼 어떻게 될까? 현장 사람들이 알람을 꺼버린다. “이거 너무 시끄러워서 일 못 하겠어요.” 그렇게 AI CCTV는 쓰레기통으로 직행한다.

그래서 필요한 게 ‘온톨로지’라는 것이다. 생소한 용어인데, 쉽게 말하면 “상황과 관계를 이해하는 지식 체계”다. “용접 작업 중”이고 “주변 10m 이내에 소화기가 있으면” “안전 규정 준수”라는 식으로, 단순히 객체를 인식하는 게 아니라 그들 사이의 관계와 상황을 이해하는 것이다.

예를 들면 이런 식이다. “크레인이 작업 중이고, 바람이 초속 15m/s 이상 불고, 작업자가 크레인 반경 10m 이내에 있으면, 30분 내에 위험도 85%.” 이건 단순히 “크레인”, “사람”, “바람”을 인식하는 게 아니라, 이 세 가지가 어떤 관계를 이루고 있고, 그게 왜 위험한지를 이해하는 수준이다.

근데 이런 걸 처음부터 완벽하게 만들 수는 없다. 우리한테 아직 그런 역량이 없으니까. 그래서 필요한 게 ‘아저씨 파워’다. 농담 아니다. 진짜로.

현장에서 30년 일한 베테랑 소장님들이 있다. 이분들은 “어, 이거 위험해 보이는데”라는 느낌이 온다. 논리적으로 설명은 못 하지만, 경험으로 안다. 이걸 AI가 배워야 한다.

그래서 우리가 할 일은 이거다. 고년차 현장 전문가를 AI 학습 프로세스에 투입한다. 그분들이 현장 영상을 보면서 “이거 좀 이상한데?”라고 느끼는 순간마다, 그 상황의 모든 것을 기록한다. 영상, 소음, 날씨, 공정 단계, 작업자 수, 장비 위치, 전부. 그리고 “왜 이상하다고 느꼈어요?”를 최대한 언어화해서 저장한다.

이렇게 6개월 정도 하면, AI가 패턴을 찾기 시작한다. “아, 소장님이 위험하다고 한 상황들은 대부분 이런 공통점이 있네.” 그럼 AI가 비슷한 상황을 스스로 찾기 시작한다. 베테랑의 암묵지가 디지털화되는 것이다.

이게 바로 건설 현장 AI에서 맥락 이해가 ‘선택’이 아니라 ‘필수’인 이유다. 그리고 이런 걸 외주 업체랑 같이 하면서 배워야 한다. 그들의 기술에 우리의 현장 노하우를 결합하는 것이다.

주목/검증 필요한 회사

지금 우리가 PoC(개념 검증)를 하고 있는 업체가 4곳 있다. 3곳은 예상대로 그냥 평범하다. YOLO라는 기본 AI 모델에 약간의 커스터마이징을 한 수준이다. “사람”, “크레인”, “소화기”를 인식하는 정도. 빠르게 도입할 수 있고 검증된 기술이긴 한데, 차별화가 없다. 발전 가능성도 제한적이다.

그런데 5명짜리 작은 스타트업 하나가 완전히 다른 접근을 하고 있다. 얘네는 단순 객체 인식을 넘어서 ‘상황 인식’과 ‘상태 인식’까지 구현했다. “용접 작업 중이고, 소화기가 3m 이내에 비치되어 있으니, 안전 규정 준수 상태”라는 수준의 기초 온톨로지를 가지고 있다. 그것도 K건설 같은 대형 건설사와 실제 프로젝트를 했다고 한다.

이게 사실이라면 엄청난 거다. 이런 기술을 우리가 자체 개발하려면? 2-3년 걸린다. 투자 비용만 수십억이다. 근데 이 스타트업을 인수하면? 10-20억 정도로 즉시 확보할 수 있다. 물론 실사는 철저히 해봐야겠지만.

더 중요한 건 기술만이 아니다. 이 사람들이 가진 ‘건설 도메인 지식’과 ‘MLOps 노하우’다. 온톨로지를 어떻게 설계하는지, 현장 데이터를 어떻게 활용하는지, 이런 걸 아는 사람들이다. 이런 인재를 채용하려고 해도 시장에 없다. 근데 회사를 인수하면 팀째로 온다. 그럼 우리 내재화 로드맵이 2~3년은 당겨진다.

정리

그래서 우리 전략은 이렇게 정리된다. 일단 외주로 시작해서 배운다. 그 과정에서 좋은 업체가 있으면 인수를 검토한다. 그리고 단계적으로 자체 역량을 키워서 최종적으로는 완전 내재화한다. 외주-인수-내재화가 순차적인 게 아니라, 상황에 맞게 유연하게 조합하는 것이다.

PoC에서 확인할 건 명확하다. 기술이 실제로 작동하는가, 온톨로지를 확장할 수 있는가, 핵심 개발자들의 역량과 합류 의지, 기술 문서화 수준. 만약 이 스타트업이 검증되면 인수를 적극 검토하되, 3개월 독점 협상권 확보 후 철저한 실사를 거쳐 진행한다. 통합은 단계적으로, 핵심 인재는 독립성을 보장하면서 리텐션하는 방식으로.

5년 뒤, 휴머노이드 로봇이 건설 현장에 본격 투입될 때를 생각해보자. AI CCTV 플랫폼을 직접 운영하는 회사와, 여전히 외주 업체 전화번호만 가지고 있는 회사. 둘 중 어디가 살아남을까? 답은 명확하다.

지금 우리가 서 있는 분기점은 이거다. “배우면서 시작해서, 기회가 있으면 잡고, 결국엔 우리 것으로 만든다.” 이게 우리 전략이다.

Nomadamon

탐색기

AI CCTV 자체역량 확보 전략

외주를 학습 도구로 쓴다는 건 무슨 뜻인가

AI가 늙는다는 걸 아는 사람이 별로 없다

건설 현장 AI는 왜 이렇게 어려운가?

주목/검증 필요한 회사

정리

그래프 뷰

목차