이상치 제거
리트머스 교통량 모델을 통하여 생성된 교통량 원본 데이터는 1차적으로 K-Means, DBSCAN, Autoencoder 등 다양한 AI 클러스터링 모델을 활용하여 모바일 측위 데이터 기반 교통량의 특성 (기지국 위치 기반의 인공지능 위치 모델의 결과를 활용하므로 기지국의 배치와 변경사항 등으로 인하여 오차 발생 가능) 으로 인하여 필연적으로 발생하는 이상치 데이터를 검출해내는 작업을 거칩니다. 이후 본격적인 전수화 모델 적용 단계에서 과도한 이상치는 모델의 전반적인 적합성을 떨어뜨릴 수 있기 때문에 필수적으로 거치는 과정입니다.
전수화 모델 주요 특성 데이터
리트머스 교통량 전수화 모델은 XGBoost 모델을 기반으로 설명될 다양한 특성들을 학습 데이터로 삼습니다. 가장 중요한 학습용 데이터 셋의 경우 국가 및 지자체 차원에서 수집 관리하고 있는 ⓵ 공공 교통량 데이터 ⓶ T맵 도로 통행 데이터 ③ 리트머스 시스템을 통해 실시간으로 모델링 생성하는 전국 출도착지 기준 통행량 데이터 ④ KS Link (국가 도로 링크 정보) 정보 데이터가 있습니다. 각각의 특성은 전수화 교통량 데이터가 실제 교통상황을 반영할 수 있도록 면밀하게 수집되어 전처리 되고 있습니다.
구분 | 특성 설명 |
교통량 정답지 | VDS, 스마트 CCTV 등 공공 교통량 계측 정답 데이터 – 일, 월, 연 통계 데이터 및 시간 단위 통계 데이터 포함 |
T맵 통행 데이터 | T맵 이용 차량의 도로 링크 단위 이동 상태 데이터, 위치 도로 및 속도 특성 등 – 네비게이션 안내 사용자 한정 |
KS Link | 국가 표준 도로 링크 형상 데이터 – 도로 링크 간 관계성 및 도로 특성 (차로, 제한속도, 등급, 교차로 형태 등) |
리트머스 통행 데이터 | 리트머스 여정 데이터 기반의 거시적 통행량 데이터 (이동 수단 구분 완료) |
시간 이벤트 정보 | 요일, 시간대 특성 및 중요 이벤트 (명절, 휴가, 날씨 등) |
전수화 모델 구성
리트머스 교통량 전수화 모델은 아래와 같이 구성됩니다. 베이스가 되는 교통량 전수화 모델이 상기 설명한 다양한 특성 정보를 지속적으로 학습할 수 있도록 합니다. 무엇보다 앞서 언급한 바와 같이 도로 특성 정보의 연결성과 리트머스 데이터를 결합하여 정답 데이터가 전체 도로 구간으로 전이될 수 있도록 구성하였습니다. 전수화 모델은 대상 지역별로 고유한 전수화 계수를 제공하게 되며, 전수화 이전의 리트머스 교통량 데이터를 전수화 계수와 결합하여 최종 교통량 데이터를 만들어 내도록 구성되었습니다.
리트머스 교통량 전수화 모델의 장점
리트머스 교통량 전수화 모델은 기존의 계측 장비를 통한 교통량 제공 시스템의 장점을 극대화 하고 단점을 최대한 보완하는 방향의 특장점을 가집니다. 무엇보다 이러한 모바일 데이터 기반 교통량 서비스가 보완재로서의 역할을 충실하게 수행할 수 있도록 구성하였습니다.
정답지가 없는 구간에서 전수화 기능
최대 점유율의 네비게이션 데이터를 활용한 경향성 정확도 강화
전국 단위 통행량 데이터를 통한 교통량 볼륨 정확도 강화
전수화 정확도
리트머스 교통량 전수화 모델의 서울시에 적용한 결과는 아래와 같습니다. R Square (회귀분석 모델의 성능 평가지표) 기준 0.98 (일 단위 교통량 통계), 0.96 (시간 단위 교통량 통계) 를 보여줌으로써 매우 높은 상관관계를 보임을 알 수 있습니다.