닫기 공유하기

'데이터 댐' 열렸다…과기정통부, 'AI 학습용 데이터' 4억8000만건 개방

인공지능 및 산업발전 촉진제…18일부터 30일까지 순차 개방
LG사이언스파크서 '인공지능(AI) 데이터 활용협의회' 출범식 개최

[편집자주]

임혜숙 과학기술정보통신부 장관이 8일 오후 서울 종로구 정부서울청사 본관 브리핑룸에서 제19회 국가우주위원회 관련 브리핑을 하고 있다. (과학기술정보통신부 제공) 2021.06.09 /뉴스1
임혜숙 과학기술정보통신부 장관이 8일 오후 서울 종로구 정부서울청사 본관 브리핑룸에서 제19회 국가우주위원회 관련 브리핑을 하고 있다. (과학기술정보통신부 제공) 2021.06.09 /뉴스1

국내 인공지능(AI)과 산업발전의 촉진제로 작용할 인공지능 학습용 데이터 170종(4억8000만건)이 18일 60종을 시작으로 이달말까지 순차적으로 개방된다. 헬스케어 데이터 등 개인정보와 민감정보가 포함될 우려가 있는 59종의 데이터는 최종 검증을 거쳐 30일 공개된다. 

정부는 지난 2017년부터 기업이나 연구자, 개인 등이 시간과 비용 문제로 개별 구축하기 어려운 인공지능 학습용 데이터를 구축해 개방해 왔다.

2020년부터는 문재인 정부의 핵심 정책인 디지털 뉴딜의 '데이터 댐' 구축 프로젝트의 일환으로 대대적으로 추진됐다. 데이터 댐은 광범위한 데이터를 댐에 보관, 필요한 곳에 사용할 수 있도록 있도록 하는 것으로 5G 네트워크가 수로로 활용된다. 이들 데이터의 최적의 활용도는 인공지능이다.

◇8개 분야 170종 학습용 데이터 개방…'인공지능(AI) 데이터 활용협의회' 출범식 개최

과학기술정보통신부는 인공지능 학습용 데이터의 활용 촉진과 성과 확산 등을 위해 이날 오전 10시 LG사이언스파크에서 '인공지능(AI) 데이터 활용협의회' 출범식을 갖고 의견수렴을 위한 간담회를 개최했다.

이 자리에는 임혜숙 과기정통부 장관을 비롯해 박수경 청와대 과학기술보좌관, 송경희 과기정통부 인공지능기반정책관, 문용식 한국지능정보사회진흥원(NIA) 등이 참석했다. 

산업계에서는 데이터에 목마른 LG, 네이버, KT, SKT, 현대자동차, 삼성전자 등 대기업 관계자들과 스트라드비젼, 비바엔에스, 딥노이드, 원투씨엠 등 스타트업 업체들이 참가했다.

임혜숙 과기정통부 장관은 출범식 인사말을 통해 "댐의 물이 대지 곳곳으로 스며들어 꽃을 피우듯이, 이번에 공개되는 데이터들이 산업 곳곳에서 널리 활용돼 혁신의 열매를 맺을 수 있기를 기대한다"고 말했다.

과기정통부와 NIA에 따르면, 지난해 구축해 이번에 개방하는 인공지능 8대 분야 170종의 학습용 데이터는 데이터 기획부터 구축까지 산업계와 전문가 뿐만 아니라 4만여명의 국민들이 참여했다.

구체적으로는 한국어 방언 등 음성·자연어 39종과 암진단 영상 등 헬스케어 32종, 도로주행영상 등 자율주행 21종, 스포츠 동작 영상 등 비전 15종, 산림수종 이미지 등 국토환경 15종, 가축행동 영상 등 농축산물 14종, 노후 이미지 등 안전 19종, 패션상품 이미지 등 기타 18종 등이다.

민간의 광범위한 수요를 바탕으로 분야별 산학연 전문가와 주요 활용기업 등이 직접 참여해 산업 파급효과가 크고, 민간에서 대규모로 구축하기 어려운 인공지능 학습용 데이터를 기획했다. 이 데이터는 한국어 음성 데이터와 국내 도로주행 영상 데이터, 주요 암질환 영상 데이터 등이 포함된다.

오는 30일 공개되는 한국어 방언의 경우 강원도, 경상도, 전라도, 제주도, 충청도 등 각 지역별 농어촌 주민들의 실제 사투리 음성을 녹음해 방언 데이터를 구축했다. 이를 통해 표준어에 비해 사투리를 잘 인식하지 못하던 음성 기반 인공지능 서비스의 문제점이 상당 부분 해결될 전망이다.

헬스케어 부분에서 암과 뇌질환, 피부, 치과 등 다양한 의료 데이터 32종이 공개된다. 이를 통해 건강관리와 질병검진에서부터 예방·예측, 치료에 이르는 전 과정 스마트 의료 혁신을 뒷받침할 임상 중심의 의료영상 데이터를 확보하게 됐다.

자율주행 데이터는 국내 도로주행 영상뿐만 아니라 주차 장애물과 이동체 인지 영상, 버스 노선 주행 영상 등 다채로운 데이터를 제공해 자율주행 개발을 한층 더 앞당길 것으로 보인다.

농축수산 분야에서는 1차 산업인 농축수산업의 디지털 전환과 스마트화의 실현에 필요한 작물, 가축, 양식어류 등에 대한 인공지능 학습용 데이터를 확보했다.  

안전분야에서는 지속적으로 발생하는 재난과 안전, 보안사고에 대한 선제적 대응과 기능화 대응 체계를 구축하기 위한 CCTV 영상과 이상행동, 교통흐름·재난상황 데이터 등 19종의 공개된다. CCTV 영상의 경우 시나리오를 기반으로 개인동의를 받고 개인정보 침해 위험이 적다는 게 정부 설명이다.

© 뉴스1
© 뉴스1

◇데이터 구축에 주요대학 48곳, 병원 25곳, 기업·기관 674곳, 시민 4만여명 참여 

데이터 구축에는 국내 주요 인공지능과 데이터 전문기업은 물론 서울대, 카이스트 등 주요대학 48곳과 서울대병원, 아산병원 등 병원 25곳, 674곳의 기업과 기관이 참여했다. 특히 데이터 수립과 가공 등 구축과정에서 경력단절여성, 취업준비청년 등 국민 누구나 참여할 수 있는 크라우드소싱 방식을 도입해 4만여명의 참여를 이끌어냈다.

데이터의 품질과 활용성을 검증하고 관리하는 과정에는 분야별 전문가와 전문기관, 활용기업 등이 힘을 모았다. 지난해 9월부터 8대 분야별 산학연 전문가 80여명이 참여하는 품질자문위를 운영, 전문적인 품질관리 지원체계를 구축했다.

양기성 인공지능기반정책관은 "이번에 인공지능 허브에 개방되는 인공지능 학습용 데이터는 비용과 인력 확보 등의 문제로 데이터를 직접 구축하기 어려운 중소기업이나 스타트업 뿐만 아니라 대기업도 차제 확보하기 어려운 대규모 데이터를 제공한다는 점에서 그동안 국내 인공지능 산업계에서 가장 큰 걸림돌로 꼽은 문제인 '데이터 갈등'을 어느 정도 해소할 수 있을 것으로 전망된다"고 밝혔다.

양 정책관은 데이터 편향성 문제에 대해 "'이루다 사건' 때문에 데이터 관련 편향성과 혐오성 표현 부분이 들어갈 수 있는 데이터를 1차로 추출하고, 문제가 될 수 있는 데이터는 감별로 전수조사를 진행했다"고 설명했다.

과기정통부와 NIA는 데이터 개방 후에도 오는 9월까지 이용자 참여형 집중개선기간 운영 등을 통해 이용자의 요구사항을 적극 반영하는 등 민관협력을 기반으로 데이터를 지속적으로 개선해 나갈 계획이다.
연관 키워드
로딩 아이콘