KISAC Mail topM_Gline Contact us topM_Gline
 
인사말 회사비전 회사연혁 조직구성 찾아오시는 길
공지사항 자료실 채용정보 감리 및 IT소식
감리비산정 상담요청 FAQ
개인정보영향평가 ISMS-P 취약점분석평가 SW 보안 약점 진단
통신감리 Smart-City
(U-CITY)구축감리
지능형 교통체계 감리 사물지능 통신감리 VE컨설팅
PMO BPR/ISP 컨설팅 데이터 사업
개발감리 운영감리 BPR/ISP 감리 ERP 구축 감리 GIS 구축 감리 DB 구축감리
데이터
데이터 품질인증
데이터 분석/가시화/거래
데이터 가치평가
데이터 품질진단 상담 신청
데이터 관련 업무 의견 접수




개인정보평가지정
고객센터
데이터 품질검증
(Un)Structured Data Valuation
KISAC HOME >> 데이터사업 > 데이터 품질검증


  • 데이터 산업진흥 및 이용촉진에 관한 기본법
  • 데이터 산업진흥 및 이용촉진에 관한 기본법 시행령
  • 데이터 산업진흥 및 이용촉진에 관한 기본법 시행규칙
KISAC은 고객이 보유한 수많은 정형/비정형 데이터에 대한 품질 수준을 진단하고, 최적의 품질을 유지한 데이터가 운용될 수 있도록 지원합니다.
데이터 품질인증/거래/분석?정제?전처리?가공 및 구축에 관련 상담과 업무에 대해 신청을 지원합니다.    》》》》  


데이터 품질 문제점
정보시스템의 복잡도 증가
  • 비즈니스의 복잡성 증가에 따른 정보시스템의 복잡도 증가
  • 데이터의 종류 및 용량 증가
데이터 품질에 대한 인식 부족
  • 데이터베이스 중요성에 비해 부정확한 데이터에 대한 낮은 인식
  • 책임.소지를 우려한 비이슈화
  • 데이터 품질 관리 비용의 인식 부족
데이터 관리/통제 부재 데이터에 대한 관리 주체와 절차 부재로 인한 데이터의 식별과 검증 및 검증결과에 대한 처리 절차 부재
데이터 품질 관리 기술 부족
  • 데이터 품질 전문가 부족
  • 각 기업(기관)에 적합한 데이터 품질 활동을 고려한 적용 기술 부족
[ 데이터 품질 관리 필요성 ] 
  데이터 품질 관리의 어려움을 이해하고 현실에 맞는 체계, 방법론, 기술에 대해 숙지 및 적용하는 것 매우 중요


데이터 오류 유형


데이터 품질 진단 종류
데이터 값 진단
  • 운영 데이터베이스의 테이블, 컬럼, 코드, 관계, 업무규칙 등을 기준으로 데이터의 값을 분석하여
    데이터의 품질을 진단
  • 데이터 값과 관련된 품질기준을 적용하여 오류내역을 산출하고, 오류원인을 분석하여 개선사항을
    제안하는 절차
  • 데이터 값과 관련된 오류는 데이터의 구조, 흐름 통제, 관리 프로세스 등과 연관되어 발생
데이터 구조 진단
  • 데이터 설계 관점에서 데이터 품질을 진단
  • 데이터베이스를 리버스 모델링(Reverse modeling)하여 논리 모델을 도출하고 이를 통해 데이터의 구조 무결성, 구조 표준화, 관리 수준, 변경 관리 등의 현황을 진단
데이터 관리 프로세스 진단
  • 데이터 관리 프로세스를 분석하여 문제점을 도출하고, 이를 개선할 수 있는 핵심 업무 프로세스를 최적화
  • 조직의 역량 분석을 통해 단계적 품질관리 이행 전략을 수립하는 절차를 제안할 수 있음


데이터 품질 활동을 수행하기 위한 접근 방법
  • [ Inside out ] - 데이터 분석으로부터 품질 이슈 접근 및 문제 개선점 파악
  • [ Outside in ] - 외부의 비즈니스, 서비스 품질 이슈로부터 접근



데이터 품질 검사를 위한 데이터 분류
정형정보 비정형 정보
구분 구조화(Structured) 반구조화(Semi-Structured) 비구조화(Unstructured)
정보유형 ① 기준정보
② 거래정보
③ 집계정보
① HTML
② XML
③ GIS
① 동영상
② 이미지
③ 사운드
④ 문서
포멧 DB-TABLE/COLUMN CSV, JSON, YAXML DOC(EXCEL,PPT), PDF, SHP, SHX, RSS, JPEG, MOV




데이터 정의
정형데이터 이외의 데이터를 의미하며, 비즈니스 상에서 생산되는 데이터 중 약 80% 가량이 비정형데이터에 해당함.
정형화 되어 있지 않은 데이터라 함은 데이터 내부적 구조는 존재 하지만 사전에 정의 되는 데이터 모델이 존재하지 않은 것을 의미함



정형정보 비정형 정보
행, 열 및 관계 DB과 표현 가능 행, 열 및 관계형 DB로 표현 불가능
숫자, 날짜, 문자 등 이미지, 음성, 영상, 문서 등
기업 내 데이터 중 20% 비중 차지 기업 내 데이터 중 80% 비중 차지
적은 저장 공간 필요 많은 저장 공간 필요
관리 및 보호 용이 관리 및 보호가 어려움


데이터 품질 지표
데이터 명세
(정형)
테이블 정의서, 컬럼정의서, 코드정의서, 메타테이블명, 메타영문명, 메타데이터타입
데이터 품질지표
(정형)
준비성, 정확성(구문, 범위), 완전성(레코드, 항목, 파일, 값), 일관성(참조무결성, 형식, 의미), 보안성,
적시성, 유용성, 활용성, 최신성, 접근성, 준거성
데이터 품질지표
(비정형)
공간정보 AI 학습데이터
  • 형식일관성
  • 공간참조정확성
  • 개념적 일관성
  • 도메인 일관성
  • 통합 공간파일 완결성
  • 개별 공간파일 완결성
  • 공간객체 누락, 불일치 정제
  • 공간레이어 오류 검토
  • 다양성
  • 정확성
  • 유효성
데이터 품질관리 준비성, 완전성, 일관성, 보안성, 적시성, 유용성
데이터 표준관리 도메인(문자, 숫자, 날짜, 번호, 코드, 여부)


비정형 데이터 품질평가 대상
관리 메타 데이터 객체 메타 데이터 객체 데이터
정의 비정형 데이터 객체들이 하나의 데이터셋으로 통합
되어 관리가 될 때 효율적인 활용을 위해 각 객체들에 대한 정보를 하나로 수집한 데이터를 의미하며, 관리 메타 데이터는 정형 데이터로 관리됨
활용 및 관리를 위해 생성되는 객체들의 정보 순수한 객체 자체의 데이터 영역
공통
  • 데이터개수
  • 파일명
  • 파일형식
  • 주제영역
  • 저장위치
  • 파일크기
  • 파일명
  • 파일형식
  • 저장위치
  • 파일크기
  • 객체내용
  • 내용중복
  • 파일오류
이미지
  • 이미지 해상도
  • 이미지 압축률
  • 이미지 생성일
  • 이미지 해상도
  • 이미지 압축률
  • 이미지 생성일
  • Exif(메타)
  • 선명도
  • 왜곡
  • 노이즈
  • 빛번짐(Flare)
  • 인공미
  • 미적 품질
음성
  • 음성 길이
  • 음성 압축률
  • 비트 깊이
  • 샘플링 비율
  • 음성 길이
  • 음성 압축률
  • 비트 깊이
  • 샘플링 비율
  • ID3(메타)
  • 음성 크기(dB)
  • 음성 주파수
  • 음성 진폭
  • 음성 공백 비중
  • 음성 노이즈
동영상
  • 동영상 길이
  • 동영상 해상도
  • 동영상 화면비
  • 동영상 압축률
  • 초당프레임수
  • 동영상 길이
  • 동영상 해상도
  • 동영상 화면비
  • 동영상 압축률
  • 초당프레임수
  • 대기 시간
  • 패킷 손실
  • 노이즈
  • 선명도
  • 흔들림
  • 깜빡임
GIS
  • 공간정보좌표
  • 지도 해상도
  • 지도 압축률
  • 지도 생성일
  • 지도 축척
  • 지도 해상도
  • 지도 압축률
  • 지도 생성일
  • 지도 축척
  • 공간 객체 표기
  • 라인 오버랩
  • 객체 선명도
문서
(텍스트)
  • 문서 언어
  • 업데이트 날짜
  • 업데이트 날짜
  • 문서 언어
  • 제목 연관성
  • 글의 길이
  • 의미단어비중
  • 참조문서수
  • 글의 감정



비정형 데이터 품질 지표
지표명 정의 대상
관리 메타 완전성 객체들에 대한 정보를 관리하는 데이터 유무 및 항목 충분 여부 관리 메타 파일 및 속성
기본 메타 일치성 관리 메타의 정보와 실제 객체들의 기본 메타간의 일치 여부 객체의 파일명, 확장자, 크기 등
주제 메타 일치성 주제영역의 내용과 실제 데이터의 내용 일치 여부 객체의 내용(의미 정확성)
메타 일관성 데이터셋 내에서 객체들의 메타 일관된 값 또는 패턴 정도 객체의 파일명, 확장자
메타 유사성 데이터셋 내에서 객체들의 메타 유사 정도 객체의 파일크기, 값의 크기 등
데이터 유일성 데이터셋 내에서 중복 객체에 대한 여부 객체의 값
데이터 최신성 현재의 시점과 객체가 생성된 날짜의 차이 정도 객체의 생성 일자
데이터 친밀성 객체의 파일 형식에 대한 보편성 정도 객체의 확장자
데이터 기능성 객체 고유의 품질 영역 객체의 값
데이터 효율성 객체를 사용함에 있어서 불편성 객체의 값
파일 오류 객체 자체 파일의 에러 여부 객체의 값
내용 오류 객체 값에 오류가 있어 사용이 불가한 정도 객체의 값
개인정보 익명성 객체 값에 개인 정보가 포함되어 보안에 문제가 발생되는 정도 객체의 값


AI 학습데이터 품질 지표
지표명 정의 대상
법제도준수성 원시데이터 획득 시 관련 법 제도적?규정 등을 준수하여야 함 개인정보 및 사생활 보호가 필요한 항목 획득 시 개인정보보호법 , 등에 따라 적절한 법적, 기술적 절차를 거친 데이터를 활용하며 그렇지 않은 데이터는 정제 과정에서 처리될 수 있도록 함 의료 데이터와 같은 경우는 IRB(의학연구윤리심의위원회 와) 데이터 공개에 대한 해당 기관의 동의를 사전에 득해야 함 지적재산권 이슈가 있는 경우 해결방안을 마련하여 획득해야 함 수집/정제 데이터
다양성 인공지능 학습모델이 현실을 잘 반영하고 본래의 구축목적을 달성할 수 있도록, 획득하는 데이터가 일부 범주에만 치우치지 않고 가능한 다양한 시간, , 공간 집단 수준 등이 포함할 수 있도록 함 학습데이터셋
구문 정확성 라벨 데이터 포맷과 값이 정확하게 입력되어 있고 필수항목 누락 여부 검사(구조, 범위, 형식) 학습데이터셋
의미 정확성 어노테이션 값이 의미적으로 정답(GT)인지 확인하는 항목으로 실제적인 정답 비율 확인 객체
유효성 구축한 데이터세트를 잘 알려진 인공지능 학습 모델로 훈련시킨 후 목표로 했던 수준의 성능 달성이 가능한지 확인 AI모델


데이터 품질 지표 평가영역
평가 영역 품질평가 지표 배점
데이터 관리 체계 품질관리 계획 수립 기관 데이터 품질관리 계획 수립 및 이행 2
예방적 품질관리 진단 예방적 품질관리 진단 2
사업수행 전 예방적 품질관리 진단결과 반영 4
사업 완료 단계 예방적 품질관리 진단결과 반영 4
데이터 표준 확산 데이터 표준 정의 4
데이터 표준 적용율 6
데이터 구조 안정화 데이터 구조 정의 및 산출물 관리 2
데이터 구조 산출물 현행화 3
데이터 연계 관리 연계 데이터 관리 정보 정의 2
연계 데이터 송수신 내역 관리 3
데이터 값 관리 데이터 품질 진단 품질진단 기준 정의 및 진단 12
업무규칙에 따른 품질진단 규칙(BR) 정의 및 진단 12
품질진단 결과 조치 품질진단에 따른 개선계획 수립 및 개선과제 정의 10
개선조치 이행률 15
데이터 값 오류율 데이터 값 최종 오류율 15
오류신고 요구사항 분석 및 개선 데이터 품질 오류 분석 및 문제점 개선 4
가점 지표
( 최대 5점 )
예방적 품질관리 컨설팅 (건 당 1점, 최대 2점) 2
비정형데이터의 메타데이터 품질진단 (DB당 0.2점, 최대 1점) 1
대상 DB 초과 수행 (대상 DB가 30개를 초과하는 경우 최대2점 2



데이터 품질진단 시점
데이터의 저장, 연계, 가공, 활용 등 데이터에 변경이 발생하는 모든 영역에서 수시로 값 진단을 수행하여 데이터의 오류를 사전에 파악하고 예방하는 것 중요


데이터 품질진단 기대효과
데이터의 신뢰도와 일관성을 확보 및 향상 시켜 데이터 기반의 경영이 가능해지고, 다양한 분석정보를 이용하여 통합, 연계, 대국민 서비스 등의 토대를 마련할 수 있음
신규 업무개발 시 비용이 절감되며 업무 및 IT부서의 생산성 및 운영 효율화를 통한 비용절감이 가능해짐


데이터 품질인증/거래/분석?정제?전처리?가공 및 구축에 관련 상담과 업무에 대해 신청을 지원합니다.    》》》》  


회사소개 감리 통신/융합 보안 고객지원 KISAC Mail