FORUM
블로그
HR 데이터를 인공지능에게 학습시킬 때의 데이터 준비
- 2023-12-08
- 180
[AI 요약]
역량기반 지원서의 전문가 평가 데이터를 인공지능에게 학습시킨 결과 매우 높은 상관관계를 보인 사례가 있습니다. 또한, 인공지능에게 "인성검사 내러티브 리포트"를 학습시켜 전문가의 내러티브 리포트와 90% 이상의 일치율을 보여주는 사례도 있었습니다.
인공지능을 학습시키기 위해서는 풍부하고 품질이 좋은 데이터가 필수적입니다. 데이터 준비는 데이터 수집부터 저장까지 다섯 단계로 나눌 수 있는데, HR 데이터의 경우 이 중 전처리와 레이블링 단계가 특히 중요합니다.
1. 데이터 수집은 다양한 출처에서 텍스트 데이터를 수집하는 과정입니다. 웹사이트, 소셜 미디어, 뉴스 기사, 문서 등을 수집할 수 있으며, 온라인 데이터 수집과 오프라인 데이터 수집으로 구분됩니다.
2. 데이터 전처리는 데이터 정제와 데이터 변환으로 나눌 수 있습니다. 데이터 정제는 불필요한 데이터 제거, 이상치 처리, 중복 제거, 누락된 값 처리 등을 포함합니다. 데이터 변환은 데이터 스케일링, 데이터 정규화, 데이터 형식 변환 등을 포함합니다.
3. 레이블링은 기계 학습 또는 딥러닝 모델을 훈련시키기 위해 데이터에 정답 또는 태그를 부여하는 과정입니다. 이를 통해 모델이 학습할 수 있도록 원하는 출력값을 명시적으로 지정합니다.
특별히 레이블링 품질 관리는 중복 검토와 품질 피드백을 통해 레이블링 품질을 향상시킵니다.
4. 데이터 품질 평가는 전처리와 레이블링된 데이터에 대해 오류가 없는지 확인하는 작업을 포함합니다. 불완전한 데이터, 중복 데이터, 통계적 이상치 등을 확인합니다.
5. 정제된 데이터는 학습에 사용할 수 있도록 저장합니다. 일반적으로 CSV, JSON, XML 등의 형식으로 저장됩니다.
인공지능에게 제대로 된 학습을 시키기 위해서는 무엇보다 잘 정제되고, 잘 레이블링된 많은 양의 데이터가 필요합니다. 또한 레이블링 시 단일 요인으로 일관성 있게 처리하는 것이 중요합니다.
(글: 비에스씨 연구소)
전체 글은 비에스씨 공식블로그에서 보실 수 있습니다.
https://blog.naver.com/bsc_hr/223285085414