2022-2023. 자연어처리 기술을 이용한 사업보고서 및 뉴스기사의 키워드와 관계 추출
페이지 정보
작성자 교수 댓글 0건 조회 531회 작성일 23-08-13 08:15본문
자연어처리 기술을 이용한 사업보고서 및 뉴스기사의 키워드와 관계 추출, 신영증권, 연구책임자, 2022.11.21~2023.11.20
[목표]
본 과제의 목표는 금융 도메인 임의 문장(e.g. 뉴스 기사, 사업보고서 등)에 대해 기업 및 기관에 대한 주요 키워드(e.g. 인명, 기업명, 제품명 등)들을 추출하고 그들 사이에 존재하는 사회적 관계를 자동으로 추출하는 시스템을 개발하는 것이다. 해당 시스템은 두 가지 모듈로 구성된다. 첫 번째는 금융 도메인의 입력 문장 또는 문서에서 주요 키워드를 추출하는 개체명 인식(Named entity recognition) 모듈이다. 개체명 인식은 미리 구축된 사전(Dictionary) 유무에 따라 성능 결과가 매우 상이하다. 사전이 있는 경우 개체명 인식 모델에 적절하게 활용하여 성능을 향상시킬 수 있다. 본 과제의 개체명 인식기에서는 미리 정의된 금융 도메인 사전을 활용하여 금융 도메인과 관련된 키워드를 높은 정확도로 추출하는 것을 목표로 한다. 두 번째는 개체명 인식 결과와 문장의 내용을 바탕으로 금융 도메인 키워드들 간의 사회적 관계를 밝혀내기 위한 관계 추출(Relation extraction) 모듈이다. 최근 관계 추출은 풍부한 언어 지식을 내포하고 있는 사전 학습 언어 모델을 활용한 연구가 활발히 진행되고 있다. 본 과제는 사전 학습 언어 모델에 추가적으로 개체들 사이의 구문 정보까지 활용하여 기존보다 높은 정확도를 보이는 관계 추출 모듈을 개발하고자 한다. 목표 시스템은 자연어 문장을 입력 받아 개체명 인식 과정을 거친 후 관계 추출을 진행하는 파이프라인(pipeline) 구조를 가진다. 목표 시스템의 최종 출력은 개체를 노드로 하고 관계를 간선으로 하는 금융 관련 지식 그래프이다.
[목표]
본 과제의 목표는 금융 도메인 임의 문장(e.g. 뉴스 기사, 사업보고서 등)에 대해 기업 및 기관에 대한 주요 키워드(e.g. 인명, 기업명, 제품명 등)들을 추출하고 그들 사이에 존재하는 사회적 관계를 자동으로 추출하는 시스템을 개발하는 것이다. 해당 시스템은 두 가지 모듈로 구성된다. 첫 번째는 금융 도메인의 입력 문장 또는 문서에서 주요 키워드를 추출하는 개체명 인식(Named entity recognition) 모듈이다. 개체명 인식은 미리 구축된 사전(Dictionary) 유무에 따라 성능 결과가 매우 상이하다. 사전이 있는 경우 개체명 인식 모델에 적절하게 활용하여 성능을 향상시킬 수 있다. 본 과제의 개체명 인식기에서는 미리 정의된 금융 도메인 사전을 활용하여 금융 도메인과 관련된 키워드를 높은 정확도로 추출하는 것을 목표로 한다. 두 번째는 개체명 인식 결과와 문장의 내용을 바탕으로 금융 도메인 키워드들 간의 사회적 관계를 밝혀내기 위한 관계 추출(Relation extraction) 모듈이다. 최근 관계 추출은 풍부한 언어 지식을 내포하고 있는 사전 학습 언어 모델을 활용한 연구가 활발히 진행되고 있다. 본 과제는 사전 학습 언어 모델에 추가적으로 개체들 사이의 구문 정보까지 활용하여 기존보다 높은 정확도를 보이는 관계 추출 모듈을 개발하고자 한다. 목표 시스템은 자연어 문장을 입력 받아 개체명 인식 과정을 거친 후 관계 추출을 진행하는 파이프라인(pipeline) 구조를 가진다. 목표 시스템의 최종 출력은 개체를 노드로 하고 관계를 간선으로 하는 금융 관련 지식 그래프이다.
- 이전글2024-2026. 생성 AI가 생성한 결과물의 진실성과 일관성 확보를 위한 기술 연구 24.04.12
- 다음글2023. NLP용 AI 모델의 경량화(compression) API 개발 23.08.12
댓글목록
등록된 댓글이 없습니다.