검색 기능은 준비 중입니다.
검색 기능은 준비 중입니다.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

A Corpus-Based Approach for Automatic Thai Unknown Word Recognition Using Boosting Techniques 부스팅 기법을 사용한 태국어 미확인 단어 자동 인식을 위한 코퍼스 기반 접근 방식

Jakkrit TECHO, Cholwich NATTEE, Thanaruk THEERAMUNKONG

  • 조회수

    0

  • 이것을 인용

요약 :

단어 경계가 없는 언어에서 알려지지 않은 단어를 자동으로 인식하기 위해 분류 기술을 적용할 수 있지만 긍정적인 알려지지 않은 단어 후보의 수가 부정적인 후보의 수보다 압도적으로 적은 불균형 데이터 세트 문제에 직면합니다. 이 문제를 해결하기 위해 이 논문에서는 나중에 여러 후보 중에서 가장 가능성이 높은 알려지지 않은 단어를 선택하기 위해 협력하는 일련의 분류 모델을 생성하기 위해 소위 그룹 기반 순위 평가 기술을 앙상블 학습에 도입하는 코퍼스 기반 접근 방식을 제시합니다. . 분류 모델이 주어지면 그룹 기반 순위 평가(GRE)를 적용하여 알려지지 않은 단어의 후보를 하나로 간주할 때 각 후보의 순위와 정확성에 따라 가중치를 부여하여 후속 모델 학습을 위한 훈련 데이터 세트를 구성합니다. 그룹. 제안된 그룹 기반 순위 평가 접근법, 즉 V-GRE의 성능을 기존 Naive Bayes 분류기 및 앙상블 학습이 없는 바닐라 버전과 비교하여 평가하기 위해 대규모 태국 의학 텍스트에 대해 여러 가지 실험이 수행되었습니다. 그 결과 제안한 방법은 90.93의 정확도를 달성하였다.0.50순위 선택 시 97.26%, XNUMX 획득상위 0.26개 후보를 고려할 때 8.45%, 이는 기존 기록 기반 Naive Bayes 분류기 및 바닐라 버전에 비해 6.79% 및 93.93% 향상된 성능입니다. 가장 좋은 기능만 적용한 또 다른 결과는 XNUMX을 보여줍니다.0.22% ~ 최대 98.85 상위 0.15위와 상위 1위의 정확도는 각각 10%입니다. Naive Bayes 및 바닐라 버전에 비해 3.97% 및 9.78% 개선되었습니다. 마지막으로 오류 분석이 제공됩니다.

발행
IEICE TRANSACTIONS on Information Vol.E92-D No.12 pp.2321-2333
발행일
2009/12/01
공개일
온라인 ISSN
1745-1361
DOI
10.1587/transinf.E92.D.2321
원고의 종류
Special Section PAPER (Special Section on Natural Language Processing and its Applications)
범주
알 수 없는 워드 프로세싱

작성자

키워드