검색 기능은 준비 중입니다.
검색 기능은 준비 중입니다.

IEICE TRANSACTIONS on Information

  • Impact Factor

    0.59

  • Eigenfactor

    0.002

  • article influence

    0.1

  • Cite Score

    1.4

사전 게재 (접수 즉시 온라인 게재)

Volume E107-D No.11  (Publication Date:2024/11/01)

    일반 섹션
  • BiConvNet: 양측 지점 이미지 분할 네트워크에 공간 세부 정보와 심층 의미론적 기능 통합 오픈 액세스

    Zhigang WU  Yaohui ZHU  

     
    PAPER-Fundamentals of Information Systems

      공개:
    2024/07/16
      페이지:
    1385-1395

    이 글은 BiSeNet v2 양측 브랜치 이미지 분할 네트워크 구조를 개선하고 공간 세부 정보에 대한 학습 능력과 전반적인 이미지 분할 정확도를 향상시키는 데 중점을 둡니다. "BiconvNet"이라는 수정된 네트워크가 제안됩니다. 첫째, 얕은 공간 세부 정보를 보다 효과적으로 추출하기 위해 병렬 연결 스트립 및 확장(PCSD) 합성 모듈을 제안하고 이를 사용하여 세부 브랜치에서 로컬 피처와 주변 맥락적 피처를 추출합니다. 이어서, 심층 분리 합성의 가벼운 기능과 ConvNet의 고성능을 사용하여 의미 브랜치를 재구성하여 심층 고급 의미적 피처를 보다 효율적으로 학습할 수 있도록 합니다. 마지막으로, BiSeNet v2의 양측 안내 집계 계층에서 미세 조정을 수행하여 세부 브랜치와 의미 브랜치에서 출력된 피처 맵을 보다 잘 융합할 수 있도록 합니다. 실험 부분에서는 스트라이프 합성과 다양한 크기의 빈 합성이 이미지 분할 정확도에 미치는 영향을 논의하고 Conv2d 합성, CG 합성, CCA 합성과 같은 일반적인 합성과 비교합니다. 실험은 이 논문에서 제안한 PCSD 합성곱 모듈이 일반적인 합성곱과 비교했을 때 Cityscapes 데이터세트의 모든 범주에서 가장 높은 분할 정확도를 가지고 있음을 증명합니다. BiConvNet은 모델 매개변수에서 9.39M만 약간 증가했을 뿐 BiSeNet v2 네트워크보다 1.18%의 정확도 향상을 달성했습니다. 검증 세트에서 68.75%의 mIoU 정확도가 달성되었습니다. 또한 최근 몇 년 동안 일반적으로 사용되는 자율 주행 이미지 분할 알고리즘과의 비교 실험을 통해 BiConvNet은 Cityscapes 및 BDD100K 데이터세트의 분할 정확도에서 강력한 경쟁 우위를 보여줍니다.

  • 공장 자동화의 1ms 슈퍼픽셀 분할 시스템을 위한 파이프라인 구조 기반 스트리밍 SSN으로 집계됨 오픈 액세스

    Yuan LI  Tingting HU  Ryuji FUCHIKAMI  Takeshi IKENAGA  

     
    PAPER-Computer System

      공개:
    2024/07/23
      페이지:
    1396-1407

    1밀리초(1ms) 비전 시스템은 공장 자동화 및 로봇공학과 같은 다양한 분야에서 점점 더 주목을 받고 있습니다. 초저 지연은 원활하고 시기적절한 응답을 보장하기 때문입니다. 슈퍼픽셀 분할은 후속 처리를 위한 이미지 기본 요소의 수를 줄이는 핵심적인 전처리입니다. 최근에는 우수한 성능과 다른 딥 네트워크 작업에 대한 더 나은 통합을 추구하기 위해 딥 네트워크 기반 알고리즘을 활용하는 데 중점을 두고 있습니다. 슈퍼픽셀 샘플링 네트워크(SSN)는 피처 생성을 위해 딥 네트워크를 사용하고 슈퍼픽셀 생성을 위해 미분 가능한 SLIC를 사용합니다. SSN은 적은 수의 매개변수로 높은 성능을 달성합니다. 그러나 초저 지연을 위해 FPGA에서 SSN을 구현하는 것은 최종 계층의 중간 결과 집계로 인해 문제에 직면합니다. 이러한 한계를 해결하기 위해 이 논문은 FPGA 구현을 위한 집계에서 파이프라인 구조로의 전환을 제안합니다. 최종 계층은 각 중간 결과에 대한 개별 최종 계층으로 분해됩니다. 이러한 구조적 조정은 중간 결과를 저장하기 위한 메모리의 필요성을 제거합니다. 동시에, 제안된 구조는 분해된 레이어를 활용하여 픽셀 스트리밍 입력을 사용하여 파이프라인 구조를 용이하게 하여 초저 지연 시간을 달성합니다. 파이프라인 구조와 협력하기 위해 레이어 분할 메모리 아키텍처가 제안됩니다. 각 최종 레이어에는 슈퍼픽셀 중심 정보를 저장하기 위한 전용 메모리가 있어 충돌 없이 메모리에서 값을 읽고 계산할 수 있습니다. 각 최종 레이어의 계산 결과가 누적되고 스트림이 마지막 레이어에 도달하면 각 픽셀의 결과가 얻어집니다. 평가 결과에 따르면 경계 재현율과 과소 분할 오류는 SSN과 비슷한 수준으로 유지되며 SSN에 비해 평균 레이블 일관성이 0.035 향상됩니다. 하드웨어 성능 관점에서 제안된 시스템은 1000ms/프레임의 지연으로 0.947FPS 이미지를 처리합니다.

  • MemFI를 사용한 메모리 내 키 값 저장소의 메모리 오류 핸들러에 대한 런타임 테스트 오픈 액세스

    Naoya NEZU  Hiroshi YAMADA  

     
    PAPER-Software System

      공개:
    2024/07/11
      페이지:
    1408-1421

    DRAM과 같은 최신 메모리 장치는 작동 중에 의도치 않은 비트 플립으로 인해 발생하는 오류가 발생하기 쉽습니다. 메모리 오류는 메모리 내 키-값 저장소(KVS)에 심각한 영향을 미치기 때문에 메모리 오류에 대비하여 이를 강화하기 위한 소프트웨어 메커니즘이 탐구되고 있습니다. 그러나 메모리 오류 처리 코드는 특성상 효율적으로 테스트하기 어렵습니다. 즉, 코드는 이벤트 기반이고, 핸들러는 메모리 객체에 따라 달라지며, 메모리 내 KVS는 방대한 메모리 공간에서 다양한 객체를 관리합니다. 이 논문에서는 멤파이 메모리 내 KVS의 메모리 오류 핸들러에 대한 런타임 테스트를 지원합니다. 저희의 접근 방식은 메모리 객체 수준에서 메모리 오류의 소프트웨어 오류 주입을 수행하여 대상 핸들러를 트리거하는 동시에 동일한 실행 상태에서 테스트를 원활하게 수행합니다. MemFI의 효과를 보여주기 위해 오류 처리 메커니즘을 실제 메모리 내 KVS인 memcached 1.6.9와 Redis 6.2.7에 통합하고 MemFI 프로토타입을 사용하여 동작을 확인합니다. 결과에 따르면 MemFI 기반 런타임 테스트를 통해 오류 처리 메커니즘의 동작을 확인할 수 있습니다. 또한 시험 모델을 기반으로 한 다른 오류 주입 접근 방식과 비교하여 효율성을 보여줍니다.

  • 멀티태스크 학습 및 PS-ViT 기반 멀티포커스 이미지 융합 알고리즘 오픈 액세스

    Qinghua WU  Weitong LI  

     
    PAPER-Image Recognition, Computer Vision

      공개:
    2024/07/11
      페이지:
    1422-1432

    다중 초점 이미지 융합은 동일한 장면의 부분적으로 초점이 맞춰진 이미지를 결합하여 모든 초점이 맞춰진 이미지를 만드는 것을 포함합니다. 벤치마크 이미지를 얻기 어렵고 합성곱 신경망이 로컬 영역에 너무 많이 초점을 맞추는 기존 다중 초점 이미지 융합 알고리즘의 문제를 목표로 로컬 및 글로벌 피처 인코딩을 결합하는 융합 알고리즘이 제안되었습니다. 처음에 두 개의 자기 감독 이미지 재구성 작업을 고안하고 멀티태스크 학습을 통해 인코더-디코더 네트워크를 학습합니다. 그런 다음 인코더 내에서 밀집 연결 모듈을 PS-ViT 모듈과 병합하여 네트워크가 피처 추출 중에 로컬 및 글로벌 정보를 활용할 수 있도록 합니다. 마지막으로 모델의 전반적인 효율성을 높이기 위해 각 작업에 고유한 손실 함수를 적용합니다. 원본 이미지에서 보다 견고한 피처를 보존하기 위해 융합 단계에서 공간 주파수를 사용하여 융합된 이미지의 피처 맵을 얻습니다. 실험 결과에 따르면 다른 0.28개의 주요 알고리즘과 비교할 때 우리 방법은 객관적인 평가에서 우수한 융합 성능을 보입니다. 선택된 XNUMX개의 평가 지표 중 XNUMX개는 XNUMX% 이상의 개선을 보여줍니다. 더불어 주관적인 시각 효과도 더 뛰어납니다.

  • 의미 연관 및 확률 논리에 기반한 온톨로지 매칭 및 복구 오픈 액세스

    Nan WU  Xiaocong LAI  Mei CHEN  Ying PAN  

     
    PAPER-Natural Language Processing

      공개:
    2024/07/11
      페이지:
    1433-1443

    의미 웹의 발전으로 점점 더 많은 연구자들이 도메인 온톨로지를 구축하기 위해 온톨로지 기술을 활용하고 있다. 통일된 구축 기준이 없기 때문에 온톨로지 이질성이 발생한다. 온톨로지 매칭 방법은 이질적인 온톨로지를 융합하여 지식과 연관 관계를 보다 관련성 있는 의미 정보에 대한 상호 운용성을 실현할 수 있다. 온톨로지 간의 차이점의 경우 거짓 매칭과 실패한 매칭을 줄이는 방법은 해결해야 할 중요한 문제이다. 게다가 온톨로지의 수가 증가함에 따라 온톨로지 간의 의미적 관계는 점점 더 복잡해진다. 그럼에도 불구하고 개념 간의 이름의 유사성만을 찾는 현재의 방법으로는 더 이상 충분하지 않다. 따라서 본 논문은 의미적 연관에 기반한 온톨로지 매칭 방법을 제안한다. 기존 의미적 지식에 의해 정확한 매칭 쌍이 발견된 다음, 맥락적 구조의 특성에 따라 개념 간의 잠재적인 의미적 연관이 채굴된다. 매칭 방법은 신뢰할 수 있는 지식을 기반으로 매칭 작업을 더 잘 수행할 수 있다. 또한, 이 논문은 매칭 결과의 충돌을 탐지하고 복구할 수 있는 확률적 논리 복구 방법을 소개하여 매칭 결과의 가용성과 신뢰성을 향상시킵니다. 실험 결과는 제안된 방법이 온톨로지 간 매칭 품질을 효과적으로 개선하고 잘못된 매칭 쌍을 복구하는 데 소요되는 시간을 절약한다는 것을 보여줍니다. 게다가, 기존 온톨로지 매칭 시스템과 비교했을 때, 제안된 방법은 안정성이 더 좋습니다.

  • 코 피부 온도에 따른 소프트웨어 개발자의 정신적 업무량 측정 오픈 액세스

    Keitaro NAKASAI  Shin KOMEDA  Masateru TSUNODA  Masayuki KASHIMA  

     
    LETTER-Software Engineering

      공개:
    2024/07/11
      페이지:
    1444-1448

    개발자의 정신적 작업 부하를 자동으로 측정하기 위해 기존 연구에서는 뇌파와 심박수와 같은 생체 측정을 ​​사용했습니다. 그러나 개발자는 종종 측정할 때 특정 장치를 장착해야 하므로 신체적 부담을 받을 수 있습니다. 이 연구에서는 비강 피부 온도(NST)를 기반으로 한 비접촉 생체 측정의 타당성을 평가했습니다. 실험에서 제안된 생체 측정은 비생체 측정보다 더 정확했습니다.

  • CLEAR & RETURN: 암호화 기본 요소에서 런타임 대응책 중지 오픈 액세스

    Myung-Hyun KIM  Seungkwang LEE  

     
    LETTER-Information Network

      공개:
    2024/06/26
      페이지:
    1449-1452

    화이트박스 암호화 구현은 종종 키 추출 공격에 대한 대책으로 마스킹과 셔플링을 사용합니다. 이러한 방어에 대응하기 위해 고차 차등 계산 분석(HO-DCA)과 그 변형이 개발되었습니다. 이러한 방법은 역공학이 필요 없이 이러한 대책을 위반하는 것을 목표로 합니다. 그러나 이러한 비침습적 공격은 비용이 많이 들고 마스킹 및 셔플링 기술을 업데이트하면 저지할 수 있습니다. 이 논문에서는 적절한 이름의 간단한 바이너리 주입 공격을 소개합니다. 클리어 & 리턴, 화이트박스 암호화에 사용되는 고급 마스킹 및 셔플링 방어를 우회하도록 설계되었습니다. 이 공격에는 소량의 어셈블리 코드를 주입하여 런타임 랜덤 소스를 효과적으로 비활성화합니다. 이러한 랜덤성 손실은 화이트박스 구현 내의 보호되지 않은 조회 값을 노출시켜 간단한 통계 분석에 취약하게 만듭니다. 오픈소스 화이트박스 암호화 구현을 대상으로 하는 실험에서 글로벌 오프셋 테이블(GOT) 또는 함수 호출의 항목을 하이재킹하는 공격 전략은 런타임 대응책을 우회하는 데 효과적임을 보여줍니다.

  • 점 프로세스 데이터의 자기 회귀 모델링을 위한 로컬 밀도 추정 절차 오픈 액세스

    Nat PAVASANT  Takashi MORITA  Masayuki NUMAO  Ken-ichi FUKUI  

     
    LETTER-Artificial Intelligence, Data Mining

      공개:
    2024/07/11
      페이지:
    1453-1457

    우리는 커널 밀도 추정을 사용하여 시간적 점 프로세스의 벡터 자기 회귀(VAR) 모델링에 사용되는 데이터를 사전 처리하는 절차를 제안했습니다. 예를 들어, 점 프로세스 데이터의 벡터 자기 회귀 모델링은 인과 관계 추론에 사용되고 있습니다. VAR 모델은 타임라인을 작은 창으로 이산화하고 각 창에 이벤트가 존재하는지에 따라 시계열을 만든 다음, 다음 시간 단계에서 이벤트의 존재를 해당 이력에 따라 모델링합니다. 문제는 높은 시간 해상도로 더 긴 이력을 얻으려면 많은 수의 창이 필요하고 따라서 모델 매개변수가 필요하다는 것입니다. 우리는 이진 존재를 모델의 입력으로 사용하는 대신 이벤트 이력의 커널 밀도 추정을 수행하고 추정을 이산화하여 입력으로 사용하는 로컬 밀도 추정 절차를 제안했습니다. 이를 통해 특히 희소 데이터에서 모델 매개변수의 수를 줄일 수 있었습니다. 희소 포아송 프로세스에 대한 실험에서 이 절차가 모델 예측 성능을 크게 향상시킨다는 것을 보여주었습니다.

  • 동적 시스템을 모델링하기 위한 딥러닝의 손실 함수 오픈 액세스

    Takahito YOSHIDA  Takaharu YAGUCHI  Takashi MATSUBARA  

     
    LETTER-Artificial Intelligence, Data Mining

      공개:
    2024/07/22
      페이지:
    1458-1462

    물리적 시스템을 정확하게 시뮬레이션하는 것은 다양한 분야에서 필수적입니다. 최근 몇 년 동안 딥 러닝은 데이터에서 학습하여 이러한 시스템의 모델을 자동으로 구축하는 데 사용되었습니다. 그러한 방법 중 하나는 신경망의 출력을 시스템 상태의 시간 미분으로 처리하는 신경 상미분 방정식(neural ODE)입니다. 그러나 이 방법과 관련 방법은 유망한 것으로 나타났지만, 이들의 학습 전략은 여전히 ​​추가 개발이 필요합니다. 수치 해석에서 수치 오류를 모델링 오류로 대체하는 오류 분석 기술에서 영감을 얻어 이 문제를 해결하기 위한 오류 분석 전략을 제안합니다. 따라서 이 전략은 장기 오류를 포착하여 장기 예측의 정확도를 향상시킬 수 있습니다.

  • 대형 언어 모델 기반 다중 모드 음성 감정 인식 오픈 액세스

    Congcong FANG  Yun JIN  Guanlin CHEN  Yunfan ZHANG  Shidang LI  Yong MA  Yue XIE  

     
    LETTER-Speech and Hearing

      공개:
    2024/07/22
      페이지:
    1463-1467

    현재 음성 감정 인식에서 점점 더 많은 과제가 음성과 텍스트 기능 모두의 분석에 의존하고 있습니다. 그러나 GPT-3와 같은 대규모 언어 모델을 활용하여 감정 인식을 향상시킬 수 있는 잠재력을 탐구하는 연구는 여전히 부족합니다. 이 연구에서는 GPT-3 모델의 힘을 활용하여 필사된 텍스트에서 의미 정보를 추출하여 1536차원의 텍스트 모달 기능을 생성합니다. 그런 다음 1536차원 텍스트 기능을 1188차원 음향 기능과 결합하여 기능 융합을 수행하여 포괄적인 다중 모달 인식 결과를 얻습니다. 연구 결과에 따르면 제안된 방법은 IEMOCAP의 네 가지 감정 범주에서 79.62%의 가중 정확도를 달성하여 대규모 언어 모델을 통합함으로써 감정 인식 정확도가 상당히 향상되었음을 강조합니다.

  • SH-YOLO: 에스컬레이터 장면에서 비정상 동작 감지를 위한 소형 대상 고성능 YOLO 오픈 액세스

    Shuoyan LIU  Chao LI  Yuxin LIU  Yanqiu WANG  

     
    LETTER-Image Recognition, Computer Vision

      공개:
    2024/06/26
      페이지:
    1468-1471

    에스컬레이터는 공공장소에서 없어서는 안 될 시설입니다. 사람들에게 편의를 제공할 수 있지만, 비정상적인 사고는 심각한 결과를 초래할 수 있습니다. Yolo는 실시간으로 인간의 행동을 감지하는 기능입니다. 그러나 이 모델은 정확도가 낮고 작은 대상에 대한 미스율이 높습니다. 이를 위해 본 논문에서는 에스컬레이터에서 비정상적인 행동을 감지하기 위한 Small Target High Performance YOLO(SH-YOLO) 모델을 제안합니다. SH-YOLO 모델은 먼저 어텐션 메커니즘을 통해 백본 네트워크를 강화합니다. 그런 다음 작은 대상에 대한 주요 지점 감지를 강화하기 위해 작은 대상 감지 계층을 통합합니다. 마지막으로 conv와 SPPF는 각각 Region Dynamic Perception Depth Separable Conv(DR-DP-Conv)와 Atrous Spatial Pyramid Pooling(ASPP)으로 대체됩니다. 실험 결과는 제안된 모델이 실제 에스컬레이터 장면에서 이상을 정확하고 견고하게 감지할 수 있음을 보여줍니다.

  • 단일 이미지 디헤이징을 위한 키 선택 라우팅 주의 기능이 있는 Vision Transformer 오픈 액세스

    Lihan TONG  Weijia LI  Qingxia YANG  Liyuan CHEN  Peng CHEN  

     
    LETTER-Image Recognition, Computer Vision

      공개:
    2024/07/01
      페이지:
    1472-1475

    우리는 다중 채널, 다중 스케일 윈도우와 상위 k 연산자를 통해 주요 영역을 지능적으로 선택하기 위한 다중 스케일 키 선택 라우팅 어텐션(MKRA)을 활용하고, 고주파 특성을 강화하기 위한 경량 주파수 처리 모듈(LFPM)을 사용하여 테스트에서 다른 디헤이징 방법보다 우수한 성능을 보이는 Ksformer를 소개합니다.