1. 서론
Matting은 컴퓨터 비전 분야에서 널리 사용되는 기술입니다. 사진이나 영상에서 사람들이 관심을 보이는 전경 사물을 효과적으로 분리할 수 있습니다. 고해상도 실시간 영상 돗자리는 라이브 스트리밍 등 산업에서 상업적 가치가 크지만, 딥러닝 연구에서는 까다로운 분야이기도 합니다.
현재 CNN 기반 실시간 비디오 매트에 대한 대표적인 연구로는 BGMv2(Background Video Matting V2)[1], RVM(Robust Video Matting)[2], MODNet(Matting Objective Decomposition Network) 등 3가지가 있다[2]. 삼]. BGMv2는 실시간 비디오 매트를 달성하기 위해 사용자가 제약 조건으로 정적 배경을 입력해야 하는 고정밀 모델을 구축했습니다. RVM 및 MODNet은 인물의 비디오 매트를 구현하기 위해 원본 비디오 프레임만 필요합니다. 그러나 BGMvXNUMX에는 사용자 지침과 안정적인 환경이 필요합니다. 이미지에서 글로벌 관계를 포착하는 RVM 및 MODNet의 기능은 충분하지 않습니다. 이러한 접근 방식은 역동적이고 복잡한 배경에서 이미지 정확도가 낮은 기존 CNN 구조를 사용하므로 일부 배경 객체를 전경으로 잘못 판단하기 쉽습니다. 더욱이, 소광 결과는 빈 영역을 생성하기 쉬우므로 실제 사용에서 이론적인 기대를 달성하기가 어렵습니다.
Video Matting with Transformer(VMFormer)[4]는 매트 작업을 위해 ViT(Vision Transformer)를 채택합니다. VMFormer는 정확성 측면에서 MODNet, BGMv2 및 RVM보다 성능이 뛰어납니다. 그러나 인코더와 디코더 모두 Transformer를 사용하므로 모델 매개변수가 RVM 모델보다 약 3배 더 커집니다. 실험에 따르면 VMFormer는 4060p 해상도의 Nvidia Geforce RTX1080에서 추론 속도 처리가 XNUMXFPS(초당 프레임 수)에 불과한 것으로 나타났습니다. 현재 VMFormer와 같은 접근 방식은 라이브 방송 등 실시간 성능이 필요한 분야에 적용하기 어렵습니다.
기존 실시간 접근 방식은 장거리 픽셀에 민감하지 않습니다. 픽셀의 의미를 잘못 판단하는 경우가 많으며 복잡한 배경에서는 충분히 견고하지 않습니다. Deep Video Matting의 현안을 해결하기 위해 RVM 아이디어를 기반으로 RMViT 모델을 설계합니다. 이미지의 전체 정보를 캡처하기 위해 분리 가능한 self-attention 메커니즘이 matting 작업에 도입되었습니다. Mobile ViT V3[5]와 역 잔차 블록[6]의 하이브리드 구조를 갖는 인코더가 구축된다. 하이브리드 구조는 CNN 유도 바이어스의 특성을 유지하고 CNN과 Transformer의 각각의 장점을 최대한 활용합니다. 또한 주의와 내용 인식 지침을 기반으로 개선된 순환 디코더 모듈을 설계합니다. 디코더는 CBAM [7] 및 CARAFE [8] 연산자와 결합되어 업샘플링 프로세스가 크게 향상되었습니다.
2. 이슈와 과제
매팅(Matting)은 전경의 사물을 사진에서 분리하는 기술이다. 수학적 모델은 Eq. (1):
\[\begin{equation*} \boldsymbol{I}=\boldsymbol{\alpha}\boldsymbol{F}+(1-\boldsymbol{\alpha})\boldsymbol{B} \tag{1} \end{equation*}\] |
어디에 \(\boldsymbol{I}\) 주어진 사진이고, \(\boldsymbol{F}\) 전경 이미지입니다. \(\boldsymbol{B}\) 배경 이미지이고 \(\boldsymbol{\alpha}\) 전경 이미지의 불투명도입니다. 방정식이 3개뿐이고 알 수 없는 요인이 1개이므로 제약이 부족합니다. 대부분의 접근 방식에서는 이 문제를 해결하기 위해 수동으로 제약 조건을 추가합니다. 예를 들어 BGMv2에는 정적 배경 이미지가 필요합니다. \(\boldsymbol{B}\) 입력을 위해 RVM은 인물 의미 체계에 대한 사전 지식을 사용합니다. 그럼에도 불구하고 추가된 제약으로 인해 정확도가 떨어지거나 재사용 비용이 발생합니다. 기존의 사용자 안내가 필요 없는 실시간 매트팅 접근 방식은 주로 이미지의 맥락에 충분히 민감하지 않기 때문에 매트 가장자리가 흐려지거나 의미론적 오판이 발생하기 쉽습니다.
3. 실시간 매트팅 접근법 제안
현재의 매트 문제를 해결하기 위해 우리는 Mobile ViT와 MobileNet V3[6]의 하이브리드 구조를 갖춘 특징 추출 인코더, 병목 블록, 주의 및 콘텐츠 인식 메커니즘을 갖춘 순환 디코더를 포함하는 RMViT 모델을 제안합니다. 모델은 비디오 프레임이나 이미지를 입력으로 받아들이고 결과로 알파 매트를 출력합니다.
그림 1의 모델 구조에 따르면 원본 이미지는 요소로 다운샘플링됩니다. \(k\) 입력 후. 또한 원본 이미지를 다운샘플링한 후에도 고해상도 디테일을 복원하기 위해 FGF(Fast Guided Filter)[9]를 채택하여 저해상도 알파 이미지 출력을 개선하여 원본 해상도 알파 매트를 재구성합니다.
3.1 하이브리드 구조 기반 특징 추출 인코더
MobileNet V3의 IR(Inversed Residual) 블록과 Mobile ViT V3 블록을 이용한 하이브리드 인코더를 제안한다. 인코더는 초기 다운샘플링된 이미지를 입력으로 받아들이고 처리된 특징 맵을 병목 블록에 출력합니다. 다음 문제로 인해 순수 Transformer 구조를 사용하지 않습니다.
- Mobile ViT V3는 반전된 잔차 블록보다 느리므로 모델의 실시간 성능에 영향을 미칩니다.
- 순수 ViT 모델은 귀납적 편향 특성이 부족하고 데이터 세트의 용량 및 확장에 민감합니다.
이 구조의 인코더 매개변수는 표 1과 같습니다. 여기서 "IR", "MViT"는 각각 반전된 잔여 블록 및 Mobile ViT V3 블록을 나타냅니다. \(L\) 해당 Mobile ViT 블록에 있는 Transformer의 양을 나타냅니다. "in", "out", "ker" 및 "exp"는 각각 IR 블록의 입력 채널, 출력 채널, 컨볼루션 커널 크기 및 확장 채널 크기를 나타냅니다. se는 해당 IR 블록이 단축키를 사용하는지 여부를 나타냅니다. "s"와 "d"는 각각 컨볼루션 보폭과 확장을 나타냅니다. "act"는 IR 블록의 활성화를 나타냅니다. IR 블록은 활성화 함수로 hard-swish와 ReLU6을 사용하며 각각 "HS"와 "RE"로 표시됩니다.
하이브리드 인코더는 Mobile ViT V3를 도입하여 분리 가능한 self-attention 메커니즘을 채택했습니다. 대부분의 고전적인 ViT 모델과 비교하여 제안된 구조는 더 가볍습니다. 너무 많은 계산 비용을 들이지 않고도 글로벌 컨텍스트에 대한 민감도를 크게 향상시킬 수 있습니다.
3.2 주의 및 내용 인식 안내 기능을 갖춘 디코더
RVM 순환 디코더를 기반으로 주의 및 내용 인식 메커니즘을 기반으로 하는 순환 디코더를 제안합니다. 절제 실험은 이 디코더를 사용한 후 모델의 정확도가 크게 향상되었음을 보여줍니다. 디코더 블록은 그림 2에 나와 있습니다.
그림 1과 같이 모델에는 세 개의 디코더 블록이 있습니다. 각 디코더 블록의 주요 입력은 이전 디코더 블록 또는 병목 블록에서 나옵니다. 또한 CBAM에서 처리한 연결 건너뛰기(SC) 기능 맵을 보조 정보로 허용합니다. 또한 비디오 프레임을 시간적으로 보다 안정적으로 만들기 위해 Recurrent Feature Map을 추가로 허용하는 ConvGRU [10]가 사용됩니다. \(\mathbf{R}_{t-1}\) 이전 프레임에서 반복 기능 맵을 생성합니다. \(\mathbf{R}_t\) 다음 프레임으로. 모듈이 끝나면 CARAFE를 사용하여 기능 맵에서 주요 정보를 추출하고 콘텐츠 인식 지침으로 업샘플링을 수행하여 정확성을 향상시킵니다.
3.3 Fast Guided Filter 기반의 모듈 개선
고해상도 비디오 프레임의 실시간 성능 요구를 고려하여 FGF(Fast Guided Filter)를 정제 모듈로 채택했습니다. 그림 1에서 볼 수 있듯이 원래 입력 프레임은 먼저 인자별로 다운샘플링됩니다. \(k\) 그런 다음 인코더-디코더 기본 네트워크에서 처리됩니다. 기본 네트워크는 저해상도 알파 매트를 출력하고 이를 원본 입력 프레임과 함께 FGF로 보냅니다. 그런 다음 FGF 모듈은 원래 해상도에서 알파 매트 개선을 생성합니다. 의 가치 \(k\) 다양한 입력 해상도에 맞게 조정할 수 있습니다. 인코더-디코더 기본 네트워크는 저해상도 또는 비실시간 작업의 경우 프레임을 독립형으로 처리할 수 있습니다.
3.4 훈련
더 나은 성능을 달성하기 위해 특정 훈련 방법과 여러 데이터 세트를 사용했습니다. AMP(Automatically Mixed Precision)와 Adam Optimizer를 적용하여 훈련 속도를 높이고 수렴을 가속화합니다.
훈련 과정에서 사용한 데이터 세트는 다음과 같습니다.
- 비디오 전경 데이터세트: Video Matting 240K [1];
- 비디오 배경 데이터 세트: DVM(Deep Video Matting) [11];
- 인물 분할 데이터 세트: COCO [12], Supervisely Person 데이터 세트 [13], YoutubeVIS 2021 [14];
- 고해상도 전경 이미지 데이터 세트: PPM-100 [3], P3M-10K [15], AIM-500 [16], Adobe Matting Dataset [17], Distinctions 646 [18];
- 이미지 배경 데이터세트: 실내 CVPR 09 [19].
우리는 매트 훈련 과정을 다음과 같이 다양한 상황을 목표로 하는 총 35개 시대의 세 부분으로 나눕니다.
- 부품 1 : 1부에서는 Video Matting 240K 및 DVM에서 FGF 없이 모델을 20세대 동안 훈련하고 저해상도만 사용합니다(\(512\times512\)) 총 길이가 20프레임인 비디오 시퀀스.
- 부품 2 : 2부에서는 3세대 동안 하이브리드 해상도 비디오 시퀀스에서 FGF 없이 모델을 훈련합니다. 하이브리드 비디오 시퀀스는 저해상도 프레임(\(512\times512\)) 길이가 10이고 고해상도 프레임(\(2048\times2048\)) 길이는 3입니다.
- 부품 3 : 3부에서는 12세대에 대한 고해상도 이미지 매트 작업을 위한 모델을 훈련합니다. 이 모델은 고해상도 전경 이미지 데이터세트(P3M-10K, Distinctions 646 등)와 이미지 배경 데이터세트(실내 CVPR 09)에 대해 학습되었습니다. FGF를 추가하여 초기 다운샘플링 요소를 설정합니다. \(k\) 이전 0.25개의 에포크 동안에는 10로, 후반 1.0개의 에포크에는 2으로 변경되었습니다.
인물 분할 훈련은 전체 훈련 과정에 분산되어 있습니다. 사람의 모습에 대한 모델의 민감도를 보장하기 위해 2개의 매팅 훈련 단계마다 하나의 분할 훈련 단계를 삽입합니다.
분할 및 매팅 성능을 보장하기 위해 다양한 손실을 적용하고 총 손실로 가중치를 적용합니다. \(L_t\). 전경 이미지 가장자리의 세부 사항을 고려하여 피라미드 라플라시안 손실을 적용합니다. \(L_{lap}\) [20] L1 손실뿐만 아니라 \(L_1\). 또한 시간적 일관성 손실을 적용합니다. \(L_c\) 생성된 프레임의 깜박임을 줄이기 위해. 손실은 다음과 같습니다.
\[\begin{align} & L_1=||\hat{\boldsymbol{\alpha}}-\boldsymbol{\alpha}||_1 \tag{2} \\ & L_{lap}=\sum_{s=1}^{5}2^{s-1}||\mathcal{L}_s(\hat{\boldsymbol{\alpha}})-\mathcal{L}_s(\boldsymbol{\alpha})||_1 \tag{3} \\ & L_c=||\frac{d\hat{\boldsymbol{\alpha}}}{dt}-\frac{d\boldsymbol{\alpha}}{dt}||_2 \tag{4} \\ & L_t=L_1+\frac{1}{5}L_{lap}+5L_c \tag{5} \end{align}\] |
어디에, \(\hat{\boldsymbol{\alpha}}\) 예측된 알파 매트를 나타냅니다. \(\boldsymbol{\alpha}\) 지상 진실을 나타내고, \(\mathcal{L}_s(\boldsymbol{\alpha})\) 의 계산 결과를 나타냅니다. \(s\)- 라플라시안 피라미드의 1층 \(\boldsymbol{\alpha}\).
4. 실험
훈련 및 평가 프로세스에서는 멀티 카드 훈련을 위해 Nvidia Geforce RTX 4060 및 RTX 3060을 사용하고, AMD Ryzen 9 5950X CPU와 전체 프로세스에 걸쳐 혼합 정밀도를 사용합니다. 평가 과정에서는 RTX 2070 노트북과 Intel Core i7-9750H도 속도 테스트에 사용되었습니다.
4.1 비교 실험
MAD, MSE, Connectivity Error(Conn), Gradient Error(Grad) 등 240가지 지표에 대해 기존 모델과 제안 모델의 정확도를 비교한다. 본 실험에 사용된 평가 데이터 세트는 Video Matte 50K HD이며, 총 1000개의 비디오 클립이 포함되어 있습니다. 데이터 표시의 편의를 위해 MAD 및 MSE 결과를 2배로 확대하고 Conn 및 Grad 값은 원래 값의 2/XNUMX로 줄였습니다. 수치평가의 실험 결과는 Table XNUMX와 같다. RMViT는 CNN 기반 모델에 비해 이미지 검색 정확도에서 더 좋은 결과를 보이는 것을 알 수 있다. BGMvXNUMX는 정적 배경을 제약 조건으로 사용하므로 동적 배경에서는 불안정하고 간섭 방지 능력이 좋지 않습니다. 마찬가지로 MODNet은 Grad 지표에서 RMViT보다 성능이 뛰어나지만 다른 모든 오류 지표는 RMViT보다 높습니다. RVM은 배경 변경에 대한 안정성이 좋지만 전역 정보 인식이 부족하고 디코더의 주의 메커니즘이 부족하여 평가 실험에서 RMViT에 비해 전반적으로 뒤떨어집니다.
그림 3은 Video Matte 240K HD[1]에서 동적 배경 아래 두 개의 비디오 프레임을 선택한 비디오 매트의 시각화 결과를 보여줍니다. 그림 3에서 RMViT는 동적 배경에서 전경의 가장자리를 상대적으로 명확하게 인식할 수 있음을 확인할 수 있습니다. 이는 전경 대상을 보다 정확하게 추출할 수 있고 동적 장면을 처리할 때 의미 인식 능력이 좋다는 것을 의미합니다. MODNet은 이미지 가장자리 감지에서는 잘 작동하지만 배경 픽셀을 전경으로 잘못 인식하거나 전경 픽셀을 잃는 의미 인식 오류가 있습니다. RVM을 사용하면 가장자리가 흐려지고 전경 및 배경 픽셀을 명확하게 식별할 수 없으며 동적 배경을 처리할 때 충분한 안정성과 정확성이 부족합니다.
위의 결과에 따르면 RMViT는 복잡한 동적 배경 매트에서 정확성을 보여줍니다. RMViT는 의미 오류가 적고 매트 결과의 가장자리가 더 선명합니다. 또한 RMViT는 RVM에 비해 Grad를 각각 35%, Conn을 48% 줄인 것으로 나타났습니다. 이는 이러한 상황에서 우리의 접근 방식이 더 강력하다는 것을 의미합니다.
4.2 크기와 속도
우리는 크기와 속도 평가에 대한 기존 접근 방식을 우리의 접근 방식과 비교했습니다. 표 3은 우리 모델이 BGM 및 MODNet에 비해 더 가볍고 매개변수가 적다는 것을 보여줍니다. RVM과 비교하여 우리 모델은 매개변수 수는 1.3%, 크기는 2.8%만 증가했지만 오류 측정항목이 30% 감소하여 접근 방식의 효율성을 나타냅니다.
실제 사용 시 실시간 성능을 검증하기 위해 비디오 캡처, 비디오 코덱, 프레임 전처리, 데이터 병렬 및 렌더링을 포함하는 실제 환경에서 다양한 접근 방식을 테스트합니다. 해당 모델은 Intel Core i7-9750H CPU 및 RTX 2070 노트북 GPU가 장착된 노트북에서 테스트되었습니다. CPU와 GPU의 TDP(Thermal Design Power)는 각각 80W와 115W로 설정되어 해당 접근 방식이 중저가 장치에서 실시간 성능을 유지할 수 있는지 입증합니다. 모든 모델은 1080p 비디오 시퀀스에서 테스트되었습니다.
Table 4와 같이 FPS와 GPU 코어 사용량을 측정하였다. 실험에서는 다운샘플링 요소를 설정했습니다. \(k=0.18\). 결과는 RMViT가 기존 실시간 접근 방식과 유사한 속도를 가지고 있음을 보여줍니다. BGMv2 및 MODNet은 GPU 사용량의 75%를 초과하는 반면 RMViT 및 RVM은 40% 이내입니다. RMViT는 실제 환경에서 상대적으로 낮은 GPU 사용 비용과 30p 해상도에서 1080FPS를 달성하여 우리의 방법이 기존 비디오 애플리케이션에서 실시간으로 간주된다는 것을 보여줍니다.
4.3 절제 실험
Mobile ViT, CBAM, CARFAFE 및 FGF 모듈이 모델의 전체 정확도에 미치는 영향을 조사하기 위해 다음과 같이 절제 실험을 수행합니다.
- 제거 모델 1: 인코더에 Mobile ViT V3 모듈을 유지하고 디코더에서 주의 및 콘텐츠 인식 메커니즘의 최적화를 제거합니다.
- 절제 모델 2: 인코더의 Mobile ViT V3 모듈과 디코더의 주의 및 콘텐츠 인식 메커니즘을 동시에 제거합니다.
- FGF-free 모델: FGF만 제거하고, 팩터별 다운샘플링 대신 고해상도 영상을 직접 처리합니다. \(k\) 처음에는;
- 원본 모델: 어떤 구조도 제거하지 않고 모든 모듈을 포함합니다.
본 실험에서는 Video Matte 10K HD 테스트 세트의 이전 240개 비디오 클립을 선택했습니다. 기본 다운샘플링 요소 \(k\) 0.25로 설정됩니다.
실험 결과는 Table 5와 같다. 인코더의 ViT 구조에 의해 발생하는 self-attention 메커니즘과 디코더의 attention 및 내용 인식 메커니즘이 모델 정확도에 상당한 개선 효과가 있음을 알 수 있다. . FGF-free 모델의 결과는 Grad가 감소한 반면 다른 세 가지 오류 측정항목은 약간 증가한 것으로 나타났습니다. FGF 및 초기 다운샘플링 프로세스는 정확도에 크게 부정적인 영향을 미치지 않습니다. FGF 정제 모듈을 사용하면 추론 속도를 높이는 것이 가능하다고 간주됩니다.
5. 결론
정확도가 낮고 의미 판단이 잘못되어 RMViT라는 매트팅 접근 방식을 소개합니다. 실시간 매트 작업 환경에서 하이브리드 매트 모델을 제안했습니다. 제안된 접근 방식은 하이브리드 인코더에 분리 가능한 self-attention 메커니즘을 추가하고 주의 및 내용 인식 안내와 결합된 디코더 모듈을 설계하여 모델이 충분한 전역 컨텍스트 정보를 설정하도록 하여 접근 방식이 의미론적 실수를 줄이고 가장자리를 더 선명하게 만듭니다. 실험을 통해 우리의 접근 방식이 실시간 성능을 보장하면서 MODNet, BGMv2 및 RVM보다 우수하다는 것을 보여줍니다.
참고문헌
[1] S. Lin, A. Ryabtsev, S. Sengupta, B. Curless, S. Seitz, and I. Kemelmacher-Shlizerman, “Real-time high-resolution background matting,” 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.8758-8767, June 2021.
CrossRef
[2] S. Lin, L. Yang, I. Saleemi, and S. Sengupta, “Robust high-resolution video matting with temporal guidance,” 2022 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), Waikoloa, HI, USA, pp.3132-3141, Jan. 2022.
CrossRef
[3] Z. Ke, J. Sun, K. Li, Q. Yan, and R.W.H. Lau, “Modnet: Real-time trimap-free portrait matting via objective decomposition,” Proc. 36th AAAI Conference on Artificial Intelligence, vol.36, no.1, pp.1140-1147, Feb. 2022.
CrossRef
[4] J. Li, V. Goel, M. Ohanyan, S. Navasardyan, Y. Wei, and H. Shi, “Vmformer: End-to-end video matting with transformer,” arXiv preprint arXiv:2208.12801, 2022.
[5] S.N. Wadekar and A. Chaurasia, “Mobilevitv3: Mobile-friendly vision transformer with simple and effective fusion of local, global and input features,” ArXiv, vol.abs/2209.15159, 2022.
[6] A. Howard, M. Sandler, B. Chen, W. Wang, L.-C. Chen, M. Tan, G. Chu, V. Vasudevan, Y. Zhu, R. Pang, H. Adam, and Q. Le, “Searching for mobilenetv3,” 2019 IEEE/CVF International Conference on Computer Vision (ICCV), pp.1314-1324, Oct. 2019.
CrossRef
[7] S. Woo, J. Park, J.-Y. Lee, and I.S. Kweon, “Cbam: Convolutional block attention module,” Proc. European Conference on Computer Vision (ECCV), Munich, Germany, pp.3-19, Sept. 2018.
[8] J. Wang, K. Chen, R. Xu, Z. Liu, C.C. Loy, and D. Lin, “Carafe: Content-aware reassembly of features,” 2019 IEEE/CVF International Conference on Computer Vision (ICCV), Seoul, Korea (South), pp.3007-3016, Oct. 2019.
CrossRef
[9] H. Wu, S. Zheng, J. Zhang, and K. Huang, “Fast end-to-end trainable guided filter,” 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.1838-1847, June 2018.
CrossRef
[10] N. Ballas, L. Yao, C. Pal, and A.C. Courville, “Delving deeper into convolutional networks for learning video representations,” 4th International Conference on Learning Representations (ICLR), Puerto Rico, USA, Feb. 2016.
[11] Y. Sun, G. Wang, Q. Gu, C.-K. Tang, and Y.-W. Tai, “Deep video matting via spatio-temporal alignment and aggregation,” 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.6971-6980, June 2021.
CrossRef
[12] Microsoft, “Coco,” https://cocodataset.org, 2020.
[13] DeepSystemsAI, “Supervisely person dataset,” https://github.com/supervisely/supervisely, 2014.
[14] Youtube, “Video instance segmentation,” https://youtube-vos.org/dataset/vis/, 2021.
[15] J. Li, S. Ma, J. Zhang, and D. Tao, “Privacy-preserving portrait matting,” Proc. 29th ACM International Conference on Multimedia, MM ’21, New York, NY, USA, p.3501-3509, Association for Computing Machinery, 2021.
CrossRef
[16] J. Li, J. Zhang, and D. Tao, “Deep automatic natural image matting,” Proc. Thirtieth International Joint Conference on Artificial Intelligence, IJCAI-21, ed. Z.H. Zhou, pp.800-806, International Joint Conferences on Artificial Intelligence Organization, Oct. 2021. Main Track.
CrossRef
[17] N. Xu, B. Price, S. Cohen, and T. Huang, “Deep image matting,” 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp.311-320, 2017.
CrossRef
[18] Y. Qiao, Y. Liu, X. Yang, D. Zhou, M. Xu, Q. Zhang, and X. Wei, “Attention-guided hierarchical structure aggregation for image matting,” 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, USA, pp.13673-13682, June 2020.
CrossRef
[19] A. Quattoni and A. Torralba, “Recognizing indoor scenes,” 2009 IEEE Conference on Computer Vision and Pattern Recognition, Miami, FL, USA, pp.413-420, June 2009.
CrossRef
[20] S. Niklaus and F. Liu, “Context-aware synthesis for video frame interpolation,” Proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp.1701-1710, June 2018.
CrossRef