1. 서론
얼굴의 매력은 우리 일상생활에서 중요한 역할을 하며 이 주제에 대해 광범위한 연구를 수행한 학자들로부터 많은 관심을 받아 왔습니다[1], [2]. 최근 몇 년 동안 사람들은 얼굴 아름다움에 대해 점점 더 관심을 갖게 되었습니다. 더욱 아름다운 외모를 가지면 대중연설, 프레젠테이션, 취업 면접, 취업 기회 등 삶의 다양한 측면에서 개인에게 이점을 줄 수 있다는 점은 주목할 가치가 있습니다. 컴퓨터 기술이 발전함에 따라 컴퓨터를 활용하여 사람의 외모를 평가하는 방향으로 전환되어 얼굴 미용 예측(FBP)이 등장했습니다. FBP는 인간의 미적 기준에 따라 얼굴 매력을 자동으로 평가하는 것을 목표로 합니다. 또한 얼굴 미화[3],[4], 자동 얼굴 화장[5], 성형 수술[6]과 같은 실용적인 작업과 연계하여 적용할 수도 있습니다.
최근 몇 년 동안 FBP 작업에 획기적인 발전이 있었습니다. 이러한 방법은 크게 수작업 기능 기반 접근 방식과 딥 러닝 기반 접근 방식의 두 가지 유형으로 분류할 수 있습니다. 이전 연구에서 연구자들은 얼굴 랜드마크, 얼굴 질감 표현, 대칭 및 황금 비율 비율과 같은 휴리스틱 규칙을 기반으로 얼굴 매력을 평가했습니다[7]. 그러나 이러한 방법들은 한계가 있었고 얼굴 특징의 세밀한 추출과 적용이 부족했습니다. 딥러닝이 활성화되면서 얼굴 미용 예측 등 다양한 영역에서 독보적인 역량을 입증했습니다. VGG [8], ResNet [9], MobileNet [10]-[12], EfficientNet [13] 등과 같은 다양한 유형의 CNN (Convolutional Neural Networks)이 FBP 작업에 적용되었습니다. 이러한 네트워크의 강력한 특징 추출 기능을 통해 얼굴 아름다움을 보다 포괄적으로 측정할 수 있습니다. 구체적으로 얼굴 아름다움 예측 방법은 크게 회귀 방법과 분류 방법으로 나눌 수 있다. 분류든 회귀든 상관없이 대부분의 연구자들은 CNN 네트워크의 특징 추출 방법을 최적화하거나 추출된 얼굴 특징을 활용하여 더 높은 정확도를 달성하는 더 나은 방법을 탐색하는 데 전념하고 있습니다. 또한 SCUT-FBP5500 데이터 세트[14]와 같은 대부분의 얼굴 미용 예측 데이터 세트는 해당 지상 진실 역할을 하는 다수의 자원 봉사자로부터 평가를 수집하여 얻습니다. 일부 연구자들은 각 이미지에 대한 모든 지원자의 평가에서 얻은 레이블 분포를 활용하고 LDL(Label Distribution Learning)을 사용하여 모델 성능을 최적화합니다[15], [16].
그러나 얼굴 아름다움 예측 및 대부분의 채점 작업과 같은 작업의 경우 분류 및 회귀 방법 모두 이미지의 잠재적인 순위 정보를 효과적으로 활용하거나 활용하지 못합니다. 우리는 또한 일부 연구자들이 얼굴 아름다움 예측 작업에 쌍별 순위 지정 방법을 적용했다는 사실을 확인했습니다[17], [18]. 그러나 이러한 방법에는 순위 손실을 도입하기 위해 훈련 프로세스에 두 개의 백본 네트워크가 필요합니다. 이는 모델 매개변수를 증가시키고 확장합니다. 훈련 시간. 따라서 우리는 훈련과 테스트 단계 모두에서 하나의 백본 네트워크만 필요한 순위 정보 기반의 새로운 엔드 투 엔드 모델을 제안합니다. 전체적인 프레임워크는 그림 1과 같다. 우리는 전통적인 합성곱 신경망에 순위 모듈과 적응형 가중치 모듈을 추가하고 순위 정보를 추출하는 방법과 해당 쌍별 순위 손실 함수를 설계하여 기본 순위 정보를 최대한 활용합니다. 이미지. 분류기의 출력과 순위 모듈은 적응형 가중치 모듈을 통해 통합되어 예측 점수를 얻습니다. 순위 정보 추출에 필요한 추론 능력과 훈련 효율성을 고려하여 최종적으로 본 논문에서는 실험을 위한 백본 네트워크로 ResNet-50을 선택했습니다. Rank 모듈은 이미지의 순위 정보를 학습하고, 분류기는 라벨 분포를 학습하며, 회귀 손실은 전체 예측 점수를 제한하는 데 사용됩니다. 우리는 SCUT-FBP5500 데이터세트[14]에서 방법을 테스트하고 흥미로운 결과를 얻었습니다. 실험 결과는 우리 모델이 새로운 최첨단 성능을 달성했음을 보여줍니다. 절제 실험은 또한 제안된 순위 모듈과 쌍별 순위 손실 함수가 모델의 정확도를 향상시키는 데 중요한 효과를 보여줍니다. 또한 제안된 순위 모듈은 플러그 앤 플레이 방식으로 모든 합성곱 신경망으로 확장이 가능하며, 순위 정보 추출 방법과 쌍별 순위 손실 함수는 다양한 점수 작업 및 순위 작업을 포함하여 순위 정보가 있는 대부분의 작업에 적용할 수 있습니다. 연령 추정 작업 등
본 논문의 주요 기여는 세 가지로 요약될 수 있다.
- 순위 정보를 기반으로 새로운 End-to-End 네트워크를 제안합니다. 이 모델은 순위 모듈 및 적응형 가중치 모듈과 해당 쌍별 순위 손실 함수를 통합하여 기존 CNN(Convolutional Neural Networks)을 확장합니다. 순위 모듈과 적응형 가중치 모듈이 모든 CNN 기반 네트워크 모델에 완벽하게 통합될 수 있으므로 이 모델은 전송 가능성을 보여줍니다. 또한, 순위정보 기반 접근방식은 순위정보와 관련된 모든 작업에 적용될 수 있습니다.
- 순위 정보를 기반으로 하는 다른 방법과 비교하여 우리가 제안하는 모델은 하나의 백본 네트워크만 필요합니다. 동일한 백본 네트워크 조건에서 우리의 접근 방식은 훈련 단계에서 과도한 모델 매개변수 문제를 해결하여 훈련 시간을 절약하는 동시에 더 나은 성능을 달성합니다.
- SCUT-FBP5500 데이터 세트를 대상으로 다양한 실험을 수행하고 최종 결과는 새로운 최첨단 성능을 달성합니다. 또한 절제 실험의 결과는 우리의 방법이 네트워크 성능을 크게 향상시키는 것을 보여줍니다.
본 논문은 관련 연구의 개요를 포함하는 방식으로 구성되었습니다. 2절에서는 제안한 방법에 대해 자세히 설명한다. 3. 실험 결과는 섹션에 제시되어 있습니다. 4 및 종파. 5는 우리 연구의 결론을 제공합니다. 마지막으로 일부 개발 계획, 자금 및 기관이 마지막에 인정됩니다.
2. 관련 업무
2.1 쌍별 순위 지정 방법
Learning to Rank는 추천 알고리즘 등 문서 순위 지정에 널리 적용되며 크게 Pointwise, pairwise, Listwise의 세 가지 방법으로 나눌 수 있습니다. 많은 연구자들이 이러한 방법을 요약했습니다 [20], [21]. pairwise 접근 방식에서는 Ranking SVM [22], RankBoost [23], RankNet [24], LambdaRank [25] 등을 포함한 수많은 응용 프로그램이 등장했습니다. 딥러닝의 발달과 함께 일부 연구자들은 이러한 순위 방법, 특히 쌍별 방법을 다양한 분야에 적용하고 있습니다. Siamese 네트워크[26]의 도입은 컴퓨터 비전에서 쌍별 방법을 적용할 수 있는 길을 열었습니다. 이중 분기 네트워크 구조는 쌍 정보를 얻기 위한 조건을 제공합니다. 따라서 대부분의 연구자들은 쌍 정보 추출을 용이하게 하기 위해 쌍별 방법을 다른 작업으로 마이그레이션할 때 유사한 네트워크 구조를 선택합니다. Gattupalliet al. [27] AVA 데이터 세트에서 신중하게 이미지를 선택하고 관련 레이블이 있는 이미지 쌍의 새로운 데이터 세트를 구성했습니다. 또한 순위 정보를 학습하기 위한 신경망 기반 방법을 제안했습니다. Linet al. [18]은 또한 Siamese 네트워크 프레임워크를 기반으로 하는 일반적인 컨벌루션 신경망 아키텍처를 제안하고 얼굴 아름다움 예측 작업에 쌍별 방법을 적용했습니다.
2.2 얼굴 아름다움 예측
딥러닝이 인기를 끌기 전에 연구자들은 얼굴 대칭, 얼굴의 질감 특징, 황금 비율 비율 연구를 포함하여 얼굴 아름다움 예측을 위해 주로 전통적인 방법을 사용했습니다. 그러나 이러한 방법들은 얼굴 특징에 대한 세밀한 특징 추출이 부족하고 상대적으로 체계적인 특징 추출 접근 방식이 부족하여 성능이 좋지 않다는 점에서 상당한 한계가 있었습니다. 딥러닝이 발전하면서 CNN(Convolutional Neural Network)을 기반으로 한 일련의 평가 방법이 등장했습니다.
Grayet al. [28]은 처음에 CNN과 유사한 특징 추출 방법을 제안하여 예측을 위해 얼굴 특징에 수동으로 주석을 달 필요가 없습니다. VGG 네트워크 [8] 도입 후 Xu et al. [29]는 이를 얼굴 아름다움 예측 작업에 적용했습니다. 심리학에서 영감을 받은 Xu et al. [30]은 계단식 미세 조정 접근 방식을 사용하여 예측 변수를 최적화하는 PI-CNN이라는 계층적 모델을 도입했습니다. Lianget al. [31]은 산란 변환을 기반으로 한 심층 컨벌루션 네트워크를 얼굴 질감 및 모양 특징과 결합하여 RegionScarNet 모델을 제안했습니다. 고정 매개변수 콘볼루션 커널이 얼굴 속성을 완전히 활용하지 못하는 문제를 해결하기 위해 Lin et al. [32]는 네트워크의 커널 크기를 적응적으로 조정할 수 있는 AaCNN을 도입했습니다. Xu et al. [33]은 분류와 회귀 작업을 동시에 수행할 수 있는 CRNet을 제안했습니다. Xu et al. [34]는 얼굴 이미지의 성별, 인종, 얼굴 매력을 동시에 식별할 수 있는 계층적 다중 작업 네트워크를 도입했습니다. 마찬가지로 Xu[35]는 얼굴 매력 점수와 성별을 자동으로 인식할 수 있는 다중 작업 모델을 개발했습니다. Linet al. [17]은 두 개의 ResNeXt 네트워크 [2]의 가중치를 공유하고 훈련 중 네트워크 성능을 최적화하기 위해 순위 손실을 사용하는 R36-ResNeXt를 제시했습니다. 그 후 그들은 R이라는 일반적인 CNN 아키텍처를 제안했습니다.\(^3\)얼굴 아름다움 예측을 순위 기반 회귀 문제로 간주하는 CNN [18]에서는 두 개의 CNN을 사용하여 순위 지정 및 회귀 작업을 동시에 수행합니다. 팬 외. [15]는 라벨 분포 학습 문제로 얼굴 매력을 재구성하고 특징 수준 융합을 위해 낮은 수준의 기하학적 특징을 통합하는 엔드투엔드 프레임워크를 제안했습니다. 나중에 Liu et al. [16]은 [15]를 기반으로 개선된 레이블 분포 학습 접근 방식을 사용하여 훈련하여 유망한 결과를 달성한 경량 엔드 투 엔드 FBP 방법을 도입했습니다. Weiet al. [37]은 얼굴 랜드마크를 활용하여 낮은 계산 비용으로 얼굴 특징을 계산하는 방법을 제안했습니다. Saeedet al. [38]은 얼굴 이미지 매력도 평가를 위한 Light Deep Convolutional Neural Network인 FIAC-Net을 제안했습니다. 나중에 그들은 얼굴 아름다움 예측에서 각 손실 함수의 고유한 특성을 활용하기 위해 세 가지 회귀 손실 함수를 통합했습니다. Bougourziet al. [39]은 두 개의 백본(40B-IncRex)이 있는 아키텍처를 제안하고 훈련 중 강력한 손실 매개변수의 동작을 제어하기 위해 포물선 동적 법칙을 도입했습니다. Yanget al. [2]은 전이 학습을 사용하여 얼굴 아름다움을 평가하는 모델을 훈련하는 동시에 세밀한 이미지 모델을 사용하여 첫 번째 학습 특징으로 유사한 이미지를 분리하는 것을 목표로 했습니다.
3. 방법
이번 장에서는 제안한 방법에 대해 자세히 설명하겠습니다. 이미지의 순위 정보를 최대한 활용하기 위해 본 논문에서는 쌍별 방법을 FBP(Facial Beauty Prediction) 작업으로 확장합니다. 샘플 간에 순차적 순위 관계가 있는 작업에서는 훈련 과정에서 이러한 순위 정보를 합리적으로 활용하면 모델 성능이 향상된다는 것이 분명합니다.
3.1 네트워크 아키텍처
쌍별 방법을 FBP 작업에 더 잘 통합하기 위해 기존 신경망 아키텍처를 최적화합니다. 그림 1에서 볼 수 있듯이 ResNet50을 백본 네트워크로 사용하고 순위 모듈과 적응형 가중치 모듈을 추가합니다. 구체적으로, 적응형 가중치 모듈을 활용하여 분류기와 순위 모듈의 기여도를 조정하고 이를 가중치 합산과 결합하여 최종 결과를 얻습니다. 분류기는 단일 완전 연결 레이어로 구성되며 적응형 가중치 모듈과 순위 모듈은 완전 연결 레이어, GELU 활성화 레이어 및 드롭아웃 레이어로 구성됩니다. 순위 모듈에 쌍별 방법을 적용합니다. 또한 [16]에서 영감을 얻어 분류자에 라벨 분포 학습을 적용합니다. 마지막으로 회귀 방법을 사용하여 적응형 가중치 모듈의 통합 출력을 제한합니다.
3.2 라벨 배포 학습
얼굴 아름다움 예측을 위한 대부분의 데이터 세트에서는 여러 개인이 동일한 이미지를 평가하고 실제 점수는 평가의 평균을 취하여 결정됩니다. SCUT-FBP5500 데이터 세트에서 모든 이미지는 60명의 지원자에 의해 1~5의 척도로 평가되었습니다. 이 데이터 세트는 이 논문의 실험 부분에서도 사용되며 데이터 세트에 대한 자세한 정보는 섹션에서 제공됩니다. 4.1. 이러한 평가를 얼굴 아름다움 예측에 유용한 정보로 만들기 위해 [16]을 따르고 레이블 분포 학습을 적용합니다. 이미지 수준에서 평균을 계산할 수 있습니다. \(\mu\) 및 분산 \(\sigma\) 각 이미지에 대한 모든 자원봉사자 평가. 이러한 통계를 참조로 사용하여 가우스 분포를 사용하여 각 이미지에 해당하는 레이블 분포를 모델링합니다. 네트워크 추론 능력과 훈련 효율성을 고려하여 샘플링 간격을 다음과 같이 선택합니다. \(\Delta l = 0.05\). 이는 범위 [1, 5]를 80개의 동일한 간격으로 나누고 범위 내에서 80번의 샘플링 반복을 수행한다는 의미입니다. 현재 샘플링 간격이 다음과 같다고 가정합니다. \(I_j=[s_j, s_j + \Delta l]\); 그러면 해당 확률은 \(q_j\) 현재 간격에 대한 확률 분포 함수를 사용하여 계산할 수 있습니다. \(F(x|\mu,\sigma)\) 가우스 분포의.
\[\begin{equation*} q_j = F(s_j + \Delta l|\mu,\sigma)-F(s_j|\mu,\sigma) \tag{1} \end{equation*}\] |
우리는 샘플링된 모든 값을 결합하여 다음과 같이 표시된 라벨 분포를 얻습니다. \(q\), 정규화 \(q\) L1 정규화를 사용합니다. 또한 분류기의 출력 결과에 소프트맥스 연산을 적용하고 결과 분포를 다음과 같이 나타냅니다. \(\hat{q}\). 라벨 배포 손실 \(\mathcal{L}_{dis}\) 유클리드 거리를 사용하여 계산할 수 있습니다.
\[\begin{equation*} \mathcal{L}_{dis} = \frac{1}{n}\sum_{i=1}^n\Vert \hat{q}^{(i)} - q^{(i)} \Vert _2 \tag{2} \end{equation*}\] |
어디에 \(n\) 배치의 샘플 수를 나타냅니다.
3.3 이미지 내 순위 손실
순위 모듈의 출력을 다음과 같이 나타냅니다. \(r\in\{r_1,r_2,\cdots,r_c\}\)어디로 \(c\) 총 범주 수를 나타냅니다. 각 이미지에 대해 이상적으로 모델의 예측 확률 분포는 가우스 분포와 유사해야 하며, 가장 높은 확률 값은 정답 레이블에 위치하고 양쪽으로 감소하여 정렬된 시퀀스를 형성해야 합니다. 경험적으로 네트워크에서 얻은 확률 분포가 이러한 이상적인 패턴을 나타낼 때 보다 정확한 결과를 얻을 수 있습니다. 따라서 예측된 확률 분포를 이상적인 상태로 최적화하기 위해 순위 정보를 활용합니다.
우리는 특징 분포를 샘플링하고 순위 방법을 사용하여 네트워크 예측을 최적화합니다. 구체적으로, 우리는 Ground Truth 위치에서 샘플링을 시작합니다. \(r\), 양쪽으로 이동합니다. 샘플링된 데이터는 다음과 같이 표시됩니다. \((r_i,m_i)\)어디로 \(i\) 는 \(i\)-학년, 그리고 \(m_i\) 샘플링 프로세스 중에 주어진 순차 태그입니다. 예를 들어, 샘플링된 데이터 세트를 다음과 같이 표시합니다. \(\mathcal{R}\in\{(r_\ell,0), (r_{\ell-1},1), (r_{\ell+1},1), (r_{\ell-2},2),\cdots\}\)어디로 \(\ell\) 현재 이미지의 Ground Truth 라벨에 해당합니다. 순차 태그에서 값이 작을수록 시퀀스의 시작 부분에 더 가까운 위치를 나타냅니다. 샘플링 과정에서 우리는 샘플링된 데이터의 순차적 태그가 정답 레이블의 양쪽에 있음을 지정합니다. \(\ell\) 간격이 동일하면 동일합니다. 즉, 전체 시퀀스에서 동일한 위치를 유지한다는 의미입니다.
또한, 다양한 이미지에서 제공되는 다양한 특징 분포로 인해 샘플링 범위를 유연하게 조정하기 위해 샘플링 임계값을 설정했습니다. 샘플링 임계값은 다음과 같이 표시됩니다. \(t\), 샘플링 알고리즘에 대한 의사코드는 알고리즘 1에 표시되어 있으며, 이는 후속 손실 계산을 위한 합리적인 샘플을 생성하는 것을 목표로 합니다. 특징 추출 후 서로 다른 이미지의 특징 분포가 다르기 때문에 샘플링 임계값의 존재 덕분에 위 프로세스의 샘플링 범위는 그림 2 (a)에 표시된 음영 영역과 같이 각 이미지의 합리적인 범위에 위치하게 됩니다. , 다양한 이미지에 대해 가능한 완전한 특징 정보 활용을 보장합니다. 모든 이미지에 대해 샘플링을 수행합니다.
Fig. 2 샘플링 범위 및 작동 메커니즘 \(\mathcal{L}_{inner}\). 가우스 분포가 예로 사용됩니다. 그림 (a)는 임계값의 영향을 받는 다양한 특징 분포의 샘플링 범위를 보여줍니다. 그림 (b)는 작동 메커니즘을 보여줍니다. \(\mathcal{L}_{inner}\). |
모든 샘플을 얻은 후에는 서로 다른 순차적 태그가 있는 두 개의 샘플을 선택하여 매번 추가 처리를 위한 샘플 쌍을 형성합니다. 우리는 이 두 샘플을 다음과 같이 기부합니다. \(a=(r_a,m_a)\) 및 \(b=(r_b,m_b)\), 그리고 점수를 정의 \(S_{a,b}\) 샘플 쌍의
\[\begin{equation*} S_{a,b} = \frac{\exp(r_a - r_b)}{1 + \exp(r_a - r_b)} \tag{3} \end{equation*}\] |
샘플 쌍의 라벨은 다음과 같이 표시됩니다. \(y_{a,b}\)는 다음과 같이 정의됩니다. \(m_a<m_b\)다음, \(y_{a,b}=1\); 그렇지 않으면, \(y_{a,b}=0\). 마지막으로 샘플 쌍의 손실 함수는 다음과 같습니다.
\[\begin{equation*} \begin{split} \mathcal{L}_{inner}(a, b, y_{a,b}) = & - y_{a,b}\log(S_{a,b}) \\ & - (1 - y_{a,b})\log(1 - S_{a,b}) \end{split} \tag{4} \end{equation*}\] |
손실을 계산할 때 서로 다른 순차적 태그가 있는 모든 샘플을 고려합니다. 그림 2 (b)는 의 작동 메커니즘을 보여줍니다. \(\mathcal{L}_{inner}\). 이상적으로는 \(\mathcal{L}_{inner}\) 샘플링된 샘플을 지정된 순서로 정렬할 수 있습니다.
3.4 이미지 간 순위 손실
일괄 처리된 서로 다른 이미지의 경우 해당 실제 레이블이 완전히 동일하지 않습니다. 또한 Ground Truth Label을 기반으로 다양한 이미지 간에 순위 관계가 있습니다. 이미지 간의 순위 손실을 보다 편리하게 계산하기 위해 동일한 배치에 있는 이미지의 특징 정보를 기대치에 맞게 단순화했습니다. \(\mathbb{E}\in\{\mathbb{E}_1,\mathbb{E}_2,\cdots,\mathbb{E}_n\}\)어디로 \(n\) 현재 배치의 총 이미지 수입니다. 기대 \(\mathbb{E}_k\) 현재 배치의 각 이미지에 대해 다음과 같이 정의됩니다.
\[\begin{equation*} \mathbb{E}_k=\sum_{i=1}^c\hat{r}_i*i, \quad k = 1,2,\cdots,n \tag{5} \end{equation*}\] |
어디에 \(\hat{r}\) 순위 모듈의 출력에 소프트맥스를 적용한 결과를 나타냅니다. \(r\)및 \(c\) 수업 수를 나타냅니다. 섹션에서 언급한 접근 방식과 유사합니다. 3.3에서는 배치의 모든 이미지에 대한 기대치와 레이블을 다음과 같은 세트로 표시할 수 있습니다. \(\{(\mathbb{E}_1, \ell_1), (\mathbb{E}_2, \ell_2), \cdots, (\mathbb{E}_n, \ell_n)\}\)어디로 \((\mathbb{E}_j, \ell_j)\) 기대값과 함께 배치의 j번째 이미지입니다. \(\mathbb{E}_j\) 그리고 정답 라벨 \(\ell_j\). 여기서는 실제 점수가 더 큰 이미지가 시퀀스의 시작 부분에 더 가까운 위치를 나타냄을 정의합니다. 마찬가지로, 매번 처리할 라벨이 다른 두 개의 샘플을 선택합니다. 우리는 이 두 샘플을 다음과 같이 기부합니다. \(u=(\mathbb{E}_u, \ell_u)\) 및 \(v=(\mathbb{E}_v, \ell_v)\), 두 샘플 간의 점수는 다음과 같습니다. \(S_{u,v}\)는 다음과 같이 계산됩니다.
\[\begin{equation*} S_{u,v} = \frac{\exp(\mathbb{E}_u - \mathbb{E}_v)}{1 + \exp(\mathbb{E}_u - \mathbb{E}_v)} \tag{6} \end{equation*}\] |
샘플 쌍의 라벨은 다음과 같이 표시됩니다. \(y_{u,v}\)는 다음과 같이 정의됩니다. \(\ell_u>\ell_v\)다음, \(y_{u,v}=1\); 그렇지 않으면, \(y_{u,v}=0\). 마지막으로, 이 두 샘플 사이의 손실 함수는 다음과 같습니다.
\[\begin{equation*} \begin{split} \mathcal{L}_{outer}(u, v, y_{u,v}) = & - y_{u,v}\log(S_{u,v}) \\ & - (1 - y_{u,v})\log(1 - S_{u,v}) \end{split} \tag{7} \end{equation*}\] |
여기서는 처리를 위해 다양한 라벨이 있는 샘플을 선택합니다. 이상적으로는 이미지 간의 기대치의 상대적 위치에 편차가 있는 경우 \(\mathcal{L}_{outer}\) 전체 확률 분포를 올바른 위치로 이동할 수 있습니다. 그림 3에서 볼 수 있듯이 확률 분포의 상대적 위치 편차를 두 가지 범주로 나눕니다. 첫째, 그림 3(a)에 표시된 것처럼 상대적 위치 오류가 있습니다. 여기서 파란색 곡선과 주황색 곡선은 각각 라벨 3.0과 4.0을 갖는 이미지의 확률 분포에 해당합니다. 그림 3(a)의 위쪽 그래프는 상대 위치가 올바르지 않음을 보여줍니다. 이론적으로 파란색 곡선은 주황색 곡선의 왼쪽에 있어야 합니다. 이 경우, \(\mathcal{L}_{outer}\) 파란색 곡선을 왼쪽으로, 주황색 곡선을 오른쪽으로 당겨 올바른 위치에 배치합니다. 두 번째 범주는 그림 3(b)와 같이 상대 위치는 정확하지만 간격이 너무 가깝다는 것입니다. 여기서 빨간색 곡선과 녹색 곡선은 각각 레이블이 3.0과 4.0인 이미지의 확률 분포를 나타냅니다. 그림 3(b)의 상단 그래프를 보면 상대적인 위치는 정확하지만 서로 너무 가깝다는 것을 알 수 있다. 이 경우, \(\mathcal{L}_{outer}\) 두 곡선을 어느 정도 분리하여 서로 멀어지게 만듭니다.
3.5 적응형 체중 모듈
또한 분류기와 순위 모듈의 출력을 통합하기 위해 적응형 가중치 모듈을 도입합니다. 분류기의 출력을 다음과 같이 표시합니다. \(f\in\{f_1,f_2,\cdots,f_c\}\), 적응형 체중 모듈의 출력은 다음과 같습니다. \(w\in\{w_1,w_2,\cdots,w_c\}\), 순위 모듈의 출력은 다음과 같습니다. \(r\in\{r_1,r_2,\cdots,r_c\}\). 적응형 가중치 모듈은 분류기와 순위 모듈의 출력을 결합하여 다음과 같은 새로운 출력을 생성합니다. \(p \in \{p_1, p_2, \ldots, p_c\}\), 이는 네트워크의 최종 출력 역할을 합니다. 구체적으로, 각 \(p_i\) 다음과 같이 표현될 수 있습니다:
\[\begin{equation*} p_i = w_i * f_i + (1 - w_i) * r_i, \quad i = 1, 2, \cdots, c \tag{8} \end{equation*}\] |
어디에 \(c\) 수업 수를 나타냅니다. 예측된 얼굴 미용 점수를 정의합니다. \(x\) as
\[\begin{equation*} x = \sum^c_{i=1} \hat{p}_i*i \tag{9} \end{equation*}\] |
어디에 \(\hat{p}\) Softmax를 적용한 결과입니다. \(p\). 네트워크의 최종 예측을 위해 Ground Truth와 네트워크에 의한 예측 점수 간의 불일치를 최소화하기 위해 Smooth L1 손실을 선택합니다.
\[\begin{equation*} \mathcal{L}_{reg}(x, y) = \begin{cases} 0.5(x-y)^2, & if \quad|x-y|<1\\ |x-y|-0.5, & otherwise \end{cases} \tag{10} \end{equation*}\] |
어디에 \(y\) 정답 라벨이고 \(|\cdot|\) 절대값을 나타냅니다. 최종 손실함수는 다음과 같이 표현될 수 있다.
\[\begin{equation*} \mathcal{L} = \lambda_1\mathcal{L}_{inner} + \lambda_2\mathcal{L}_{outer} + \lambda_3\mathcal{L}_{reg} + \lambda_4\mathcal{L}_{dis} \tag{11} \end{equation*}\] |
어디에 \(\lambda_1\), \(\lambda_2\), \(\lambda_3\)및 \(\lambda_4\) 네 가지 손실의 균형을 맞추는 하이퍼파라미터입니다.
4. 실험
본 섹션에서는 제안된 방법을 검증하기 위해 다양한 실험을 설계합니다. 우리는 실험 설정에 대한 자세한 분석을 제공하고 결과를 최신 연구와 비교합니다. 또한 순위 모듈과 쌍별 순위 손실 함수의 효율성을 입증하기 위해 제거 실험을 수행했습니다.
4.1 데이터 세트 및 평가 지표
SCUT-FBP5500 데이터 세트는 5500개의 얼굴 이미지로 구성됩니다. 총 60명의 지원자에게 1에서 5까지의 척도로 각 사진을 평가하도록 요청했습니다. 각 이미지의 실제 라벨은 이 60명의 지원자의 평가를 평균하여 얻습니다. 각 이미지에 대한 실측 라벨 외에도 데이터 세트는 각 이미지에 대해 60명의 자원 봉사자로부터 자세한 평가 점수를 제공합니다.
평가 기준으로는 MAE(Mean Absolute Error), RMSE(Root Mean Square Error), PC(Pearson Correlation Corelation)를 사용하여 모델의 성능을 측정합니다. 보다 뛰어난 모델은 더 높은 PC 값을 갖는 반면 더 낮은 MAE 및 RMSE 값을 나타냅니다. 계산을 위한 구체적인 공식은 Eq. (12).
\[\begin{equation*} \begin{split} & MAE=\frac{1}{N}\sum_{i=1}^{N}|x^{(i)}-y^{(i)}|\\ & RMSE=\sqrt{\frac{1}{N}\sum_{i=1}^{N}(x^{(i)}-y^{(i)})^2}\\ & PC=\frac{\sum_{i=1}^N(y^{(i)}-\bar{y})(x^{(i)}-\bar{x})} {\sqrt{\sum_{i=1}^N(y^{(i)}-\bar{y})^2}\sqrt{\sum_{i=1}^N(x^{(i)}-\bar{x})^2}} \end{split} \tag{12} \end{equation*}\] |
어디에 \(N\) 테스트 세트의 이미지 수를 나타냅니다. \(x\) 는 네트워크에 의해 예측된 점수입니다. \(y\) 정답 라벨입니다. \(\bar{x}=\frac{1}{N}\sum_{i=1}^Nx^{(i)}\)및 \(\bar{y}=\frac{1}{N}\sum_{i=1}^Ny^{(i)}\).
4.2 구현 세부 사항
본 논문에서는 입력 이미지에 대해 광범위한 작업을 수행하지 않습니다. 각 입력 이미지에 대해 먼저 크기를 256으로 조정합니다.\(\times\)256. 훈련 단계에서 이미지는 무작위로 224로 잘립니다.\(\times\)224이며 0.5의 확률로 무작위 수평 뒤집기를 수행합니다. 테스트 단계에서 이미지는 중앙에서 224로 잘립니다.\(\times\)224. ResNet-50을 백본 네트워크로 사용하고 ImageNet 사전 훈련된 가중치로 초기화하고 출력 레이어의 채널을 80으로 수정합니다. 우리는 0.9의 운동량과 0.0005의 가중치 감쇠를 갖는 SGD 최적화 프로그램을 사용합니다. 초기 학습률은 0.001로 설정되었으며 0.3 epoch마다 15씩 감소합니다. 각 모델은 배치 크기가 90인 64세대 동안 학습되었습니다. \(t\) 섹션에서 언급되었습니다. 3.3에서는 처음 0.95 에포크 동안 15로 설정되고 나머지 에포크에서는 0.98로 증가됩니다. 또한 하이퍼파라미터를 설정합니다. \(\lambda_1=\lambda_2=\lambda_3=\lambda_4=1\) 방정식에서. (11). 모든 실험은 NVIDIA Titan GPU에서 수행됩니다. XNUMX겹 교차 검증을 수행하고 평균 결과가 보고됩니다.
4.3 최신 기술과의 비교
표 1에 표시된 것처럼 우리의 접근 방식을 최신 최첨단 작업과 비교했습니다. 또한 2겹 교차 검증의 각 분할에 대한 자세한 정보가 표 1에 제공됩니다. 표 XNUMX의 데이터는 우리가 방법은 다른 접근 방식보다 훨씬 더 나은 성능을 발휘합니다.
SCUT-FBP5500 데이터 세트에서 우리의 방법은 MAE 및 RMSE에서 최첨단 성능을 달성합니다. 구체적으로 R과 같은 쌍별 순위 방법을 활용하는 이전 방법과 비교하여\(^3\)CNN [18], 우리 모델은 상당한 개선을 보여줍니다. 또한 동일한 백본을 사용하는 방법과 비교할 때 우리의 결과는 상당한 발전을 보여줍니다. 최근 제안된 방법인 Dual Label Distribution [16] 및 Dynamic ER-CNN [40]과 비교하여 우리 모델은 여전히 우수한 성능으로 이를 능가합니다. 우리가 제안한 방법은 PC 메트릭 측면에서 손실 앙상블을 사용하는 FIAC-Net[39]보다 약간 뒤떨어집니다. FIAC-Net은 얼굴 매력을 평가하기 위해 특별히 설계된 네트워크라는 점은 주목할 가치가 있습니다. 그러나 전반적으로 우리의 방법으로 얻은 결과는 고무적이며 최첨단 수준에 도달했습니다.
4.4 절제 연구
4.4.1 방법의 다양한 조합
각 방법의 네트워크 성능 향상을 명확히 하기 위해 서로 다른 방법을 결합하여 실험을 수행하고 그 결과를 Table 3에 나타내었다. B를 사용하여 네트워크 학습을 표현한다. \(\mathcal{L}_{reg}\), LD는 라벨 분포를 나타냅니다. \(\mathcal{L}_{dis}\), RI를 대표하는 \(\mathcal{L}_{inner}\)및 RO를 나타냅니다. \(\mathcal{L}_{outer}\). 하이퍼파라미터 \(\lambda_i\) 각 절제 실험에서 는 1로 설정됩니다.
표 3에서 훈련 단계에서 순위 정보를 사용하지 않고도 이미 놀라운 모델을 얻었음을 확인할 수 있습니다. 순위 정보를 종합적으로 활용하기 위해 네트워크의 완전히 연결된 채널 수를 80개로 변경하여 네트워크에서 보다 정교한 예측 결과를 출력할 수 있기 때문입니다. Ranking Module의 도입과 쌍별 순위 손실로 인해 네트워크의 정확도가 더욱 향상되었습니다. 둘 다 \(\mathcal{L}_{inner}\) 및 \(\mathcal{L}_{outer}\) 네트워크에 특정 강화 효과가 있으며 두 가지 방법을 결합하면 최상의 결과를 얻을 수 있습니다. 따라서 쌍별 순위 손실이 있는 순위 모듈이 얼굴 아름다움 예측 작업에서 중요한 역할을 한다는 결론을 내릴 수 있습니다. 이미지 특징에서 순위 정보를 효과적으로 추출하고 그에 따라 최적화할 수 있습니다.
4.4.2 다양한 하이퍼파라미터
기여도를 명확히 하기 위해 \(\mathcal{L}_{inner}\) 및 \(\mathcal{L}_{outer}\) 각각의 모델 성능 향상을 위해 하이퍼파라미터에 서로 다른 값을 설정하여 여러 실험을 수행합니다. \(\lambda_1\) 및 \(\lambda_2\) 방정식에서. (11). 그 사이에 하이퍼파라미터 \(\lambda_3\) 및 \(\lambda_4\) for \(\mathcal{L}_{reg}\) 및 \(\mathcal{L}_{dis}\) 이 실험 섹션에서는 1로 설정됩니다. 결과를 표 4에 나타내었다.
실험 결과를 보면 하이퍼파라미터의 값이 달라지는 것도 큰 영향을 미치는 것을 알 수 있습니다. 더 큰 \(\lambda_1\) 각 이미지의 예측 확률 분포를 이상적인 상태로 조정하는 데 네트워크가 더 집중하도록 만들 것입니다. 이에 대해서는 Sect. 3.3, 더 큰 반면 \(\lambda_2\) 이미지 간의 순위 관계를 우선시합니다. SCUT-FBP5500 데이터 세트의 경우 가장 뛰어난 결과는 다음과 같습니다. \(\lambda_1=\lambda_2=1\). 그러나 다양한 작업의 경우 값을 결정합니다. \(\lambda_1\) 및 \(\lambda_2\) 최적의 성과를 달성하려면 특정 작업의 특성을 기반으로 하는 것이 중요합니다.
4.5 시각화
효과를 더 잘 설명하기 위해 \(\mathcal{L}_{inner}\) 훈련 단계에서 우리는 일부 샘플을 선택하고 그림 4와 같이 확률 분포를 시각화했습니다.
위 그림 4의 예에서 모델에 의해 예측된 확률 분포는 다음과 같습니다. \(\mathcal{L}_{inner}\) 그 자체가 매우 매끄럽지 않은 경우, 들쭉날쭉한 영역이 없는 분포에 비해 크게 감소합니다. \(\mathcal{L}_{inner}\). 아래 그림 4의 예에서, 없이 모델에 의해 예측된 확률 분포는 \(\mathcal{L}_{inner}\) 섹션에서 언급한 이상적인 형태에도 근접하지 않습니다. 3.3. 그러나 언제 \(\mathcal{L}_{inner}\) 추가하면 분포는 이상적인 상태의 초보적인 형태를 나타내며 분포의 들쭉날쭉한 영역도 크게 줄어듭니다.
위의 내용을 바탕으로 우리는 다음과 같은 결론을 내릴 수 있습니다. \(\mathcal{L}_{inner}\) 훈련 단계에서 순위 정보를 효과적으로 활용하여 이미지의 확률 분포를 상대적으로 이상적인 상태로 최적화하고 네트워크 예측의 정확도를 향상시킬 수 있습니다.
5. 결론
본 논문에서는 순위 정보를 기반으로 하는 새로운 엔드투엔드 네트워크 아키텍처를 제안한다. CNN(Convolutional Neural Network) 모델에 순위 모듈과 적응형 가중치 모듈을 쌍별 순위 손실 함수와 함께 소개합니다. 순위 정보를 활용하는 대부분의 방법과 달리 우리의 접근 방식은 두 백본 네트워크 간에 매개변수를 공유하는 대신 훈련 단계 동안 단일 백본 네트워크만 필요합니다. 이는 네트워크의 훈련 시간을 크게 줄이고 더 나은 성능을 달성합니다. SCUT-FBP5500 데이터 세트에 대한 실험 결과는 새로운 최첨단 성능에 도달했으며 절제 실험은 우리의 방법이 모델 성능을 향상시키는 데 크게 도움이 된다는 것을 보여줍니다. 또한 우리가 설계한 Rank 모듈과 Adaptive Weight 모듈은 거의 모든 CNN 모델에 쉽게 전송할 수 있습니다. 또한 해당 순위 정보 기반 방법은 대부분의 등급 작업, 연령 추정 작업 등 순위 정보와 관련된 모든 데이터 세트에 적용될 수 있습니다.
감사의
이 작업은 절강성 핵심 연구 개발 계획: No.2021C03131에 의해 부분적으로 지원되었습니다. 중국 국가과학기금 번호 61871170; CEC 협력 기금: 지능형 인식 협업 프로젝트 및 TinyML 인식 알고리즘 및 애플리케이션; 데이터 링크 기술 핵심 연구소 개설 기금: CLDL-20202207.
참고문헌
[1] R. Thornhill and S.W. Gangestad, “Facial attractiveness,” Trends in cognitive sciences, vol.3, no.12, pp.452-460, 1999.
CrossRef
[2] M. Bashour, “History and current concepts in the analysis of facial attractiveness,” Plastic and reconstructive surgery, vol.118, no.3, pp.741-756, 2006.
CrossRef
[3] J. Li, C. Xiong, L. Liu, X. Shu, and S. Yan, “Deep face beautification,” Proc. 23rd ACM international conference on Multimedia, pp.793-794, 2015.
CrossRef
[4] L. Liang, L. Jin, and D. Liu, “Edge-aware label propagation for mobile facial enhancement on the cloud,” IEEE Trans. Circuits Syst. Video Technol., vol.27, no.1, pp.125-138, 2017.
CrossRef
[5] X. Ou, S. Liu, X. Cao, and H. Ling, “Beauty emakeup: A deep makeup transfer system,” Proc. 24th ACM international conference on Multimedia, pp.701-702, 2016.
CrossRef
[6] A. Bottino, M. De Simone, A. Laurentini, and C. Sforza, “A new 3-d tool for planning plastic surgery,” IEEE Trans. Biomed. Eng., vol.59, no.12, pp.3439-3449, 2012.
CrossRef
[7] K. Schmid, D. Marx, and A. Samal, “Computation of a face attractiveness index based on neoclassical canons, symmetry, and golden ratios,” Pattern Recognition, vol.41, no.8, pp.2710-2717, 2008.
CrossRef
[8] K. Simonyan and A. Zisserman, “Very deep convolutional networks for large-scale image recognition,” arXiv preprint arXiv:1409.1556, 2014.
[9] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” Proc. IEEE Conference on Computer Vision and Pattern Recognition, pp.770-778, 2016.
[10] A.G. Howard, M. Zhu, B. Chen, D. Kalenichenko, W. Wang, T. Weyand, M. Andreetto, and H. Adam, “Mobilenets: Efficient convolutional neural networks for mobile vision applications,” arXiv preprint arXiv:1704.04861, 2017.
[11] M. Sandler, A. Howard, M. Zhu, A. Zhmoginov, and L.C. Chen, “Mobilenetv2: Inverted residuals and linear bottlenecks,” Proc. IEEE Conference on Computer Vision and Pattern Recognition, pp.4510-4520, 2018.
[12] A. Howard, M. Sandler, G. Chu, L.C. Chen, B. Chen, M. Tan, W. Wang, Y. Zhu, R. Pang, V. Vasudevan, et al., “Searching for mobilenetv3,” Proc. IEEE/CVF International Conference on Computer Vision, pp.1314-1324, 2019.
[13] M. Tan and Q. Le, “Efficientnet: Rethinking model scaling for convolutional neural networks,” International Conference on Machine Learning, pp.6105-6114, PMLR, 2019.
[14] L. Liang, L. Lin, L. Jin, D. Xie, and M. Li, “Scut-fbp5500: A diverse benchmark dataset for multi-paradigm facial beauty prediction,” 2018 24th International conference on pattern recognition (ICPR), pp.1598-1603, IEEE, 2018.
CrossRef
[15] Y.-Y. Fan, S. Liu, B. Li, Z. Guo, A. Samal, J. Wan, and S.Z. Li, “Label distribution-based facial attractiveness computation by deep residual learning,” IEEE Trans. Multimedia, vol.20, no.8, pp.2196-2208, 2017.
CrossRef
[16] S. Liu, E. Huang, Y. Xu, K. Wang, X. Kui, T. Lei, and H. Meng, “Lightweight facial attractiveness prediction using dual label distribution,” arXiv preprint arXiv:2212.01742, 2022.
[17] L. Lin, L. Liang, and L. Jin, “R2-resnext: A resnext-based regression model with relative ranking for facial beauty prediction,” 2018 24th International Conference on Pattern Recognition (ICPR), pp.85-90, IEEE, 2018.
CrossRef
[18] L. Lin, L. Liang, and L. Jin, “Regression guided by relative ranking using convolutional neural network (r3cnn) for facial beauty prediction,” IEEE Transactions on Affective Computing, vol.13, no.1, pp.122-134, 2022.
CrossRef
[19] E. Saravia, “ML Visuals,” https://github.com/dair-ai/ml-visuals, 2021.
[20] T.-Y. Liu, “Learning to rank for information retrieval,” Foundations and Trends® in Information Retrieval, vol.3, no.3, pp.225-331, 2009.
CrossRef
[21] C.J. Burges, “From ranknet to lambdarank to lambdamart: An overview,” Learning, vol.11, no.23-581, p.81, 2010.
[22] T. Joachims, “Optimizing search engines using clickthrough data,” Proc. eighth ACM SIGKDD international conference on Knowledge discovery and data mining, pp.133-142, 2002.
CrossRef
[23] Y. Freund, R. Iyer, R.E. Schapire, and Y. Singer, “An efficient boosting algorithm for combining preferences,” Journal of Machine Learning Research, vol.4, no.Nov, pp.933-969, 2003.
[24] C. Burges, T. Shaked, E. Renshaw, A. Lazier, M. Deeds, N. Hamilton, and G. Hullender, “Learning to rank using gradient descent,” Proc. 22nd international conference on Machine learning, pp.89-96, 2005.
CrossRef
[25] C.J.C. Burges, R. Ragno, and Q.V. Le, “Learning to rank with nonsmooth cost functions,” Advances in neural information processing systems, vol.19, 2006.
CrossRef
[26] J. Bromley, J.W. Bentz, L. Bottou, I. Guyon, Y. Lecun, C. Moore, E. Säckinger, and R. Shah, “Signature verification using a “siamese” time delay neural network,” Advances in neural information processing systems, vol.6, 1993.
CrossRef
[27] V. Gattupalli, P.S. Chandakkar, and B. Li, “A computational approach to relative aesthetics,” 2016 23rd International Conference on Pattern Recognition (ICPR), pp.2446-2451, IEEE, 2016.
CrossRef
[28] D. Gray, K. Yu, W. Xu, and Y. Gong, “Predicting facial beauty without landmarks,” Computer Vision-ECCV 2010: 11th European Conference on Computer Vision, Heraklion, Crete, Greece, Sept. 5-11, 2010, Proceedings, Part VI 11, pp.434-447, Springer, 2010.
CrossRef
[29] L. Xu, J. Xiang, and X. Yuan, “Transferring rich deep features for facial beauty prediction,” arXiv preprint arXiv:1803.07253, 2018.
[30] J. Xu, L. Jin, L. Liang, Z. Feng, D. Xie, and H. Mao, “Facial attractiveness prediction using psychologically inspired convolutional neural network (pi-cnn),” 2017 IEEE international conference on acoustics, speech and signal processing (ICASSP), pp.1657-1661, IEEE, 2017.
CrossRef
[31] L. Liang, D. Xie, L. Jin, J. Xu, M. Li, and L. Lin, “Region-aware scattering convolution networks for facial beauty prediction,” 2017 IEEE International Conference on Image Processing (ICIP), pp.2861-2865, IEEE, 2017.
CrossRef
[32] L. Lin, L. Liang, L. Jin, and W. Chen, “Attribute-aware convolutional neural networks for facial beauty prediction.,” IJCAI, pp.847-853, 2019.
CrossRef
[33] L. Xu, J. Xiang, and X. Yuan, “Crnet: classification and regression neural network for facial beauty prediction,” Advances in Multimedia Information Processing-PCM 2018: 19th Pacific-Rim Conference on Multimedia, Hefei, China, Sept. 21-22, 2018, Proceedings, Part III, pp.661-671, Springer, 2018.
CrossRef
[34] L. Xu, H. Fan, and J. Xiang, “Hierarchical multi-task network for race, gender and facial attractiveness recognition,” 2019 IEEE International conference on image processing (ICIP), pp.3861-3865, IEEE, 2019.
CrossRef
[35] J. Xu, “Mt-resnet: a multi-task deep network for facial attractiveness prediction,” 2021 2nd International Conference on Computing and Data Science (CDS), pp.44-48, IEEE, 2021.
CrossRef
[36] S. Xie, R. Girshick, P. Dollár, Z. Tu, and K. He, “Aggregated residual transformations for deep neural networks,” Proc. IEEE Conference on Computer Vision and Pattern Recognition, pp.1492-1500, 2017.
[37] W. Wei, E.S.L. Ho, K.D. McCay, R. Damaševičius, R. Maskeliūnas, and A. Esposito, “Assessing facial symmetry and attractiveness using augmented reality,” Pattern Analysis and Applications, vol.25, pp.635-651, 2021.
CrossRef
[38] J.N. Saeed, A.M. Abdulazeez, and D.A. Ibrahim, “Fiac-net: Facial image attractiveness classification based on light deep convolutional neural network,” 2022 Second International Conference on Computer Science, Engineering and Applications (ICCSEA), pp.1-6, IEEE, 2022.
CrossRef
[39] J.N. Saeed, A.M. Abdulazeez, and D.A. Ibrahim, “Automatic facial aesthetic prediction based on deep learning with loss ensembles,” Applied Sciences, vol.13, no.17, p.9728, 2023.
CrossRef
[40] F. Bougourzi, F. Dornaika, N. Barrena, C. Distante, and A. Taleb-Ahmed, “Cnn based facial aesthetics analysis through dynamic robust losses and ensemble regression,” Applied Intelligence, vol.53, pp.10825-10842, 2023.
CrossRef
[41] C.-T. Yang, Y.-C. Wang, L.-J. Lo, W.-C. Chiang, S.-K. Kuang, and H.-H. Lin, “Implementation of an attention mechanism model for facial beauty assessment using transfer learning,” Diagnostics, vol.13, no.7, p.1291, 2023.
CrossRef
[42] S. Shi, F. Gao, X. Meng, X. Xu, and J. Zhu, “Improving facial attractiveness prediction via co-attention learning,” ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp.4045-4049, IEEE, 2019.
CrossRef