검색 기능은 준비 중입니다.
검색 기능은 준비 중입니다.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Open Access
A POMDP-Based Approach to Assortment Optimization Problem for Vending Machine
오픈 액세스
자동 판매기의 구색 최적화 문제에 대한 POMDP 기반 접근 방식

Gaku NEMOTO, Kunihiko HIRAISHI

  • 조회수

    275

  • 이것을 인용
  • Free PDF (1.5MB)

요약 :

구색 최적화는 소매업체의 주요 문제 중 하나이며 널리 연구되어 왔습니다. 본 논문에서는 고려해야 할 특징적인 문제가 많은 자동 판매기에 중점을 둡니다. 먼저 자동판매기에 대한 구색 최적화 문제를 공식화하고, 다음으로 소비자의 의사결정을 나타내는 모델을 제안하고, 부분적으로 관찰 가능한 마르코프 의사결정 프로세스(POMDP)를 기반으로 한 해결 방법을 보여줍니다. 문제에는 불완전한 상태 관찰, 확률론적 소비자 행동, 미래 기대 보상을 최대화하는 정책 결정 등이 포함됩니다. 컴퓨터 시뮬레이션을 이용하여 동일한 조건에서 휴리스틱 방법에 비해 매출이 증가하는 것을 관찰합니다. 더욱이 매출은 이론적 상한선에 접근합니다.

발행
IEICE TRANSACTIONS on Fundamentals Vol.E107-A No.6 pp.909-918
발행일
2024/06/01
공개일
2023/09/05
온라인 ISSN
1745-1337
DOI
10.1587/transfun.2023EAP1036
원고의 종류
PAPER
범주
수리시스템과학

1. 서론

적절한 제품 분류 계획은 물론 가격 책정 및 재고 관리도 많은 소매업체에게 중요한 문제입니다. 소매점, 편의점, 슈퍼마켓, EC 사이트 등 업종별 과제를 해결하기 위해 다양한 접근이 이루어지고 있습니다. 그 중 자동 판매기(특히 음료 자동 판매기)의 구색 최적화는 다른 소매점과 다른 몇 가지 특징을 가지고 있습니다. 즉, 가용 재고가 제한된 상품 종류가 많고, 판매 데이터를 얻을 수 있을 때까지 시차가 있고, 보충 기회가 제한적이며, 환경에 따른 매출 변화가 크다는 것입니다. 이러한 제약은 문제를 더욱 복잡하게 만듭니다.

본 논문에서는 자동판매기 구색 최적화 문제의 공식화를 먼저 제시하고, 다음으로 소비자의 의사결정을 설명하는 모델을 제안하고, 문제에 대한 해결 방법을 제시한다. 우리는 상태 변수가 부분적으로 관찰 가능한 의사 결정 프로세스를 위한 모델링 프레임워크인 부분적으로 관찰 가능한 마르코프 결정 프로세스(POMDP)를 기반으로 한 공식을 사용합니다. 자판기에서는 루트맨이라 불리는 노동자들이 더 나은 판매를 위해 계속해서 제품 종류를 바꾼다. 구색 최적화의 목표는 각 보충 작업 시 구색을 변경하여 예상 매출을 극대화하는 것입니다.

논문의 나머지 부분은 다음과 같이 구성됩니다. 곤충. 2에는 관련 작품의 개요를 나타낸다. 자동 판매기의 구색 최적화 문제의 특징도 설명합니다. 곤충. 3에서는 문제의 일반적인 공식이 제시된다. 곤충. 도 4에서는 기대매출액의 이론적 상한선과 함께 소비자의 제품선택모형을 제시하고 있다. 이러한 상한을 통해 얻은 솔루션이 최적 솔루션에 얼마나 가까운지 알 수 있습니다. 이 문제에 대해 제안된 POMDP 기반 접근 방식은 Sect. 5. 이것이 본 논문의 주요 공헌이다. 곤충. 6에서는 평가를 위한 시뮬레이션 모델과 그 설정을 제시하고 Sect.에서 제안된 방법의 정확성과 효율성에 대해 논의합니다. 7. 8절은 결론이다.

2. 관련 저작물

구색 최적화 문제는 널리 연구되어 왔습니다. 구색 최적화에 관한 문헌에는 소비자 행동의 정적 또는 동적 대체 메커니즘과 모델을 다루는 두 가지 주요 주제가 있습니다.

정적 대체는 처음 선택한 제품이 품절되면 소비자가 대신 다른 품목을 구매하지 않을 것이라고 가정합니다[1]. 대조적으로, 동적 대체는 제품의 재고가 없는 경우 소비자가 대안으로 다른 품목을 구매한다고 가정합니다[2], [3].

[4]에서는 소비자 행동을 설명하기 위해 외생적 수요, 위치 선택 및 다항 로짓의 세 가지 모델을 보여줍니다. 외생적 수요 모델은 K와 같은 각 제품의 관찰 가능한 판매 데이터로부터 소비자 행동을 설명하는 방법을 제공합니다.\(\ddot{\mathrm{o}}\)k와 피셔[5]. 위치 선택 모델은 Lancaster[6]에 의해 개발되었습니다. 이 모델은 각 차원이 제품 특성 및 소비자 요구에 해당하는 다차원 벡터를 도입합니다. 소비자의 제품 선택은 소비자의 이상적인 벡터와 제품 벡터의 근접성에 따라 결정됩니다. 다항 로짓(MNL) 모델은 각 제품의 선택 확률을 소비자 효용의 함수로 나타내는 무작위 효용 모델입니다. 기본 MNL 모델은 McFadden[7]에 의해 확립되었습니다. MNL 모델은 제품의 선택 확률에서 관련 없는 대안의 독립성을 가정하기 때문에 한계가 있습니다. 이러한 제한을 줄이기 위해 Williams [8]는 중첩 MNL 모델을 제안했습니다.

한편, 자판기의 구색 기획에 관한 연구는 진행되지 않고 있다. 대신 자동 판매기에 대한 소비자 행동이 연구되고 있습니다. Anupindiet al. [9]는 동적 대체를 고려한 수요 추정 모델을 제안합니다. 자판기의 구색 최적화 문제가 잘 발굴되지 못한 이유는 (i) 일반적으로 루트맨이 판매에 대한 지식과 경험을 활용하여 구색을 결정하기 때문에 이 문제를 해결하려는 수요가 적었고, (ii) 문제의 복잡성. 복잡성은 문제의 다음과 같은 주목할만한 특성으로 인해 발생합니다.

  • 제품 판매는 보충이 완료된 경우에만 볼 수 있습니다.
  • 보충 작업은 정기적으로 수행됩니다. 따라서 문제 해결은 과거 관찰 이력을 바탕으로 한 의사결정 과정이다.
  • 고객의 성격은 관찰할 수 없으며 추정이 필요합니다.

최근 음료회사에서는 루트맨의 업무를 지원하는 정보시스템 도입을 시도하고 있다. 루트 남성의 의사 결정에 도움이 되는 방법을 제안하는 것이 본 논문의 주요 공헌입니다.

3. 일반 제형

구색 최적화 문제를 논의하기 전에 일반적인 공식에 대한 개요를 설명합니다. 자동 판매기의 구색 최적화 문제는 6-튜플로 정의됩니다. \(AOP = (\boldsymbol{A}, S, G, O, \pi, {\cal C})\)어디로 \(\boldsymbol{A}\) 구색 세트입니다. \(S\) 는 상태의 집합이고, \(G\) 이득 함수는, \(O\) 관찰 기능이고, \(\pi\) 정책이고, \(\cal C\) 구색 제약입니다. 자세한 내용은 아래에 설명되어 있습니다.

(1) 제품 및 구색

고려 \(n\) 제품의 종류 \(q_i(i=1,\ldots,n)\) and \(m\) 열(\(m > 0\), 일반적으로 \(n > m\)), 자동판매기의 기둥은 제품을 보관하는 용기입니다. 구색은 선택의 조합입니다. \(m\) ~로부터의 제품 \(n\) 복제가 가능한 제품의 종류. 이러한 조합은 다중 집합으로 표현됩니다.1. 허락하다 \(\boldsymbol{A} = \{\boldsymbol{a}_1, \ldots, \boldsymbol{a}_L\}\) 모든 구색의 집합을 나타냅니다. 여기서 \(L\) 총 구색 수입니다. 시간에 맞춰 제공되는 구색 \(t\) 로 표시됩니다 \(\boldsymbol{a}(t)\). 그 주 \(\boldsymbol{a}(t)\) 사이의 판매에 영향을 미칩니다. \(t\) and \(t + 1\).

모든 열의 용량이 동일하다고 가정하고 \(\mathit{cap}\) 각 열의 용량을 나타냅니다. 그럼 제품갯수 \(q_i\) 구색에 \(\boldsymbol{a}(t)\) is \(\mathit{stk}(\boldsymbol{a}(t), q_i) := \#\boldsymbol{a}(t)[q_i] \cdot \mathit{cap}\)어디로 \(\#\boldsymbol{a}(t)[q_i]\) 발생 횟수는 다음과 같습니다. \(q_i\) 멀티세트에서 \(\boldsymbol{a}(t)\) 보충 작업 후에 각 열이 가득 찼다고 가정합니다.

(2) 상태공간

하자 \(S = \{s_1, \ldots, s_v\}\) 상태의 집합이 되며, 각 상태는 \(s_i\) 하는 \(u\)-차원 벡터와 상태의 각 구성 요소는 실수, 정수 및 이산 값이 될 수 있습니다. 자판기의 상태는 환경, 날씨, 자판기에서 구매하는 배경인구 등으로 구성된다.

당시의 상태 \(t\) 로 표시됩니다 \(s(t)\). 상태 전이 확률을 함수로 정의합니다. \(\delta\): \(\mathbb{N} \times S \times S \rightarrow [0, 1]\)어디로 \(\forall t, s_j : \sum_{j^\prime}{\delta(t, s_j, s_{j^\prime}) = 1}\). 확률이 그만큼 높다는 뜻이다 \(s(t)=s_j\) and \(s(t+1)=s_{j^\prime}\) is \(\delta(t, s_j, s_{j^\prime})\). 상태 전이 확률이 시간에 따라 달라지는 경우 \(t\)이면 시간변형이라 하고, 그렇지 않으면 시간불변이라 부른다. 시불변의 경우, \(\delta\) 로 정의된다 \(\delta : S \times S \rightarrow [0, 1]\).

(3) 게인 기능

분류에 대한 이득 함수는 다음과 같이 정의됩니다. \(G : S \times \boldsymbol{A} \rightarrow \mathbb{N}\) 특정 주 및 제품 구성에 따른 총 판매량(금액 또는 단위)을 제공합니다. \(G(s_j, \boldsymbol{a}_l)\) 모든 제품의 판매량 합계로 제공됩니다. \(G(s_j, \boldsymbol{a}_l) := \sum_{q_i \in \boldsymbol{a}_l} g_i\)어디로 \(g_i\) 제품판매 입니다 \(q_i\). 벡터 \(\boldsymbol{g} := [ g_1, \ldots, g_n ]\) 불렀다. 이득 벡터. 우리는 암묵적으로 모든 제품의 가격이 동일하다고 가정합니다. 이득 함수를 도출하는 방법은 다음 섹션에서 설명됩니다.

(4) 관찰 기능

관찰 함수는 다음과 같이 정의됩니다. \(O : S \rightarrow W\)어디로 \(W\) 일부 세트입니다. 당시의 관찰 \(t\) 로 표시됩니다 \(o(t) := O(s(t))\). 우리가 정의한 대로, 각 상태는 \(s\) 로 표현된다 \(u\)-차원 벡터 \(s_i := [ s_i^1, \cdots, s_i^u ]\). 본 논문에서는 관찰 함수가 일부 하위 상태(예: 상태)를 마스크한다고 가정합니다. \(s_i = [ s_i^1, s_i^2, s_i^3, s_i^4 ]\), \(O(s_i) = [ s_i^1, s_i^4 ]\) (이 함수는 두 번째와 세 번째 하위 상태를 마스킹합니다). 여기서 마스크된 하위 상태는 관찰할 수 없는 하위 상태를 의미하고 다른 하위 상태는 관찰 가능한 하위 상태를 의미합니다.

(5) 정책

인셀덤 공식 판매점인 \(s(k), o(k), \boldsymbol{a}(k), \boldsymbol{g}(k), k=0, \ldots, t-1\) 출력하는 함수가 제공됩니다. \(\boldsymbol{a}(t)\) 정책이라고 합니다.

(6) 구색 제약

구색 제약 조건은 집합입니다. \({\cal C} \subseteq \boldsymbol{A} \times \boldsymbol{A}\). 언제든지 \(t\), \((\boldsymbol{a}(t), \boldsymbol{a}(t+1)) \in {\cal C}\) 만족해야 합니다. 이러한 제약이 발생하는 이유는 루트맨이 매번 교환할 수 있는 상품의 수가 제한되어 있기 때문입니다. 이 제약 조건은 자동 판매기의 구색 최적화 문제를 특징으로 합니다.

이제 본 논문에서 연구된 구색 최적화 문제를 정의합니다.

구색 최적화 문제: 구색제약을 만족하고 시간 동안 총 이득을 최대화하는 정책을 찾는다. \(t=0, \ldots, T\).

또한 다음과 같은 특징으로 문제를 분류할 수 있습니다. 상태 공간은 에이전트(이 경우 루트 맨)에 대해 알려짐/알려지지 않음, 완전/불완전한 관찰, 이득 함수는 알려짐/알려지지 않음, 전환 확률은 알려짐/알려지지 않음. 예는 다음과 같습니다

  • 상점(편의점, 슈퍼마켓 등): 상태가 알려져 있고, 완전한 관찰이 가능하며, 이득 기능이 알려져 있습니다.
  • 자동 판매기: 상태가 알려짐(또는 알 수 없음), 불완전한 관찰, 이득 함수가 알려짐.

4. 제품 선택 모델

이득함수를 부여하기 위해 소비자의 제품 선택 모델을 소개한다. MNL 모델에 따르면 효용가치는 소비자가 선택 가능한 복수의 제품 중에서 하나를 선택할 확률을 나타낸다[10],[11]. 허락하다 \(P_{q_i, s_j, k}\) 소비자가 \(C_k\) 제품을 구매하려고 합니다 \(q_i\) 상태에서 \(s_j\). 소비자가 소비할 때의 효용가치 \(C_k\) 제품을 구매하려고 합니다 \(q_i\), 로 표시 \(V_{q_i, s_j, k}\)는 선형 회귀 모델로 제공됩니다.

\[\begin{equation*} V_{q_i, s_j, k} := \ln \frac{P_{q_i, s_j, k}}{P_{q_1, s_j, k}} = \alpha_i^{j, k} + \sum_l \beta_{i,l}^{j, k}Y_{l}^{j} \tag{1} \end{equation*}\]

우리가 제품을 가정하는 곳 \(q_1\) 참고사항입니다, \(\alpha_i^{j, k}\) 는 상수이고, \(\beta_{i,l}^{j, k}\) 각 설명 변수의 계수입니다. \(Y_{l}^j\). 그렇다면 소비자가 \(C_k\) 제품을 선택하다 \(q_i\) 상태에서 \(s_j\) ~에 의해 주어진다.

\[\begin{equation*} P_{q_i, s_j, k}=\frac{\exp(V_{q_i, s_j, k})}{\sum_{l=1}^n\exp(V_{q_l, s_j, k})} \tag{2} \end{equation*}\]

효용 가치와 선택 확률은 구색에 포함된 제품뿐만 아니라 구색에 포함되지 않은 제품에 대해서도 정의됩니다.

확률 방정식을 사용하여. (2) 제품의 구매 확률을 제공합니다. \(q_i\) 소비자마다. 허락하다 \(N\) 소비자의 수가되어 보자 \(X_i\) 제품의 판매량을 나타내는 확률변수를 나타냄 \(q_i\) 구색에 제한이 없습니다. 구매 확률 \(\Pr(X_i=r | s_j)\) 상태에서 \(s_j\) 포아송 이항 분포를 따릅니다[12]. 포아송 이항 분포는 다음과 같이 설명됩니다. 우리는 고려한다 \(N\) 독립적인 시행은 각각 고유한 성공 확률을 가지고 있습니다. 그러면 포아송 이항 분포는 성공 횟수의 이산 확률 분포입니다. \(N\) 재귀적으로 계산할 수 있는 시행

\[\begin{align} & \Pr(X_i=r | s_j) = \nonumber \\ & \left\{\begin{array}{ll} \displaystyle \prod^N_{k=1}(1-P_{q_i, s_j, k}) & \mbox{ if } r = 0 \\ \displaystyle \frac{1}{r}\sum^r_{l=1} (-1)^{l-1}\Pr(X_i=r-l | s_j)\Upsilon(l) & \mbox{ if } r > 0 \\ \end{array}\right. \tag{3} \end{align}\]

어디에 \(P_{q_i, s_j, k}\) 이는 Eq.로 정의됩니다. (2) 그리고

\[\begin{align} & \Upsilon(l)=\sum^N_{k=1}\left(\frac{P_{q_i, s_j, k}}{1-P_{q_i, s_j, k}}\right)^l, \nonumber \\ & \mbox{Expected value}:E[X_i | s_j]=\sum^N_{k=1}P_{q_i, s_j, k} \tag{4} \end{align}\]

다음으로 우리는 주어진 분류에 따른 확률을 고려합니다. 우리는 정적 대체를 가정합니다. 실제 판매금액부터 \(g_i\) 구색에 의해 제한되며 상태에 따른 확률은 \(s_j\) 그리고 구색 \(\boldsymbol{a}_h\) 다음과 같이 얻어집니다.

\[\begin{align} & \Pr(g_i=r | s_j, \boldsymbol{a}_h) = \nonumber\\ & \left\{\begin{array}{ll} 0 & \mbox{ if } r > \mathit{stk}(\boldsymbol{a}_h, q_i) \\ \\ \displaystyle \sum_{l = r}^N \Pr(X_i=l | s_j) & \mbox{ if } \ r = \mathit{stk}(\boldsymbol{a}_h, q_i) \\ \\ \Pr(X_i=r | s_j) & \mbox{ if } \ r < \mathit{stk}(\boldsymbol{a}_h, q_i) \\ \end{array}\right. \tag{5} \end{align}\]

용량 제약으로 인해 모든 경우 \(r \leq X_i \leq N\) 로 줄이다 \(X_i = r\). 또한, 국가에서 기대하는 보상은 \(s_j\) 그리고 구색 \(\boldsymbol{a}_h\) ~에 의해 주어진다.

\[\begin{equation*} \begin{array}{@{}l@{}} \displaystyle E[G(s_j, \boldsymbol{a}_h)] = \displaystyle \sum_{q_i \in \boldsymbol{a}_h} \min \{ \mathit{stk}(\boldsymbol{a}_h, q_i), E[X_i | s_j] \}\\ \end{array} \tag{6} \end{equation*}\]

예상 매출의 이론적 상한을 도출할 수 있습니다. 에이전트가 상태를 명시적으로 알고 있는 경우 \(s(t)\) 그 시간에 자동판매기에서 \(t\), 에이전트는 전체 구색 집합 중 적절한 구색을 선택하여 예상 총 매출을 최대화할 수 있습니다. \(\boldsymbol{A}\). 각 시점별 기대매출 상한선은 다음과 같습니다. \(t\), 구색 제약을 고려하지 않고.

\[\begin{equation*} E^{\mathit{Upper\:bound}}_t = \max_{\boldsymbol{a}(t) \in A}E[G(s(t), \boldsymbol{a}(t-1))] \tag{7} \end{equation*}\]

구색 제약에 따라 시간에 따른 구색 선택 \(t\) 시간의 구색에 의해 제한됩니다. \(t - 1\). 우리는 고려한다 가능한 최대값 구색제약 하에서 기대되는 판매량. 허락하다 \(\boldsymbol{a}_l\), \(\boldsymbol{a}_m\) 두 가지 구색으로 만들어서 \({\cal C}(\boldsymbol{a}_l, \boldsymbol{a}_m)\) 다음과 같은 부울 변수를 나타냅니다. \({\cal C}(\boldsymbol{a}_l, \boldsymbol{a}_m) = 1\) if \((\boldsymbol{a}_l, \boldsymbol{a}_m) \in {\cal C}\) 그렇지 않으면 0입니다. 그러면 그때그때의 구색제약을 고려한 기대매출액 \(t\) ~에 의해 주어진다.

\[\begin{align} &E_t(\boldsymbol{a}(0), \ldots, \boldsymbol{a}(t -1)) = \nonumber \\ &\left( \prod_{i = 1}^{t - 1}{\cal C}(\boldsymbol{a}(i-1), \boldsymbol{a}(i)) \right) \cdot E[G(s(t), \boldsymbol{a}(t-1))] \tag{8} \end{align}\]

그리고 매번 가능한 최대값 \(t\) is

\[\begin{equation*} E^{\mathit{Feasible\:max}}_t = \max_{\boldsymbol{a}(0), \ldots, \boldsymbol{a}(t-1) \in \boldsymbol{A}} E_t(\boldsymbol{a}(0), \ldots, \boldsymbol{a}(t-1)) \tag{9} \end{equation*}\]

분명히, \(E^{\mathit{Feasible\:max}}_t \leq E^{\mathit{Upper\:bound}}_t\) 보류.

5. POMDP로 제형화

Kaelbling et al. [13], 우리는 주어진 정책 세트에서 좋은 분류 정책을 선택하는 POMDP 기반 방법을 제안합니다. POMDP는 상태를 부분적으로 관찰할 수 있는 상황을 다루는 확률론적 프로세스이며 이러한 관찰이 반드시 마르코프 프로세스를 만족하지는 않습니다.

5.1 POMDP

POMDP는 세계와 동기적으로 상호 작용하는 에이전트 모델입니다. 개별 세트가 주어지면 \(Z\), 허락하다 \(\Pi(Z)\) 에 대한 모든 이산 확률 분포 세트를 나타냅니다. \(Z\). 공식적으로 POMDP는 튜플로 정의됩니다. \(POMDP = (\mathit{St}, \mathit{Act}, \Delta, \mathit{Rw}, \Omega, \mathit{Obs})\)어디로 \(\mathit{St}\) 유한한 상태 집합입니다. \(\mathit{Act}\) 행동의 유한한 집합이다. \(\Delta: \mathit{St} \times \mathit{Act} \to \Pi(\mathit{St})\) 상태 전이 함수이고, \(\mathit{Rw} : \mathit{St} \times \mathit{Act} \to \mathbb{R}\) 보상 함수는, \(\Omega\) 관측치의 유한 집합이고, \(\mathit{Obs} : \mathit{St} \times \mathit{Act} \to \Pi(\Omega)\) 관찰 기능이다. 관찰함수를 통해 상태를 추정해야 하므로 Kaelbling의 방법은 믿음. 신념은 현재의 상태를 나타내는 변수로, 관찰의 이력을 통해 추정된다. 각 시간 단계에서 에이전트는 믿음에 따라 기대되는 보상을 최대화하는 행동을 선택합니다. 정책은 에이전트의 동작에 대한 설명입니다. 에이전트가 자판기의 현재 상태 중 일부를 인식할 수 없는 경우에 초점을 맞추기 때문에 해결 방법의 프레임워크로 POMDP를 채택합니다. 그러나 제안된 모델은 자동 판매기의 구색 최적화 문제에 맞게 원래 POMDP에서 사용자 정의되었습니다.

5.2 AOP를 위한 POMDP 모델

구색 최적화 문제에 대한 POMDP 모델은 다음과 같이 설명됩니다.

(1) 상태

의 상태 집합 \(POMDP\) 는 상태의 집합으로 주어진다. \(AOP\). 당시의 상태 \(t\) 로 표시됩니다 \(s(t)\).

(2) 액션

에이전트는 루트맨입니다. 시간에 주어진 행동 \(t\) 구색이다 \(\boldsymbol{a}(t)\) 교환 후.

(3) 상태 전이 확률

시간에 따른 상태 전이 확률 \(t\)\(t+1\) 로 표시됩니다 \(\delta(t, s(t), s(t+1))\). 우리는 분류가 상태 전환에 영향을 미치지 않으며 상태 전환 확률이 시간에 불변이라고 가정합니다. 그래서 우리는 확률을 다음과 같이 표시합니다. \(\delta(s(t+1) | s(t))\). 우리는 상태 전환 확률을 정의합니다. \(n\) 시간 단계는 다음과 같이 표시됩니다. \(\delta^n\)에 의해 \(\delta^1(s'|s) := \delta(s'|s)\) and

\[\begin{align} \delta^n(s'|s) := \sum_{s'' \in S}\delta^{n - 1}(s'|s'')\delta(s''|s) \tag{10} \end{align}\]

(4) 관찰과 보상

가능한 관찰 상태 \(o(t)\) 판매 벡터 \(\boldsymbol{g}(t) = [g_1(t), \cdots, g_n(t)]\) 시간에 \(t\) 상태에 따라 확률적으로 주어진다. \(s(t)\) 그리고 구색 \(\boldsymbol{a}(t-1)\). 한다고 가정 \(\boldsymbol{g}(t)=[r_1, \ldots, r_n]\). 그러면 확률은 다음과 같이 주어진다.

\[\begin{align} & {\cal O}(s(t), \boldsymbol{a}(t-1), o(t), \boldsymbol{g}(t))\nonumber\\ & := \Pr(o(t), \boldsymbol{g}(t) | s(t), \boldsymbol{a}(t-1)\nonumber)\\ & = \prod^n_{i=1}\Pr(o(t), g_i(t)=r_i | s(t), \boldsymbol{a}(t-1)) \tag{11} \\ & = \prod^n_{i=1}\Pr(g_i(t)=r_i | s(t), \boldsymbol{a}(t-1))\nonumber \end{align}\]

마지막 평등은 다음과 같은 사실에서 비롯됩니다. \(o(t)\) 에서 고유하게 결정됩니다. \(s(t)\) 섹션에 설명된 대로. 3(4), 즉 관찰은 일부 하위 상태를 가립니다. \(\Pr(g_i(t)=r_i | s(t), \boldsymbol{a}(t-1))\) 식으로 계산됩니다. (5).

시간에 \(t\), 에이전트는 가능한 관찰된 상태를 얻습니다. \(o(t)\) 그리고 매출 \(g_i(t)\) 각 제품의 \(q_i\). 제품의 총 판매량이 보상으로 간주됩니다. 허락하다 \(\mathit{rw}(t)\) 시간에 따른 보상을 나타냄 \(t\). 그때 \(\mathit{rw}(t) := G(s(t), \boldsymbol{a}(t - 1)) = \sum_{q_i \in \boldsymbol{a}(t - 1)} g_i(t)\).

5.3 신념과 정책

믿음은 함수로 표현된다 \(b : S \to \mathbb{R}\) 그렇게 \(0 \leq b(s) \leq 1\) and \(\sum_{s_j \in S}b(s_j) = 1\). 허락하다 \(b_t\) 당시의 믿음을 나타냄 \(t\). 각 주마다 \(s \in S\), \(b_t(s)\) 에이전트가 믿는 힘입니다. \(s (t)=s\). 구색 교환 정책은 구색을 매번 제공하는 기능입니다. 우리는 정책이 \(\pi\) 최신 상태에만 의존 \(s(t)\), 관찰된 값 \(o(t)\), 그리고 최신 제품 \(\boldsymbol{a}(t - 1)\). 또한 에이전트는 유한한 정책 집합에서 하나의 정책을 선택할 수 있다고 가정합니다. \(\Pi := \{\pi^1, \ldots, \pi^M\}\).

그때마다 구색 교환에 대한 정책은 현재의 신념에 따라 결정됩니다. 믿음이 주어지면 \(b_{t-1}\) 시간에 \(t-1\), 그 믿음은 \(s(t)=s^\prime\) 관찰된 상태에서 \(o(t)\) 그리고 매출 \(\boldsymbol{g}(t)\) ~에 의해 주어진다.

\[\begin{align} & b_{t}(s^\prime)=\Pr(s^\prime|o(t), \boldsymbol{a}(t-1), \boldsymbol{g}(t), b_{t-1}) \nonumber \\ & =\frac{\Pr(o(t), \boldsymbol{g}(t)|s^\prime, \boldsymbol{a}(t-1), b_{t-1})\Pr(s^\prime|\boldsymbol{a}(t-1), b_{t-1})}{\Pr(o(t), \boldsymbol{g}(t)|\boldsymbol{a}(t-1), b_{t-1})} \nonumber \\ & =\frac{\Pr(o(t), \boldsymbol{g}(t)|s^\prime, \boldsymbol{a}(t-1))}{\Pr(o(t), \boldsymbol{g}(t)|\boldsymbol{a}(t-1),b_{t-1})} \nonumber \\ & \ \ \ \ \times \sum_{s\in S}\Pr(s^\prime|\boldsymbol{a}(t-1), b_{t-1}, s)\Pr(s|\boldsymbol{a}(t-1),b_{t-1}) \nonumber \\ & =\frac{{\cal O}(s^\prime, \boldsymbol{a}(t-1), o(t), \boldsymbol{g}(t))}{\Pr(o(t), \boldsymbol{g}(t)|\boldsymbol{a}(t-1),b_{t-1})} \times \sum_{s\in S}\delta(s^\prime| s)b_{t-1}(s) \tag{12} \end{align}\]

분모는 어디에 \(\Pr(o(t), \boldsymbol{g}(t)|\boldsymbol{a}(t-1),b_{t-1})\) 정규화 요소로 처리할 수 있습니다.

5.4 정책 결정 절차

시기별 구색교환 전략을 결정하는 절차를 설명합니다. \(t\).

시간에 \(t=0\), 우리는 \(s(0)=s_j\) 모든 가능한 상태에 대해 동일한 가능성이 있음 \(s_j \in S\). 다시 말하면 믿음은 \(b_0(s(0))\) is \(b_0(s_1) = b_0(s_2) = \dots = b_0(s_v)=\frac{1}{v}\). 시간에 \(t>0\), 관찰된 값 \(o(t)\) 그리고 매출 \(\boldsymbol{g}(t)\) 획득됩니다. 방정식을 사용하여. (12), 우리는 다음과 같이 믿음을 업데이트합니다.

\[\begin{align} b_t(s_j)= {\cal O}(s_j, \boldsymbol{a}(t-1), o(t), \boldsymbol{g}(t)) \times \sum_{s\in S}\delta(s_j|s)b_{t-1}(s) \tag{13} \end{align}\]

업데이트 후, \(b_t\) 정규화되어 있으므로 \(\sum_{s_j \in S}b_t(s_j) = 1\).

구색 교환 정책 \(\pi_t^{k_0}(k_0=1, \ldots, M) \in \Pi\) 미래에 얻을 것으로 예상되는 보상에 따라 결정됩니다. 먼저, 보상의 기대가치를 고려합니다. \(\mathit{rw}(t+1)\) 시간에 \(t+1\). 경우에 \(\pi_t^{k_0}: \boldsymbol{a}(t-1) \rightarrow \boldsymbol{a}^{k_0}(t)\) 선택하면 그 시점에 예상되는 보상 \(t+1\) 다음과 같이 주어진다:

\[\begin{aligned} & E_{\pi_t^{k_0}}[\mathit{rw}(t+1)] =\\ & \ \ \ \ \ \ \ \ \sum_{s^\prime \in S}\left\{\sum_{s \in S}\delta(s^\prime|s)b_t(s)\right\}E[G(s^\prime, \boldsymbol{a}^{k_0}(t))]. \end{aligned}\]

다음으로, 우리는 다음과 같은 경우를 고려합니다. \(\pi_{t+1}^{k_1} ({k_1}=1, \ldots, M)\) 시간에 선택됩니다 \(t+1\). 보상의 기대가치 \(\mathit{rw}(t+2)\) 각 분류에 대해 계산됩니다. \(\boldsymbol{a}^{k_0}(t), \boldsymbol{a}^{k_1}(t+1)\). 시간에 따른 구색을 참고하세요 \(t + 1\) 그때그때의 구색에 따라 다름 \(t\) 분류의 제약 때문입니다.

\[\begin{aligned} & E_{\pi_t^{k_0} \cdot \pi_{t+1}^{k_1}}[\mathit{rw}(t+2)]=\\ & \ \ \ \ \ \ \ \ =\sum_{s^\prime \in S}\left\{\sum_{s \in S}\delta^2(s^\prime|s) b_t(s)\right\}E[G(s^\prime, \boldsymbol{a}^{k_1}(t+1))]. \end{aligned}\]

마찬가지로 시간에 \(t+\tau\: (\tau>0)\), 우리는 다음과 같이 보상의 기대값을 얻을 수 있습니다.

\[\begin{aligned} & E_{\pi_t^{k_0} \cdots \pi_{t+\tau-1}^{k_{\tau-1}}}[\mathit{rw}(t+\tau)]= \\ & \sum_{s^\prime \in S}\left\{\sum_{s \in S}\delta^\tau(s^\prime|s) b_t(s)\right\}E[G(s^\prime, \boldsymbol{a}^{k_{\tau-1}}(t+\tau-1))]. \end{aligned}\]

따라서 우리는 정책이 시행될 때 미래에 기대되는 최대 보상을 계산할 수 있습니다. \(\pi_t^{k_0}\) 시간에 선택됩니다 \(t\). 정책이 실행될 때 \(\pi_t^{k_0}\) 선택하면 총 예상 보상 \(E_{t \rightarrow t+\tau}(\pi_t^{k_0})\) 의 합으로 계산됩니다. \(t+1\)\(t+\tau\). POMDP에서는 평소와 같이 최근 보상을 보다 효과적으로 만들기 위해 미래 예상 보상에 할인율을 곱합니다. \(\gamma (0<\gamma<1)\).

\[\begin{align} & E_{t \rightarrow t+\tau}(\pi_t^{k_0}) \nonumber \\ & = E_{\pi_t^{k_0}}[\mathit{rw}(t+1)] + \gamma\max_{\pi_{t+1}^{k_1} \in \Pi} \biggl\{ E_{\pi_t^{k_0} \cdot \pi_{t+1}^{k_1}}[\mathit{rw}(t+2)] \nonumber \\ & \ \ + \gamma\max_{\pi_{t+2}^{k_2} \in \Pi} \biggl\{ E_{\pi_t^{k_0} \cdot \pi_{t+1}^{k_1} \cdot \pi_{t+2}^{k_2}}[\mathit{rw}(t+3)] + \gamma\max_{\pi_{t+3}^{k_3} \in \Pi} \biggl\{ \nonumber \\ & \ \ \cdots + \gamma\max_{\pi_{t+\tau-1}^{k_{\tau-1}} \in \Pi}\left\{E_{\pi_t^{k_0} \cdots \pi_{t+\tau-1}^{k_{\tau-1}}}[\mathit{rw}(t+\tau)]\right\} \cdots \biggr\}\biggr\}\biggr\} \tag{14} \end{align}\]

자동 판매기에서는 먼 미래의 예상 판매량이 그다지 중요하지 않으므로 유한한 범위 내에서 보상을 고려합니다.

위의 절차에 따라 총 기대 보상을 얻습니다. \(E_{t \rightarrow t+\tau}(\pi_t^1), \ldots, E_{t \rightarrow t+\tau}(\pi_t^M)\) 정책에 의해 \(\pi_t^1, \ldots, \pi_t^M\). 그렇다면 구색교환 정책은 \(\pi_t\) 기대되는 보상을 최대화하는 것으로 결정됩니다.

\[\begin{align} \pi_t = \mathop{\rm arg~max}\limits_{\pi_t^{k_0} \in \Pi} E_{t \rightarrow t+\tau}(\pi_t^{k_0}) \tag{15} \end{align}\]

6. 컴퓨터 시뮬레이션

본 절에서는 자동판매기 구색 최적화 문제의 컴퓨터 시뮬레이션을 통해 얻은 수치 결과를 보여줍니다.

6.1 매개변수 및 가정

시뮬레이션에 대한 매개변수와 몇 가지 가정을 보여줍니다.

(1) 소비자

자판기에서 제품을 구매하는 소비자에 대한 간단한 가정을 소개한다. 각 소비자는 여러 가지 속성(성별, 연령, 직업 등)을 갖고 있으며, 제품 선택에 대한 선호도는 확률적으로 이러한 속성과 현재 상태에 따라 달라집니다. 시간에 \(t\), \(N\) 소비자가 자동판매기에서 제품을 구매하려고 합니다. 가정하자 \(k\)-번째 소비자 \(C_k (k = 1, \ldots, N)\) 다음 중 하나를 구매하려고 합니다. \(n\) 제품의 종류. 제품은 소비자가 \(C_k\) 구매 시도는 확률적으로 결정됩니다. 소비자의 속성에 따라 확률이 결정된다고 가정합니다. \(C_k\) 그리고 자동판매기의 상태 \(s(t)\). 구매하려는 제품이 구색에 포함되어 있는 경우 \(\boldsymbol{a}(t)\) 재고가 충분하면 소비자는 \(C_k\) 그것을 구입합니다. 그렇지 않은 경우(매진된 경우 포함) 소비자는 구매하지 않습니다. 즉, 정적 대체를 가정합니다.

컴퓨터 시뮬레이션에서 우리는 소비자의 속성이 성별(남성 또는 여성)뿐이라고 가정합니다. 다른 조건과 속성은 고려되지 않습니다.

(2) 대리인

대리점은 자판기에 제품을 보충하고 재량에 따라 제품을 교환할 수 있습니다. 에이전트는 다음 보충 작업에서 각 분류에 대한 판매를 확인합니다. 시뮬레이션에서는 에이전트가 상태 간 전환 확률을 포함한 모든 속성과 매개변수를 알고 있다고 가정합니다. 에이전트는 현재 상태에 대한 전체 정보를 알 수 없으며 관찰 기록에서 이를 믿음으로 추정합니다. 에이전트는 그 믿음을 바탕으로 다음 정책을 선택합니다.

(3) 자동판매기 상태

원래 자판기의 상태에는 많은 매개변수와 요인이 있다고 볼 수 있습니다. 상태는 관찰 가능한 상태와 관찰 불가능한 상태의 두 가지 유형으로 분류할 수 있습니다. 이 시뮬레이션에서는 위치, 온도, 성별 비율이라는 세 가지 상태를 고려합니다. 위치는 관찰 가능하며 사무실, 실외, 학교의 세 가지 유형으로 분류됩니다. 온도는 자동 판매기의 외부 요인입니다. 관찰 가능하며 다음 중 하나에서 선택됩니다. \(\{high, middle, low\}\) 매번. 성별비는 자판기 내부 요소로, 자판기에서 구매하려는 소비자 중 남성과 여성의 비율을 의미한다. 시뮬레이션에서는 세 가지 패턴이 가정됩니다. \(\{8:2, 5:5, 2:8\}\). 비율은 매번 그 중 하나에서 선택됩니다. 비율은 관찰할 수 없으며 에이전트에 알릴 수도 없습니다. 자동 판매기 상태의 이미지는 그림 1에 나와 있습니다.

Fig. 1  자동판매기 상태.

(4) 제품 및 구색

모든 제품의 모양과 가격은 동일하며, 한 열에 보충할 수 있는 제품 개수도 동일합니다. 구색에 포함될 수 있는 제품은 10가지입니다. \(\mathsf{A}, \ldots, \mathsf{J}\). 자동 판매기에는 6개의 열이 있으며 각 열의 용량은 모든 종류의 제품에 대해 20개입니다. 동일한 종류의 제품을 여러 열에 할당하는 것이 가능합니다. 그림 2는 구색과 재고를 보여줍니다.

Fig. 2  제품 및 구색.

(5) 제품의 선택 확률

시뮬레이션에서 효용가치는 \(V_{q_i, s_j, k}\) 제품의 \(q_i \in \{\mathsf{A}, \ldots, \mathsf{J}\}\)\(k\)- 상태의 두 번째 소비자 \(s_j\) 다음과 같이 정의됩니다.

\[\begin{aligned} V_{q_i, s_j, k} &= V_{q_i}^0+V_{q_i}^M+\beta_{q_i}^M T_j \ \ \ \ \mbox{for male},\\ V_{q_i, s_j, k} &= V_{q_i}^0+V_{q_i}^F+\beta_{q_i}^F T_j \ \ \ \ \mbox{for female}. \end{aligned}\]

어디에 \(V_{q_i}^0\) 는 성별에 무관한 효용가치의 상수이고, \(V_{q_i}^M / V_{q_i}^F\) 성별에 따른 상수입니다. \(\beta_{q_i}^M / \beta_{q_i}^F\) 성별에 따른 계수이고, \(T_j\) 상태의 온도 매개변수입니다. \(s_j\)같은 \(high \rightarrow 1\), \(middle \rightarrow 0\), \(low \rightarrow -1\).

이러한 매개변수는 위치 및 제품의 특성에 따라 결정됩니다.2. 각 제품은 COLD, HOT 속성을 갖는 음료 종류(커피, 녹차 등)로 분류되며, 각 제품의 특성이 매개변수 값에 반영됩니다.3. 매개 변수 \(V_{q_i}^0\) 위치와는 무관하지만 \(V_{q_i}^M, V_{q_i}^F, \beta_{q_i}^M, \beta_{q_i}^F\) 위치의 특성에 따라 결정됩니다. \(\beta_{q_i}^M, \beta_{q_i}^F\) 는 유틸리티 값에 대한 온도 기여 계수입니다. 이 값이 양수이면 온도가 상승함에 따라 해당 제품이 판매되기 쉬워진다는 것을 나타냅니다. 본 논문의 시뮬레이션을 위해 채택한 매개변수 값은 표 1-3에 나와 있습니다.

표 1  유틸리티 가치 매개변수: 사무실.

표 2  유틸리티 가치 매개변수: 실외.

표 3  효용가치의 매개변수: 학교.

다항 로짓 모델의 매개변수 추정은 분류 최적화와 독립적으로 수행될 수 있습니다. 시뮬레이션에서는 다음과 같은 방법으로 결정된 매개변수에 대해 인위적인 값을 사용합니다. 여름/겨울, 실내/실외, 남성용/여성용 등 다양한 실제 제품을 먼저 살펴봅니다. 다음으로 우리는 질적 관점에서 합리적으로 보이는 각 매개변수에 값을 할당합니다.

(6) 전환 확률

전환 확률 \(\delta(s(t+1)|s(t))\) 위치의 특성에 따라 결정됩니다. 그러나 성별 비율과 온도의 변화는 모든 위치에서 독립적이라고 가정합니다. 실외에서는 성별 비율이 다른 상태로 전이될 확률이 크기 때문에 비율의 변화가 커진다. 학교에 있는 동안에는 변동이 작다고 생각하기 때문에 현재 상태에 머무를 확률이 높아집니다. 재임 확률은 중간값으로 채택됩니다. 시뮬레이션을 위한 매개변수 값은 표 4, 5에 나와 있습니다.

표 4  성별 비율의 전환 확률.

표 5  온도의 전환 확률.

다항 로짓 모델의 매개변수와 유사하게 상태 전이 확률은 경험적 데이터로부터 추정되어야 합니다. 그러나 여기서는 확률이 이미 알려져 있다고 가정합니다. 본 논문에서는 모든 매개변수 값을 알고 있는 경우 제안된 접근 방식이 작동함을 보여주는 것을 목표로 합니다. 이것이 사실이 아니라면 모델에 알려지지 않은 요인에 대한 추정을 통합하는 것은 의미가 없습니다. 구색 최적화 과정에서 알려지지 않은 요소를 추정하는 것은 향후 과제로 남아 있습니다.

(7) 정책

이 시뮬레이션에서는 정책 세트를 정의합니다. \(\Pi\) 포함 \(M=8\) 분류 제약은 이러한 모든 정책을 허용하는 가장 엄격한 제약입니다.

표 6  정책 세트 \(\Pi\).

6.2 모델과 평가

제안된 모델을 평가하고 비교하기 위해 기본 모델과 비교 모델을 사용했습니다. 기준선으로 이론적 상한 Eq를 계산했습니다. (8) 및 실현 가능한 최대값 Eq. (9). 우리는 모든 시간 단계에 대해 고정된 동작을 사용하는 경험적 접근 방식으로 비교 모델을 채택했습니다.

  • 조치 수정 \(= 0\): 초기 구색을 남겨주세요(6개 제품) \(\mathsf{A}, \ldots, \mathsf{F}\)) 전혀 변함이 없습니다.
  • 조치 수정 \(= 1, 2, 7\): 정책을 선택하세요 \(\pi^1, \pi^2, \pi^7\) 모든 시간 단계에 대해. 이 경우 에이전트는 자동판매기의 성별 비율이 일정하다고 간주한다고 가정합니다. \(\{5:5\}\) 초기 상태에서. 다른 정책에 비해 낮은 성과를 보였기 때문에 \(\pi^1, \pi^2, \pi^7\), 우리는 그래프와 표를 통해 이러한 정책을 선택했습니다.

곤충. 5, 총 예상 보상을 계산합니다. \(E_{t \rightarrow t+\tau}(\pi_t^{k_0})\) 매번 \(t\) 식으로 (14), 여기서 \(\tau\) 미래 시간 단계의 길이입니다. 시뮬레이션에서 우리는 정책 결정 Eq.에서 다음과 같은 세 가지 제안 모델을 설정했습니다. (15):

  • 제안된 모델 \({\cal M}_1\): \(E_{t \rightarrow t+1}(\pi_t^{k_0})\)  \((\tau=1)\).
  • 제안된 모델 \({\cal M}_2\): \(E_{t \rightarrow t+2}(\pi_t^{k_0})\)  \((\tau=2)\).
  • 제안된 모델 \({\cal M}_3\): \(E_{t \rightarrow t+3}(\pi_t^{k_0})\)  \((\tau=3)\).
6.3 결과

2개의 기준선, 4개의 비교 모델, 3개의 제안 모델에 대해 50개 위치에서 각각 3번의 시뮬레이션을 수행했습니다. 각 시뮬레이션의 길이는 20단계이며, 소비자 수는 \(N = 100\) 그리고 할인율은 \(\gamma=0.9\) 방정식에서. (14). 컴퓨터 환경은 Macbook Pro 15인치, CPU 2.2GHz 6cores intel Core i7, RAM 16GB, Python 3.6.13입니다. 한 시뮬레이션의 실행 시간은 약 XNUMX분이었습니다(\({\cal M}_1\)), 10 분 (\({\cal M}_2\)), 260분(\({\cal M}_3\)). 실외에서의 시뮬레이션 결과의 예는 그림 3에 나와 있습니다.4.

Fig. 3  시뮬레이션의 예.

표 7, 8, 9는 각 모델에 대한 50번의 시뮬레이션에서 "sales"와 "sold out"을 요약한 것입니다. 여기서는 상품을 구매하고 싶었지만 품절로 인해 구매하지 못한 소비자 수에 대해 '품절' 건수를 항목에 포함시켰습니다.

표 7  사무실 결과 요약입니다.

표 8  야외 결과 요약.

표 9  학교 결과 요약.

이 표에서 모델 구색 개선 효율성은 "Sales(Ave.)/UB"로 평가되며, 여기서 UB는 이론적 상한입니다. 이는 예상 판매 가치가 상한선에 얼마나 가까운지 비율을 의미합니다. 모든 위치에서 '타당성 있는 최대값' 비율은 거의 100%에 가깝습니다. 이는 에이전트가 미래의 모든 상황을 알고 있고, 그 정보를 바탕으로 가장 좋은 상품 교환을 할 수 있다면 에이전트가 얻을 수 있는 기대 매출은 거의 상한에 가깝다는 것을 의미합니다.

비교 모델에서는 수정 조치의 비율 \(=0\) 65~85% 정도이고 수정 조치의 경우 \(=1, 2, 7\) 각 위치의 약 90%입니다. 반면 제안모델 1~3의 비율은 모든 장소에서 90%를 넘으며, 특히 사무실과 학교에서는 92~94%의 비율을 보이고 있다. 따라서 제안모델은 비교모델에 비해 매출향상에 효과적이라는 결론을 내릴 수 있다. 또한 학교처럼 상태 전이의 상태 확률이 작은 경우 미래 ​​시간 단계에 따라 성능이 증가하는 것을 관찰합니다. \(\tau\) 추정치 증가합니다. 그러나 개선 정도는 그리 크지 않습니다. 사무실 및 야외용, \(\tau = 1\) 충분해 보입니다.

7. 토론

제안된 모델이 제대로 작동한다면 매출이 상한선에 근접할 것으로 예상됩니다. 제안된 모델의 가능한 개선 중 하나는 \(\tau\) 방정식에서. (14), 즉 예상 보상을 합산하기 위한 미래 시간 단계입니다. 이 논문에서 우리는 \(\tau=1, 2, 3\)그러나 우리는 매출이 증가하여 상한선에 접근할 것으로 예상합니다. \(\tau\)\(4, 5, \ldots\). 그러나 \(\tau\) 증가하면 계산해야 하는 상태의 수가 기하급수적으로 증가합니다. 이러한 이유로 우리는 더 큰 숫자를 사용하려고 시도할 수 없었습니다. \(\tau\) 시뮬레이션에서. 정책 유형과 패턴을 늘리는 등 개선을 위한 다른 방법도 있습니다.

다음으로 제안된 모델이 보다 효과적으로 수행되는 조건을 고려합니다. 조건에는 제품 및 열의 수가 충분히 큰 경우가 포함될 수 있습니다. 그 수가 적으면 구색이 즉시 최적의 구색에 도달하므로 미래 추정의 효과가 감소하기 때문입니다. IoT 기기가 부재하고 현재 판매 데이터를 실시간으로 얻을 수 없는 경우, 제한된 데이터를 기반으로 현황을 추정하고 재고 보충 및 분류 교환에 대한 정확한 계획을 세워야 합니다. 이 경우 제안된 방법은 합리적이고 효과적이다. 자판기 환경과 소비자 선호도가 자주 변하는 상황에서, 과거 판매 이력을 기반으로 한 수요 예측 방식으로는 변화를 따라잡을 수 없습니다. 제안한 방법은 현재 상태에 적응적으로 작동하기 때문에 이러한 경우에도 잘 작동한다.

반면, 덜 효과적인 경우 중 하나는 최적의 구색이 환경과 소비자 선호도에 따라 크게 다르지 않다는 것입니다. 그러한 경우, 미래 기대 보상 계산이 반드시 잘 작동하는 것은 아닙니다.

연구해야 할 또 다른 문제가 있습니다. 제안된 모델에서는 상태가 부분적으로 관찰 가능하지만 에이전트는 소비자 효용 가치와 자판기 상태의 전환 확률에 대한 자세한 정보를 알고 있습니다. 실제 상황에서는 알 수 없는 정보일 수 있으므로 과거 관측 이력을 통해 추정해야 합니다. 이 요소를 모델에 통합하는 것은 향후 작업으로 남아 있습니다.

본 논문에서 살펴본 것은 제안한 방법이 단순 정책보다 성능이 뛰어난 경우가 있다는 것입니다. 물론, 매개변수 값이 변경되면 결과도 변경됩니다. 그러나 위의 논의에서 우리는 다음과 같은 속성이 유지된다고 주장할 수 있습니다. 단순한 정책에 비해

  • 제품의 다양성이 증가하면 POMDP 기반 방법이 잘 작동합니다.
  • 상태 변경의 변동성이 증가하면 POMDP 기반 방법이 잘 작동합니다.

8. 결론

우리는 작업자가 적절한 제품 구색을 계획할 수 있도록 하는 자판기 구색 최적화 모델을 제안했습니다. 몇 가지 가정과 수치 매개변수를 사용한 모델 시뮬레이션에서 휴리스틱 방법에 비해 매출이 최대 2~3포인트(이론적 상한에 대한 백분율 비율로) 향상되었습니다. 제안된 모델은 동일한 조건에서 휴리스틱 방법보다 성능이 뛰어납니다. 그 결과, 예상되는 미래 보상에 대한 추정의 유효성을 확인했습니다.

남은 작품이 여러 개 있습니다. 첫째, 다양한 조건(제품수, 컬럼수, 재고수, 소비자수 등)에서 시뮬레이션 실행 효과를 검증하는 것이 필요하다. 또한 모델을 실제 구색 문제에 더 가깝게 만들기 위해 에이전트가 아는 정보가 제한적인 경우까지 공식화를 진행합니다.

참고문헌

[1] S.A. Smith and N. Agrawal, “Management of multi-item retail inventory systems with demand substitution,” Operations Research, vol.48, no.1, pp.50-64, 2000.
CrossRef

[2] P. Rusmevichientong, Z.J.M. Shen, and D.B. Shmoys, “Dynamic assortment optimization with a multinomial logit choice model and capacity constraint,” Technical Report, 2008.

[3] V. Gaur and D. Honhon, “Assortment planning and inventory decisions under a locational choice model*,” Technical Report, 2005.

[4] R. Chan, Z. Li, and D. Matsypura, “Assortment optimisation problem: A distribution-free approach,” Omega, vol.95, 102083, June 2019.
CrossRef

[5] A.G. Kök and M.L. Fisher, “Demand estimation and assortment optimization under substitution: Methodology and application,” Operations Research, vol.55, no.6, pp.1001-1021, 2007.
CrossRef

[6] K.J. Lancaster, “A new approach to consumer theory,” The Journal of Political Economy, vol.74, no.2, pp.132-157, 1966.
CrossRef

[7] D.L. McFadden, “Conditional logit analysis of qualitative choice behavior,” Frontiers in Econometrics, vol.8, pp.105-142, 1973.

[8] H.C.W.L. Williams, “On the formation of travel demand models and economic evaluation measures of user benefit,” Environment and Planning A: Economy and Space, vol.9, no.3, pp.285-344, 1977.
CrossRef

[9] R. Anupindi, M. Dada, and S. Gupta, “Estimation of consumer demand with stock-out based substitution: An application to vending machine products,” Marketing Science, vol.17, no.4, pp.406-423, Nov. 1998.
CrossRef

[10] R.D. Luce, Individual Choice Behavior, John Wiley, Oxford, England, 1959.

[11] O. Elshiewy, D. Guhl, and Y. Boztug, “Multinomial logit models in marketing ― From fundamentals to state-of-the-art,” Marketing ZFP, vol.39, no.3, pp.32-49, 2017.
CrossRef

[12] X.-H. Chen, A.P. Dempster, and J.S. Liu, “Weighted finite population sampling to maximize entropy,” Biometrika, vol.81, no.3, pp.457-69, 1994.
CrossRef

[13] L.P. Kaelbling, M.L. Littman, and A.R. Cassandra, “Planning and acting in partially observable stochastic domains,” Artificial Intelligence, vol.101, no.1-2, pp.99-134, 1998.
CrossRef

각주

1. 다중집합(Multiset): 같은 값의 원소가 여러 개 포함되어 있을 때 얼마나 많은 원소가 포함되는지에 대한 중복 정도를 합친 집합의 개념. \(\# X[e]\) 의 수를 나타냅니다. \(e\) 여러 세트에 포함되어 있습니다 \(X\). 우리는 \(e \in X\) if \(\# X[e] > 0\).
2. 이러한 매개변수의 값은 공간 제한으로 인해 생략되었습니다.
3. 예를 들어 남성의 경우 커피의 효용가치가 높고, 기온이 높아질수록 COLD 제품의 판매가 늘어나는 등의 현상이 나타나고 있습니다.
4. 그림 3에서는 제안된 모델의 판매량이 일부 시점에서 이론 상한치를 초과하는 경우가 있다. 이는 제안된 모델의 매출은 각 시점에서 확률적 시뮬레이션을 통해 계산되고, 이론적 상한의 매출은 매출 기대치를 합산하기 때문이다. 따라서 제안된 모델은 50번의 시뮬레이션을 통해 전체 매출의 평균값으로 평가된다.

작성자

Gaku NEMOTO
  Japan Advanced Institute of Science and Technology

received the B. S. degree in physics from Tohoku University in 2000, the M. S. degree in physics from Chiba University in 2002, and the M. S. degree in information science from Japan Advanced Institute of Science and Technology (JAIST) in 2017. He is currently a Ph.D. student at JAIST. He joined Intage Technosphere Inc., Tokyo, Japan in 2002 and has been engaged in developments of information systems applied forecasting, optimization, and machine learning. His research interests include applications of machine learning and optimization for industry.

Kunihiko HIRAISHI
  Japan Advanced Institute of Science and Technology

received from the Tokyo Institute of Technology the B. E. degree in 1983, the M. E. degree in 1985, and D. E. degree in 1990. He is currently a professor at School of Information Science, Japan Advanced Institute of Science and Technology. His research interests include discrete event systems and formal verification. He is a member of the IEEE, IPSJ, and SICE.

키워드