RLHF · PBRL | 發現部分 D4RL tasks 不適合做 offline reward learning 的 benchmark

論文題目：Benchmarks and Algorithms for Offline Preference-Based Reward Learning，TMLR 20230103 發表。
open review：https://openreview.net/forum?id=TGuXXlbKsn
pdf 版本：https://arxiv.org/pdf/2301.01392.pdf
html 版本：https://ar5iv.labs.arxiv.org/html/2301.01392

閱前省流
open review
0 abstract
1 intro
2 related work
4 Offline Preference-Based Reward Learning
5 experiment

閱前省流

貢獻：
- 將 offline preference-based reward learning，確定為一個研究問題。
- 比較了一些比如說 query selection 和 reward uncertainty 度量的方法，比較它們的效能優劣。（無 novelty 的單純實驗）
- 【重要】在 reward learning 這個任務 setting 上，評測了 D4RL benchmark 的各個任務：
  - 發現對於很多工，（只要給出專家軌跡），將 reward 設為 0 或亂數，也是能學出很好 policy 的。這證明，這些任務不適合用來評測 reward learning 的效能好壞。
  - 定義了 degradation 作為評測「任務是否適合 reward learning」的指標，選出了幾個 degradation 較大的任務。
- 【具有一定 novelty】發現，即使 offline data 裡沒有顯式定義某些任務（或許指的是，offline data 不是為了完成這個任務而採集的？），也可以通過 human preference 評測散裝片段，看 segments 哪些更符合這個未顯式定義的任務，從而學到這個任務。

open review

TMLR（？）Transactions on Machine Learning Research，好像是期刊，據說不追求 novelty，知乎上說比較好中（？）。
貌似期刊只會有一個最終決定，不像會議每個 reviewer 打一個分數。Accept with minor revision，小修。
貢獻：【待整理】
- 提出方法：Offline Preference-based Apprenticeship Learning (OPAL)，利用 offline data 做 reward learning。
- 演演算法：① 從 dataset 的 trajectory segments 中選一些 queries 給 human rater 標註 preference；② 學習 reward model；③ 使用 reward model + offline transition data，跑 offline RL。
- 還提出了一種方法，通過計算 reward model 的 uncertainty，來主動選擇 informative query（聽著好像 PEBBLE 的寫作），發現，在 query selection 方面，基於整合的分歧查詢（ensemble-based disagreement queries）outperform 了其他 baselines（現在更像 PEBBLE 了）。
- 新 benchmark 是專門為 offline PBRL 而設計的。
- 主要貢獻：將 offline PBRL 確定為一個有趣的研究問題，評估一些自然的 baselines，並確定現有的 offline RL datasets 是否足以解決此類問題。
- 他們提出的方法，結合了獎勵不確定性（reward uncertainty）、查詢選擇（query selection）和策略優化（policy optimization）。
- 工作：
  - 本文描述了一種基於 human preference 學習 reward function 的方法，假設存取 offline dataset，並從其中取樣 episode segments，而非進行線上互動。
  - 如何對 paired trajectories 進行取樣？使用了不同的主動學習（active learning）技術。
  - 如何估計主動學習（active learning）技術的不確定性（uncertainty）？比較整合（ensembles）與 Bayesian dropout。
  - 哪些環境適合評估 learned reward functions？比較 no-reward baselines，以檢查 D4RL 中的哪些環境，似乎更能從良好的 learned reward 中受益。
  - 實驗：主要使用 ground truth reward 來 answer queries，最後一部分是有 human feedback 的更加定性（qualitative）的任務。
優點：
- 作者在評估一些 D4RL 環境方面做得很好，以確定哪些環境非常適合 PBRL。
- Appendix B 中的推導（derivation）非常好！
缺點：
- 實驗 - 缺超引數的敏感性分析（Sensitivity analysis on the hyper-parameters），比如 section 5.2 中 query selection 的個數。（然後應該有補 ablation）
- 應該在第 2 頁的最後一段中澄清，為什麼我們在尋找一種 tasks： reward function 的選擇對 performance 影響很大的任務。其實是因為，否則，我們無法判斷一種 reward learning 方法比另一種更好還是更差。
- 整篇論文中反覆出現，估計 / 表示不確定性（estimating / representing uncertainty.）的概念。論文可以更好地證明，為什麼估計 / 表示不確定性很重要。目前，它似乎被認為是理所當然的。
- 希望看到更多演演算法細節，說明我們如何有效識別要比較的最佳 trajectory pair；naive 方法的複雜度為 O（N^2），但 reviewer 認為作者沒有這樣做。回覆：在 section 4.2 中新增了一個名為「在 offline dataset 中搜尋 informative queries」的段落，其中討論了效率。發現沒有必要在實驗中並行化資訊增益（information gain）和整合分歧（ensemble disagreement）的計算，但我們確實利用了 GPU 並行化，來顯著加快搜尋速度。
- 有點 incremental，像是 T-REX 的衍生品。
- 實驗 - 壓 baselines（？）：此外，ground truth reward + offline RL 的結果，明顯低於原始論文中聲稱的 performance，尤其是 CQL。作者應該好好調整 backbone policy optimization algorithms，讓 performance 與原始論文中的結果匹配。回答：就是很難復現那些結果，並且雖然有的 performance 低了，但也有 performance 高了。並且，我們的 main contribution 不是刷榜，而是 offline apprenticeship learning setting。
- 實驗 - 缺 baselines：還應該與其他 reward learning / imitation learning 方法（DemoDICE，IQ-Learn）比較。回答：比不了，因為 DemoDICE 和 IQ-learn 都假設可以存取專家演示，但我們只有普通的 offline dataset。

0 abstract

Learning a reward function from human preferences is challenging as it typically requires having a high-fidelity simulator or using expensive and potentially unsafe actual physical rollouts in the environment. However, in many tasks the agent might have access to offline data from related tasks in the same target environment. While offline data is increasingly being used to aid policy optimization via offline RL, our observation is that it can be a surprisingly rich source of information for preference learning as well. We propose an approach that uses an offline dataset to craft preference queries via pool-based active learning, learns a distribution over reward functions, and optimizes a corresponding policy via offline RL. Crucially, our proposed approach does not require actual physical rollouts or an accurate simulator for either the reward learning or policy optimization steps. To test our approach, we first evaluate existing offline RL benchmarks for their suitability for offline reward learning. Surprisingly, for many offline RL domains, we find that simply using a trivial reward function results good policy performance, making these domains ill-suited for evaluating learned rewards. To address this, we identify a subset of existing offline RL benchmarks that are well suited for offline reward learning and also propose new offline apprenticeship learning benchmarks which allow for more open-ended behaviors. When evaluated on this curated set of domains, our empirical results suggest that combining offline RL with learned human preferences can enable an agent to learn to perform novel tasks that were not explicitly shown in the offline data.

背景：
- 從人類偏好中學習 reward function 具有挑戰性，因為它通常需要一個 high-fidelity simulator，或者在真實環境中，使用昂貴且可能不安全的實際物理部署。
- 但是，在許多工中，agent 可以存取同一目標環境中相關任務的 offline data。雖然 offline data 越來越多被用於 offline RL 來幫助策略優化，但我們的觀察是，它也可以成為 preference learning 的豐富資訊來源。
method：
- 我們提出了一種方法，該方法使用 offline dataset，通過基於池的主動學習（pool-based active learning）來製作 preference queries，學習 reward function 的分佈，並通過 offline RL 優化相應的策略。
- 至關重要的是，我們提出的方法不需要實際的物理部署，也不需要準確的模擬器來進行 reward learning 或 policy optimization steps。
benchmark：（？）
- 為了測試我們的方法，首先評估現有的 offline RL benchmark 是否適合 offline reward learning。
- 令人驚訝的是，對於許多 offline RL 領域，我們發現僅僅使用一個微不足道的（trivial ） reward function，就能產生良好的策略效能，這使得這些領域不適合（ill-suited）去評估 reward learning 的效果。（？）
- 為了解決這個問題，我們確定了非常適合 offline reward learning 的現有 offline RL benchmark 的子集，並提出了新的 offline 學徒學習（apprenticeship learning）benchmarks，允許更多的開放式行為（open-ended behaviors）。
- 當對這組精選（curated）領域進行評估時，實證結果表明，將 offline RL 與 learned human preference 相結合，可以使 agent 去學習執行 offline data 中未明確顯示的新任務。

1 intro

Abbeel 組在 2004 年提出了 Apprenticeship learning 學徒學習，使用專家演示 expert demonstrations。
本文：提出了 Offline Preference-based Reward Learning (OPRL) 的 setting，通過 human 給 offline segment pair 打出 preference，來學習 reward function。
新穎貢獻：agent 擁有在測試期間學習 unseen tasks 的能力，這是先前工作未探索的。
- 例如，如圖 2 所示，即使所有 demo 都是隨機對等導航的短段，我們也證明了 OPRL 可以恢復，繞整個迷宮逆時針無限行駛的策略。
- 實現這一點的關鍵是，能夠將原始資料集中的不完整片段拼在一起，以便在測試期間，為新任務建立一個長軌跡。
- （goal-based RL，HER，有端聯想。噢，好像也沒有 goal-conditioned，就是單純訓出來了）
關於 Offline PBRL baseline：
- 最近的研究表明，簡單地使用標準 RL benchmarks 並掩蓋獎勵，對 reward learning 或更廣泛的 imitation learning 並不具有挑戰性，因為經常在任何地方學習 +1 或 -1 獎勵，就足以模仿 RL 策略（？）。
- 因此，我們在 offline reward learning 的 setting 中，評估各種現有的 offline RL benchmarks，其中我們刪除了對真實獎勵函數的存取。
- 令人驚訝的是，發現許多 offline RL benchmarks 並不適合比較不同的 reward learning 方法 —— 簡單地用零或常數替換 offline dataset 中的所有 ground truth reward，performance 與使用真實 reward 的效能相似或更好！
- 這意味著，這些領域的 high-performance 並不總是表明更好的 reward learning —— 相反，似乎許多領域的表現，主要受資料質量（專家軌跡與次優軌跡）的影響，而 transition dataset 中的實際獎勵值，對 offline RL 的影響很小。

safe apprenticeship learning 安全學徒學習（是我沒接觸過的方向）：
- 先前關於安全學徒學習的工作，要麼使 learner 能夠 estimate risky actions 並請求人工協助 request human assistance，要麼針對尾部風險 tail risk 而非 expected return 來 optimize policy，或在從 demonstrations 中學習時，對 agent policy 的 performance 設定 high-confidence bounds。
- 然而，這些方法都依賴於精確的 env dynamic model，或與環境的直接互動。
- 相比之下，我們的安全方法是 offline apprenticeship learning 演演算法，以避免在 reward 和 policy learning 期間，收集昂貴且可能不安全的物理資料。
- （如果講組會，exploration 的冷飯炒完了，可以炒 safe RL 的冷飯）
offline apprenticeship learning 離線學徒學習：
- 先前工作集中在，具有 discrete action 和 hand-crafted reward features 的簡單環境中，並要求資料集包含專家演示（相當於最優 trajectory？）。
- 其他工作，大多也假設可以存取專家演示，或要求專家用明確的 reward value 標記 trajectory。
- 我們專注於通過少量定性的 preference queries，進行完全離線的獎勵學習；preference query 比細粒度的 reward label 或 near-optimal demonstrations 更容易提供。
offline imitation learning 離線模仿學習：
- IR 方法，比如 behavioral cloning，存在 compounding errors 問題（參照了一篇 1988 年的文章）。
- DemoDICE（2021 年）：試圖模仿 offline 專家演示，並通過利用 sub-optimal demonstration 資料集來提高穩定性。
- IQ-Learn（2021 年）：能夠進行 offline 和 online 模仿學習，學習引數化的 Q 函數而非獎勵函數。
- 但是，它們都需要存取 expert demonstration。我們的方法不需要專家演示，只需要從 offline data 裡學出 reward function。

4 Offline Preference-Based Reward Learning

離線 preference-based 獎勵學習（經常幻視強化學習，因為都是 RL）。簡稱 OPRL。

4.1 Representing Reward Uncertainty

貌似是，尋找 reward uncertainty 最大的 query，以達到選取 informative query 的效果。

所以，現在要找一種方法，度量 reward uncertainty（？）

Ensemble Queries 整合查詢
Bayesian Dropout

好像可以看 Alg 1 第四行（？）

（沒有很明白，這一部分在 framework 中的位置）

4.2 Active Learning Query Selection

作者的邏輯是，首先估計一個 query 的價值（value），然後選擇價值最大的 query。

所以現在要度量 query 的價值（？）Alg 1 第六行。

Disagreement 分歧：
- 將分歧計算為二元比較預測中的方差：p(1-p) 。
- 其中 p 是預測 σ0＞σ1 的概率，抑或是得出這一結論的 ensemble models 的個數。
Information Gain Queries 資訊獲取查詢：
- 資訊增益 \(I(θ;Y| D) = H(Y|D)- E_{θ\sim p(θ|D)}[H(Y~|~θ,D)]\) 。
- 直觀地說，當第一項高時，資訊增益將最大化，這意味著整個模型具有高熵；但第二項低，這意味著後驗的每個單獨假設 θ 都為結果 Y 分配了低熵。當個人假設彼此強烈不同意並且沒有明顯的多數時，就會發生這種情況。（沒看懂）

可以平行計算每個 candidate query 的資訊增益或整合分歧，可以利用 GPU 並行化，將一個或多個軌跡中的所有狀態，作為 batch 來輸入 reward function network。

4.3 Policy Optimization

詳見 Alg 1。

（讀到這裡感覺，或許真的沒有 novelty；但評測 benchmark 的這部分工作，或許是值得一看的）

5 experiment

5.1 Evaluating Offline RL Benchmarks - 評估 offline RL 的 benchmark

四個（即將被用 0 或 ±1 的 reward 敷衍）的 offline RL 方法：

優勢加權迴歸 Advantage Weighted Regression（AWR） 2019
批次約束深度 Q 學習 Batch-Constrained deep Q-learning（BCQ）2019
Bootstrapping Error Accumulation Reduction （BEAR） 2020
Conservative Q-Learning （CQL） 2020

表 1 是對 D4RL benchmark 的評測，關鍵指標是 degradation 降級 = GT ground truth - max(avg, zero, random) / GT - min(avg, zero, random) ，degradation 越大，task performance 就越能代表 reward function 的好壞。

5.2 Reward Learning on a Subset of D4RL - D4RL 子集的獎勵學習

設 degradation 閾值為 20%，＞20% 認為是可以做 reward learning 的任務。

選出了 5 個 env，在它們上面做 OPRL 的實驗，介紹了一些訓練細節。

比較了一下 query selection 方法。

5.3 New Offline Preference-Based Reward Learning Tasks - 新的基於偏好的離線獎勵學習任務

5.3.1 Maze Navigation with Constraint Region - 帶約束區域的迷宮導航
5.3.2 Open Maze Behaviors - 開放式迷宮行為
5.3.3 Open-Ended CartPole Behaviors - 開放式 CartPole 行為

5.3.2 應該就是 reviewer 提到的，只學習過零散的 query segment，卻能實現繞迷宮逆時針轉圈的任務了。

5.3.3 新定義了 ① CartPole 順時針轉 ② 逆時針轉的任務。

結論：OPRL 能夠利用 offline data，優化資料中未明確顯示（explicitly shown）的任務。

（感覺就是 reviewer 提到的，把 segment 拼起來的原理）