做時(shí)間序列預(yù)測(cè)有必要用深度學(xué)習(xí)嗎？事實(shí)證明，梯度提升回歸樹(shù)媲美甚至超越多個(gè)DNN模型

發(fā)布人：機(jī)器之心時(shí)間：2022-03-08 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

在深度學(xué)習(xí)方法應(yīng)用廣泛的今天，所有領(lǐng)域是不是非它不可呢？其實(shí)未必，在時(shí)間序列預(yù)測(cè)任務(wù)上，簡(jiǎn)單的機(jī)器學(xué)習(xí)方法能夠媲美甚至超越很多 DNN 模型。

過(guò)去幾年，時(shí)間序列領(lǐng)域的經(jīng)典參數(shù)方法（自回歸）已經(jīng)在很大程度上被復(fù)雜的深度學(xué)習(xí)框架（如 DeepGIO 或 LSTNet 等）更新替代。這是因?yàn)閭鹘y(tǒng)方法可能無(wú)法捕獲長(zhǎng)期和短期序列混合傳遞的信息，而深度學(xué)習(xí)方法的思路是掌握數(shù)據(jù)中的跨時(shí)非線性依賴。從結(jié)果來(lái)看，這些深度學(xué)習(xí)方法不僅優(yōu)于 ARIMA 等傳統(tǒng)方法和梯度提升回歸樹(shù)（Gradient Boosting Regression Tree, GBRT）等簡(jiǎn)單機(jī)器學(xué)習(xí)模型，而且增強(qiáng)了這樣一種預(yù)期，即機(jī)器學(xué)習(xí)領(lǐng)域的時(shí)間序列預(yù)測(cè)模型需要以深度學(xué)習(xí)工作為基礎(chǔ)，才能得到 SOTA 結(jié)果。
但是，推薦系列領(lǐng)域的最新啟示表明，深度學(xué)習(xí)方法在機(jī)器學(xué)習(xí)各種研究分支取得的成就需要對(duì)簡(jiǎn)單高效模型定期確認(rèn)和評(píng)估，以保持各自研究領(lǐng)域進(jìn)展的真實(shí)性。除了時(shí)間序列預(yù)測(cè)模型越來(lái)越復(fù)雜之外，另一個(gè)動(dòng)機(jī)包括文獻(xiàn)中正在完善的深度學(xué)習(xí)模型在處理時(shí)間序列預(yù)測(cè)問(wèn)題上的片面性，因此限制了現(xiàn)有解決方案方法的多樣性。
在前段時(shí)間的一篇論文《Do We Really Need Deep Learning Models for Time Series Forecasting?》中，來(lái)自德國(guó)希爾德斯海姆大學(xué)計(jì)算機(jī)科學(xué)系的研究者展示了通過(guò)精心配置的輸入處理結(jié)構(gòu)，GBRT 等簡(jiǎn)單但強(qiáng)大的集成模型在時(shí)間序列預(yù)測(cè)領(lǐng)域能夠媲美甚至超越很多 DNN 模型。

論文地址：https://arxiv.org/pdf/2101.02118.pdf
研究者對(duì)特征工程多輸出 GBRT 模型進(jìn)行了評(píng)估，并提出了以下兩個(gè)研究問(wèn)題：

對(duì)于用于時(shí)間序列預(yù)測(cè)的基于窗口的學(xué)習(xí)框架來(lái)說(shuō)，精心配置 GBRT 模型的輸入和輸出結(jié)構(gòu)有什么效果？
一個(gè)雖簡(jiǎn)單但配置良好的 GBRT 模型與 SOTA 深度學(xué)習(xí)時(shí)間序列預(yù)測(cè)框架相比如何？

為了回答這兩個(gè)問(wèn)題，研究者選擇了雙重實(shí)驗(yàn)設(shè)置，分別解決兩類預(yù)測(cè)任務(wù)，即系統(tǒng)化方式中的單變量和多變量預(yù)測(cè)。目的是評(píng)估 GBRT 模型以及在頂會(huì)（NeurIPS、KDD、SIGIR、ECML、ICML、CIKM、IJCAI、ICLR 等）中出現(xiàn)的 SOTA 深度學(xué)習(xí)方法。這項(xiàng)研究的整體貢獻(xiàn)可以總結(jié)如下：
一，研究者將一個(gè)簡(jiǎn)單的機(jī)器學(xué)習(xí)方法 GBRT 提升了競(jìng)品 DNN 時(shí)間序列預(yù)測(cè)模型的標(biāo)準(zhǔn)。首先將 GBRT 轉(zhuǎn)換成一個(gè)基于窗口的回歸框架，接著對(duì)它的輸入和輸出結(jié)構(gòu)進(jìn)行特征工程，如此便能從額外上下文信息中獲益最多；二，為了突出輸入處理對(duì)時(shí)間序列預(yù)測(cè)模型的重要性，研究者通過(guò)實(shí)證證明了為什么基于窗口的 GBRT 輸入設(shè)置可以在時(shí)間序列預(yù)測(cè)領(lǐng)域提高 ARIMA 和原版 GBRT 等精心配置的模型所產(chǎn)生的預(yù)測(cè)性能；三，研究者比較了 GBRT 與各種 SOTA 深度學(xué)習(xí)時(shí)間序列預(yù)測(cè)模型的性能，并驗(yàn)證了它在單變量和雙變量時(shí)間序列預(yù)測(cè)任務(wù)中的競(jìng)爭(zhēng)力。
這項(xiàng)研究也引起了不少人的共鳴。有人認(rèn)為，時(shí)間序列分類任務(wù)同樣也沒(méi)有必要用深度學(xué)習(xí)方法。在一些情況下，SVMs 或邏輯回歸方法表現(xiàn)更好，速度也更快。

研究設(shè)計(jì)
選擇基線。研究者系統(tǒng)地過(guò)濾了 2016 年至 2020 年在 NeurIPS、KDD、SIGIR、SDM、ECML、ICML、CIKM、IJCAI、ICLR 等會(huì)議表現(xiàn)較好的論文集。論文需滿足以下要求：

主題：只考慮時(shí)間序列預(yù)測(cè)領(lǐng)域的研究；
數(shù)據(jù)結(jié)構(gòu)：專用數(shù)據(jù)類型，但如異步時(shí)間序列和概念化為圖形的數(shù)據(jù)被排除在外；
可復(fù)現(xiàn)：數(shù)據(jù)、源代碼應(yīng)公開(kāi)。如果源代碼不可用，但實(shí)驗(yàn)設(shè)置有清晰的文檔，研究也可以從實(shí)驗(yàn)中復(fù)制結(jié)果；
計(jì)算的可行性：研究中得出的結(jié)果能夠以易于處理的方式復(fù)現(xiàn)，并在合理的時(shí)間內(nèi)可計(jì)算。

評(píng)估。該研究在兩個(gè)層次上對(duì)時(shí)間序列預(yù)測(cè) GBRT 模型進(jìn)行評(píng)估：一個(gè)單變量和一個(gè)多變量。為了使所選的深度學(xué)習(xí)基線和 GBRT 之間具有顯著的可比性，該研究在相同的數(shù)據(jù)集上評(píng)估了所有模型，數(shù)據(jù)集如下表 1 所示：左邊提供了關(guān)于用來(lái)評(píng)估模型數(shù)據(jù)集，而右邊則列出了各自的實(shí)驗(yàn)規(guī)范：

問(wèn)題公式化。時(shí)間序列預(yù)測(cè)問(wèn)題，就監(jiān)督學(xué)習(xí)而言，時(shí)間序列預(yù)測(cè)可以表述為：給定一個(gè)集合和一個(gè)集合，經(jīng)過(guò)一系列假設(shè)后，得到如下期望損失最小化模型：

GBRT
GBRT 模型，特別是 XGBoost 實(shí)現(xiàn)，其優(yōu)點(diǎn)是易于應(yīng)用，而且在結(jié)構(gòu)化數(shù)據(jù)上特別成功。但是當(dāng)涉及時(shí)間序列預(yù)測(cè)的初始（naive）實(shí)現(xiàn)時(shí)，GBRT 模型失去了很大一部分靈活性，因?yàn)樗鼈儧](méi)有被投射到基于窗口的回歸問(wèn)題中，而是被配置為適合大部分時(shí)間序列作為完整且連續(xù)的數(shù)據(jù)點(diǎn)序列來(lái)預(yù)測(cè)時(shí)間序列的后續(xù)和剩余測(cè)試部分。
與上述初始實(shí)現(xiàn)不同，該研究通過(guò)將時(shí)間序列重新配置為窗口輸入，并在多個(gè)訓(xùn)練實(shí)例（窗口）上進(jìn)行訓(xùn)練，以模擬成功的時(shí)間序列預(yù)測(cè)模型中使用的輸入處理行為，為此該研究定義了一個(gè)可調(diào)窗口，。這種基于窗口的 GBRT 模型輸入設(shè)置如圖 1 所示：

第一步是使用變換函數(shù)將典型的 2D 訓(xùn)練實(shí)例（時(shí)間序列輸入窗口）變換為適合 GBRT 的 1D 形狀向量（扁平窗口）。該函數(shù)將所有 w 實(shí)例的目標(biāo)值 y_i 連接起來(lái)，然后將最后一個(gè)時(shí)間點(diǎn)實(shí)例 t 的協(xié)變量向量附加到輸入窗口 w 中，表示為。
基于窗口的 GBRT 輸入設(shè)置極大地提高了其預(yù)測(cè)性能，因?yàn)?GBRT 模型現(xiàn)在能夠掌握數(shù)據(jù)的底層時(shí)間序列結(jié)構(gòu)，并且現(xiàn)在可以被認(rèn)為是先進(jìn) DNN 時(shí)間序列預(yù)測(cè)模型的適當(dāng)機(jī)器學(xué)習(xí)基線。另一方面，簡(jiǎn)單配置的 GBRT 模型是一個(gè)簡(jiǎn)單的逐點(diǎn)回歸模型，將時(shí)間點(diǎn) 的協(xié)變量作為輸入，預(yù)測(cè)單一目標(biāo)值 Y_i、j 為同一時(shí)間點(diǎn)訓(xùn)練損失如下：

實(shí)驗(yàn)結(jié)果
單變量時(shí)間序列的結(jié)果
下表 2 總體結(jié)果表明，除了 traffic 預(yù)測(cè)外，基于窗口的 GBRT 具有較強(qiáng)的競(jìng)爭(zhēng)力。另一方面，具有傳統(tǒng)配置的預(yù)測(cè)模型（例如 ARIMA 和 GBRT（Naive））的表現(xiàn)遠(yuǎn)遠(yuǎn)優(yōu)于預(yù)期。

而在 electricity 預(yù)測(cè)方面，基于窗口的 GBRT 在所有模型中均顯示出最佳的 RMSE 性能，其在 WAPE 和 MAE 方面的性能僅優(yōu)于 2016 年推出的 TRMF，基于注意力的 DARNN 模型表現(xiàn)較差。關(guān)于 exchange rate 任務(wù)，LSTNet（以 w = 24 重新實(shí)現(xiàn)）和 TMRF 顯示出相當(dāng)強(qiáng)的結(jié)果，優(yōu)于基于窗口的 GBRT 基線。
在不考慮時(shí)間預(yù)測(cè)器的情況下，traffic 預(yù)測(cè)的結(jié)果是混合的，因此 DARNN 和 LSTNet 實(shí)現(xiàn)了 traffic 數(shù)據(jù)集的最佳結(jié)果，而對(duì)于 PeMSD7 數(shù)據(jù)集，基于窗口的 GBRT 基線在兩個(gè)方面優(yōu)于 DNN 模型三個(gè)指標(biāo)。然而，時(shí)間協(xié)變量的包含顯著提高了 GBRT 的性能（下表 3），因此，對(duì)于 traffic 預(yù)測(cè)，所有 DNN 方法，包括 DeepGlo [18] 和 STGCN（spatio-temporal traffic forecasting model ） [19]，其在 PeMSD7 上實(shí)現(xiàn)了 6.77 的 RMSE，優(yōu)于重新配置的 GBRT 基線。

下表 4 顯示了 LSTNet 與 GBRT(W-b) 的結(jié)果：

下表 5 中的結(jié)果表明 GBRT 的競(jìng)爭(zhēng)力，但也表明基于 transformer 的模型相當(dāng)強(qiáng)大，例如 TFT 超過(guò)了提升回歸樹(shù)性能。然而，作為一個(gè)例外，TFT 構(gòu)成了本研究中唯一一個(gè)始終優(yōu)于 GBRT 的 DNN 模型，而 DeepAR 和 DeepState 等概率模型在這些單變量數(shù)據(jù)集上的表現(xiàn)優(yōu)于其他模型。

多元數(shù)據(jù)集
下表 6 中為 DARNN 與基于窗口 GBRT 比較：簡(jiǎn)單、配置良好的 GBRT 基線可以超越 DNN 框架。

從下表 7 可以看出，即使是專門(mén)為某一預(yù)測(cè)任務(wù)設(shè)計(jì)的 DNN 模型，也沒(méi)有達(dá)到預(yù)期效果。相反，DAQFF 的性能比簡(jiǎn)單的基于窗口、特征工程的梯度提升回歸樹(shù)模型更差。在本實(shí)驗(yàn)中，值得注意的是，即使是傳統(tǒng)應(yīng)用預(yù)測(cè)意義上的 GBRT 模型也能在 air quality 數(shù)據(jù)集上提供更好的結(jié)果。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

国产亚洲精品AA片在线观看,丰满熟妇HD,亚洲成色www成人网站妖精,丁香五月天婷婷五月天男人天堂

博客專欄

做時(shí)間序列預(yù)測(cè)有必要用深度學(xué)習(xí)嗎？事實(shí)證明，梯度提升回歸樹(shù)媲美甚至超越多個(gè)DNN模型

相關(guān)推薦

技術(shù)專區(qū)

国产亚洲精品AA片在线观看,丰满熟妇HD,亚洲成色www成人网站妖精,丁香五月天婷婷五月天男人天堂

博客專欄

做時(shí)間序列預(yù)測(cè)有必要用深度學(xué)習(xí)嗎？事實(shí)證明，梯度提升回歸樹(shù)媲美甚至超越多個(gè)DNN模型

相關(guān)推薦

技術(shù)專區(qū)

做時(shí)間序列預(yù)測(cè)有必要用深度學(xué)習(xí)嗎？事實(shí)證明，梯度提升回歸樹(shù)媲美甚至超越多個(gè)DNN模型