目前時間序列領域常用的數據集有6個,分別是Electricity、ETT、Exchange、ILI、Traffic、Weather,涵蓋了用電量、溫度、外匯、流感、交通和天氣領域,本文共包含6大類時間序列研究方向,21+論文標準數據集以及支持標準數據集的1份SOTA時間序列完整項目源碼,助力時序領域的漲點與創新!
無償分享給大家,歡迎掃碼獲取。
1. Electricity
電力數據集包含了320位客戶從2016年7月至2019年7月每小時的電力消耗情況,數據集第一列給出了時間戳,其實時間本身也是非常重要的特征,NIPS24就有一篇專門研究時間戳的文章還挺有意思的。
【數據情況】數據集沒有丟失的值,每1H的數值以kW為單位,數據時間段為2016/07/01 2:00—2019/07/02 1:00,共26304條數據。所有時間標簽都以葡萄牙小時為單位。所有天都有24點數據(24*4)。每年3月的時間變化日(23個小時),凌晨1點到凌晨2點之間的值對所有點都為零。每年10月的時間變化日(25個小時),凌晨1點到2點之間的值合計兩個小時的消耗量。
2. weather
2020 年全年每 10 分鐘記錄一次天氣,其中包含氣溫、濕度等 21 項氣象指標。
【數據簡介】Jena Climate時間序列數據集中基于多變量的歷史氣象數據,對氣溫變化的趨勢進行預測
【數據情況】變量個數:21,時間步:52696 個樣本,時間粒度:10分鐘,包括2020年至 2021年Weather Station, Max Planck Institute for Biogeochemistry in Jena, Germany的天氣要素數據,包括溫度、壓力、濕度等14個特征指標。
掃碼獲取數據集
3. ETT
ETT是英文“Electricity Transformer Temperature”縮寫,即 “電力變壓器溫度”,數據集有小時級別ETTh1、ETTh2和分鐘級別ETTm1、ETTm2,所以總共四個數據表。ETT時間范圍為2016年7月至2018年7月,涵蓋電力變壓器負載和油溫等信息,可用于分析電力變壓器運行狀態,為研究電力變壓器相關問題以及模型訓練評估等提供了重要的數據基礎。
【數據背景】電力分配問題是指根據其連續使用情況將電力分配到不同區域。然而,預測特定區域的未來需求是困難的,因為它會隨著工作日、節假日、季節、天氣、溫度等因素而變化。然而,目前沒有現有方法能夠基于超長期真實世界數據進行長期預測,并且具有高精度。任何錯誤的預測都可能損害電力變壓器。因此,目前沒有有效的預測未來電力使用的方法,我們搭建了一個真實世界平臺,并收集了2年的數據,預測電力變壓器的油溫并研究極端負載能力。
【字段說明】數據集使用.csv格式保存,共包含8維特征,包括數據點的記錄日期、預測值“油溫”以及6個不同類型的外部負載值,其中第一行是數據頭,包括了"HUFL"、"HULL"、"MUFL"、"MULL"、"LUFL"、"LULL"和"OT",每一列的詳細意義如下:
4. ILI疾病數據集
包括 2002 年至 2021 年美國疾病控制和預防中心每周數據。描述了患有流感疾病的患者與患者數量的比率。(WEIGHTED ILI:加權比率,UNWEIGHTED ILI:非加權比率,AGE 0-4:0-4歲患者數量,AGE 5-24:5-24歲患者數量,ILITOTAL:患有流感疾病的患者總數,NUM. OF PROVIDERS:提供人數,OT:患者數量)
5. Exchange
【數據情況】金融外匯相關的數據集其實是比較難預測的,這里收集了 1990 年至 2016 年 8 個國家的每日匯率(國家編號從0-6-OT,0:澳大利亞匯率,1:英國匯率,2:加拿大匯率,3:瑞士匯率,4:中國匯率,5:日本匯率,6:新西蘭匯率,OT:新加坡匯率)。
掃碼獲取數據集
6. Traffic
【數據情況】數據集沒有丟失值,每1H的數值顆粒度,數據時間段為2016/07/01 02:00—2018/07/02 01:00,共17544條數據,包含 2015 年至 2016 年舊金山高速公路傳感器記錄的每小時數據,數值描述了不同傳感器測量的道路占用率(介于0和1之間)。
周期性非常明顯,有些類似“異常值”的點,但是否是異常值并不能直接下結論,因為在特定節假日,確實會出現集中放假,集中外出的情況,所以最近的一些研究就從時間戳的角度做工作,強化這方面的特征。
本文同樣整理了80篇時序+擴散模型篇代表性的paper。同樣免費,歡迎掃碼下載。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.