時間序列需要多少歷史
『壹』 時間序列預測需要多少歷史數據
1 歷史文獻記錄
2 科學手段預測
『貳』 畢業論文時間序列數據要多少年
五年以內。
最好是五年以內的研究的期刊或者論文,因為這是這個領域裡面最新的資訊,作為你論文的佐證是最好的。
實在沒有辦法的話用10年以內的也是可以的,當然了,如果有很早以前的,但是又是必須的也可以加上,但是我建議不要用是最好的。
『叄』 時間序列預測需要多少歷史數據
時間序列是按時間順序的一組數字序列。時間序列分析就是利用這組數列,應用數理統計方法加以處理,以預測未來事物的發展。時間序列分析是定量預測方法之一,它的基本原理:一是承認事物發展的延續性。應用過去數據,就能推測事物的發展趨勢。二是考慮到事物發展的隨機性。任何事物發展都可能受偶然因素影響,為此要利用統計分析中加權平均法對歷史數據進行處理。該方法方法簡單易行,便於掌握,但准確性差,一般只適用於短期預測。
『肆』 計量經濟學時間序列數據樣本最少多少年
朋友,先明確自由度的概念,自由度是指,當一個隨機變數是由其他一系列隨機變數定義的,這些隨機變數獨立項數的個數就是這個隨機變數的自由度。例如,當x1,x2,..xn相互獨立,則它們的平方和服從自由度為n的卡方分布。因此在回歸模型中若有兩個自變數、三個回歸參數,則殘差序列e1,e2,..en中有n-3個是獨立的(估計每一個參數會損失一個自由度)所以自由度為n-3;如果你的模型不含常數項只有兩個參數,自由度就是n-2.李寶仁
『伍』 (一)時間序列的基本概念
系統中某一變數的觀測值按時間順序排列的一個數值集合x(t1),x(t2),…,x(tn)稱之為時間序列,它以時間間隔t(t1<t2<…< tn)為自變數。
時間序列研究的實質是通過處理預測目標本身的時間序列數據,從中尋找和分析事物的變化特徵、發展趨勢和演變特性,用曲線擬合方法對系統進行客觀的描述,進而預測事物的未來發展。
時間序列的假設基礎是在一定條件下,被預測事物的過去變化趨勢會延續到未來。暗示著歷史數據存在著某些信息,利用它們可以解釋與預測時間序列的現在和未來。
時間序列分析也是一種回歸。回歸分析的目的是建立因變數和自變數之間關系的模型;並且可以用自變數來對因變數進行預測。
通常線性回歸分析因變數的觀測值假定是互相獨立並且有同樣分布。而時間序列的最大特點是觀測值並不獨立。時間序列的一個目的是用變數過去的觀測值來預測同一變數的未來值。也就是說,時間序列的因變數為變數未來的可能值,而用來預測的自變數中就包含該變數的一系列歷史觀測值。
『陸』 為什麼用時間序列進行預測一定要具備足夠的歷史數據
時間序列預測,究竟需要多少歷史數據?
顯然,這個問題並沒有一個固定的答案,而是會根據特定的問題而改變。
對模型輸入大小不同的歷史數據,對時間序列預測問題展開討論,探究歷史數據對 ARIMA 預測模型的性能影響。
根據各自特定的時間序列預測場景,展開類似的針對歷史數據大小的敏感性分析。
這里我們不會調整模型參數。而且,為了對數據平穩化並適配 ARIMA 模型,必須先刪除數據中包含的明顯的季節性變化趨勢。
我們通過減去前一年數據的辦法來獲得數據的季節性差異。需要說明的是,這種方法是很粗糙的,因為它並沒有考慮閏年的因素。而且,這也意味著第一年的數據將無法用於建模,因為第一年並沒有更早的數據。
具體的步進評估方法是:首先選取一個時間段的數據,並根據選定數據建模,訓練,然後對下一段數據進行預測,預測後記錄數據並計算正確率。接著,將真實的觀察數據加入建模數據,建立新的模型並展開訓練,對再下一段數據進行預測,並記錄結果。依次進行,知道數據用完。
最終,預測結果將被集合在一起,與真實觀察數據中的最後一年比較,計算出錯誤情況。在這種情況下,RMSE 將被用作預測得分,並將與觀察結果的數量級等同。
『柒』 時間序列預測法的步驟有哪些
時間序列預測法的有以下幾個步驟。
第一步,收集歷史資料,加以整理,編成時間序列,並根據時間序列繪成統計圖。時間序列分析通常是把各種可能發生作用的因素進行分類,傳統的分類方法是按各種因素的特點或影響效果進行分類:
①長期趨勢;
②季節變動;
③循環變動;
④不規則變動。
第二步,分析時間序列。
時間序列中的每一時期的數值都是由許許多多不同的因素同時發生作用後的綜合結果。
第三步,求時間序列的長期趨勢(T)、季節變動(S)和不規則變動(I)的值,並選定近似的數學模式來代表它們。對於數學模式中的諸未知參數,使用合適的技術方法求出其值。
第四步,利用時間序列資料求出長期趨勢、季節變動和不規則變動的數學模型後,就可以利用它來預測未來的長期趨勢值T和季節變動值S,在可能的情況下預測不規則變動值I。然後用以下模式計算出未來的時間序列的預測值Y。
加法模式:T+S+I=Y乘法模式:T乘以S乘以I=Y
如果不規則變動的預測值難以求得,就只求長期趨勢和季節變動的預測值,以兩者相乘之積或相加之和為時間序列的預測值。如果經濟現象本身沒有季節變動或不需預測分季分月的資料,則長期趨勢的預測值就是時間序列的預測值,即T=Y。但要注意這個預測值只反映現象未來的發展趨勢,即使很准確的趨勢線在按時間順序的觀察方面所起的作用本質上也只是一個平均數的作用,實際值將圍繞著它上下波動。
『捌』 時間序列入門
時間序列 (英語:time series)是一組按照時間發生先後順序進行排列的數據點序列。通常一組時間序列的時間間隔為一恆定值(如1秒,5分鍾,12小時,7天,1年),因此時間序列可以作為離散時間數據進行分析處理
時間序列中的每個觀察值大小,是影響變化的各種不同因素在同一時刻發生作用的綜合結果。從這些影響因素發生作用的大小和方向變化的時間特性來看,這些因素造成的時間序列數據的變動分為四種類型。
(1)趨勢性:某個變數隨著時間進展或自變數變化,呈現一種比較緩慢而長期的持續上升、下降、停留的同性質變動趨向,但變動幅度可能不相等。
(2)周期性:某因素由於外部影響隨著自然季節的交替出現高峰與低谷的規律。
(3)隨機性:個別為隨機變動,整體呈統計規律。
(4)綜合性:實際變化情況是幾種變動的疊加或組合。預測時設法過濾除去不規則變動,突出反映趨勢性和周期性變動。
通常,時間序列預測描述了預測下一個時間步長的觀測值。這被稱為「一步預測」,因為僅要預測一個時間步。在一些時間序列問題中,必須預測多個時間步長。與單步預測相比,這些稱為多步時間序列預測問題。比如給定歷史7天內的天氣溫度,單步預測就是預測第8天的溫度,預測後續三天的氣溫就是多步預測。
(1) 直接多步預測
(2) 遞歸多步預測
(3) 直接+遞歸的混合策略
(4) 第五種策略:seq2seq結構
『玖』 時間序列基礎
1.隨機時序分析的基本概念
1)隨機變數:簡單的隨機現象,如某班一天學生出勤人數,是靜態的。
2)隨機過程:隨機現象的動態變化過程。動態的。如某一時期各個時刻的狀態。
所謂隨機過程,就是說現象的變化沒有確定形式,沒有必然的變化規律。用數學語言來說,就是事物變化的過程不能用一個(或幾個)時間t的確定的函數來描述。
如果對於每一特定的t屬於T(T是時間集合),X(t)是一個隨機變數,則稱這一族無窮多個隨機變數{X(t),t屬於T}是一個隨機過程。
2.白雜訊序列
1)純隨機過程:隨機變數X(t)(t=1,2,3……),如果是由一個不相關的隨機變數的序列構成的,即對於所有s不等於k,隨機變數Xs和Xk的協方差為零,則稱其為 純隨機過程 。
2)白雜訊過程:如果一個純隨機過程的期望和方差均為常數,則稱之為 白雜訊過程 。白雜訊過程的樣本實稱成為白雜訊序列,簡稱白雜訊。
3)高斯白雜訊序列:如果白雜訊具體是服從均值為0、方差為常數的正態分布,那就是 高斯白雜訊序列 。
3.平穩性序列
1)平穩性可以說是時間序列分析的基礎。平穩的通俗理解就是時間序列的一些行為不隨時間改變, 所謂平穩過程就是其統計特性不隨時間的平移而變化的過程。
2)即時間序列內含的規律和邏輯,要在被預測的未來時間段內能夠延續下去。這樣我們才能用歷史信息去預測未來信息,類似機器學習中的訓練集和測試集同分布。
3)如果時間序列的變化是沒有規律的、完全隨機的,那麼預測模型也就沒有用。
4)平穩性的數學表達:如果時間序列在某一常數附近波動且波動范圍有限,即有常數均值和常數方差,並且延遲k期的序列變數的自協方差和自相關系數是相等的或者說延遲k期的序列變數之間的影響程度是一樣的,則稱該序列為平穩序列。簡單說就是沒有明顯趨勢且波動范圍有限。
4.嚴平穩/強平穩
1)通俗來說,就是時間序列的聯合分布隨著時間變化嚴格保持不變。
2)數學表達:如果對所有的時刻 t, (yt1,yt2,…ytm)的聯合分布與(y(t1+k),(yt2+k),…y(tm+k))的聯合分布相同,我們稱時間序列 {yt} 是嚴平穩的。也就是時間序列的聯合分布在時間的平移變換下保持不變。
5.弱平穩
1)數學表達:均值不變,協方差Cov(yt,y(t-k))=γk,γk依賴於k。
2)即協方差也不隨時間改變,而僅與時間差k相關。
3)可以根據根據時間序列的折線圖等大致觀察數據的(弱)平穩性:*所有數據點在一個常數水平上下以相同幅度波動。
4)弱平穩的線性時間序列具有短期相關性(證明見參考書),即通常只有近期的序列值對現時值得影響比較明顯,間隔越遠的過去值對現時值得影響越小。至於這個間隔,也就是下面要提到的模型的階數。
6.嚴平穩和弱平穩的關系
1)嚴平穩是一個很強的條件,難以用經驗的方法驗證,所以一般將弱平穩性作為模型的假設條件。
2)兩者並不是嚴格的包含與被包含關系,但當時間序列是正態分布時,二者等價。
7.單位根非平穩序列(可轉換為平穩序列的非平穩序列)
在金融數據中,通常假定資產收益率序列是弱平穩的。但還有一些研究對象,比如利率、匯率、資產的價格序列,往往不是平穩的。對於資產的價格序列,其非平穩性往往由於價格沒有固定的水平,這樣的非平穩序列叫做單位根(unit-root)非平穩序列。
1)最著名的單位根非平穩序列的例子是隨機遊走(random walk)模型:
pt=μ+p(t-1)+εt
μ是常數項(漂移:drift)。εt是白雜訊序列,則pt就是一個隨機遊走。它的形式和AR模型很像,但不同之處在於,AR模型中,系數的模需要小於1,這是AR的平穩性條件,而隨機遊走相當於系數為1的AR公式,不滿足AR模型的平穩性條件。
隨機遊走模型可作為(對數)股價運動的統計模型,在這樣的模型下,股價是不可預測的。因為εt關於常數對稱,所以在已知p(t-1)的條件下,pt上升或下降的概率都是50%,無從預測。
2)帶趨勢項的時間序列
pt=β0+β1*t+yt,yt是一個平穩時間序列。
帶漂移的隨機遊走模型,其均值和方差都隨時間變化;而帶趨勢項的時間序列,其均值隨時間變化,但方差則是不變的常數。
單位根非平穩序列可以進行平穩化處理轉換為平穩序列。比如用差分法處理隨機遊走序列,用用簡單的回歸分析移除時間趨勢處理帶趨勢項的時間序列。
建立具體的模型,需解決如下三個問題模型的具體形式、時序變數的滯後期以及隨機擾動項的結構。
μ是yt的均值;ψ是系數,決定了時間序列的線性動態結構,也被稱為權重,其中ψ0=1;{εt}為高斯白雜訊序列,它表示時間序列{yt}在t時刻出現了新的信息,所以εt稱為時刻t的innovation(新信息)或shock(擾動)。
線性時間序列模型,就是描述線性時間序列的權重ψ的計量經濟模型或統計模型,比如ARIMA。因為並非所有金融數據都是線性的,所以不是所有金融數據都適合ARIMA等模型。
①自回歸模型(AR)
用變數自身的歷史時間數據對變數進行回歸,從而預測變數未來的時間數據。
p階(滯後值,可暫理解為每個移動窗口有p期)自回歸公式即AR(p):
②移動平均模型(MA)
移動平均模型關注的是誤差項的累加,能夠有效消除預測中的隨機波動。
可以看作是白雜訊序列的簡單推廣,是白雜訊序列的有限線性組合。也可以看作是參數受到限制的無窮階AR模型。
③自回歸移動平均模型(ARMA)
有時候,要用很多階數的AR和MA模型(見後面的定階問題),為解決這個問題提出ARMA模型。
對於金融中的收益率序列,直接使用ARMA模型的時候較少,但其概念與波動率建模很相關,GARCH模型可以認為是對{εt}的ARMA模型。
④自回歸差分移動平均模型(ARIMA)
ARIMA比ARMA僅多了個"I",代表的含義可理解為 差分。
一些非平穩序列經過d次差分後,可以轉化為平穩時間序列。我們對差分1次後的序列進行平穩性檢驗,若果是非平穩的,則繼續差分。直到d次後檢驗為平穩序列。
⑤一般分析過程
1、 平穩性檢驗
ADF檢驗(單位根檢驗):這是一種檢查數據穩定性的統計測試。
原假設(無效假設):時間序列是不穩定的。
2、 平穩化處理
平穩化的基本思路是:通過建模並估計趨勢和季節性這些因素,並從時間序列中移除,來獲得一個穩定的時間序列,然後再使用統計預測技術來處理時間序列,最後將預測得到的數據,通過加入趨勢和季節性等約束,來還原到原始時間序列數據。
2.0 對數變換
對某些時間序列需要取對數處理,一是可以將一些指數增長的時間序列變成線性增長,二是可以穩定序列的波動性。對數變換在經濟金融類時間序列中常用。
2.1 差分法
如果是單位根非平穩的(比如隨機遊走模型),可以對其進行差分化。它能讓數據呈現一種更加平穩的趨勢。差分階數的選擇通常越小越好,只要能夠使得序列穩定就行。
2.2 平滑法
移動平均、指數加權移動平均
註:經差分或平滑後的數據可能因包含缺失值而不能使用檢驗,需要將缺失值去除
2.3 分解法
建立有關趨勢和季節性的模型,並從模型中刪除它們。
3 、建立模型:模型選擇和模型的定階
模型的選擇即在AR、MA、ARMA、ARIMA中間如何選擇。
模型的定階即指定上面過程中產生的超參數p、q和d(差分的階數)。
(1)用ACF和PACF圖判斷使用哪種線性時間序列模型
AR模型:ACF拖尾,PACF截尾,看PACF定階。
MA模型:ACF截尾,PACF拖尾,看ACF定階。
ARMA模型:都拖尾。(EACF定階)
截尾:在某階後 迅速 趨於0(後面大部分階的對應值在二倍標准差以內);
拖尾:按指數衰減或震盪,值到後面還有增大的情況。
ARIMA模型:適用於差分後平穩的序列。
(2)利用 信息准則 函數選擇合適的階
對於個數不多的時序數據,可以通過觀察自相關圖和偏相關圖來進行模型識別,倘若要分析的時序數據量較多,例如要預測每隻股票的走勢,就不可能逐個去調參了。這時可以依據AIC或BIC准則識別模型的p, q值,通常認為AIC或BIC值越小的模型相對更優。
AIC或BIC准則綜合考慮了殘差大小和自變數的個數,殘差越小AIC或BIC值越小,自變數個數越多AIC或BIC值越大。AIC或BIC准則可以說是對模型過擬合設定了一個標准。
AIC (Akaike information criterion,赤池信息度量准則)
AIC=2k-2ln(L)
· BIC (Bayesian information criterion,貝葉斯信息度量准則)
BIC=kln(n)-2ln(L)
k為模型的超參數個數,n為樣本數量,L為似然函數。
類比機器學習中的損失函數=經驗損失函數+正則化項。
模型選擇標准:AIC和BIC越小越好(在保證精度的情況下模型越簡單越好)
4 、模型檢驗和評估(之前應切分訓練集和驗證集)
檢驗殘差是否符合標准(QQ圖):是否服從均值為0,方差是常數的正態分布(εt是否是高斯白雜訊序列)。
擬合優度檢驗(模型的評估):R 2和調整後的R 2(R^2隻適用於平穩序列)。
5 、預測
如果之前進行了標准化、差分化等,需要進行還原:
標准化的還原要注意是log(x+1)還是log(x)。
1 、基礎概念
波動率
在期權交易中,波動率是標的資產的收益率的條件標准差。之前的平穩序列假設方差為常數,但當序列的方差不是常數時,我們需要用波動率對其變化進行描述。
對於金融時間序列,波動率往往具有以下特徵:
存在波動率聚集(volatility cluster)現象。 即波動率在一些 時間段 上高,一些時間段上低。
波動率以連續時間變化,很少發生跳躍。
波動率不會發散到無窮,而是在固定的范圍內變化(統計學角度上說,其是平穩的)
杠桿效應:波動率對價格大幅上升和大幅下降的反應是不同的。
波動率模型/條件異方差模型
給資產收益率的波動率進行建模的模型叫做條件異方差模型。這些波動率模型試圖刻畫的數據有這樣的特性: 它們是序列不相關或低階序列相關的(比如股票的日收益率可能相關,但月收益率則無關),但又不是獨立的 。波動率模型就是試圖刻畫序列的這種非獨立性。
定義信息集F(t-1)是包含過去收益率的一切線性函數,假定F(t-1)給定,那麼在此條件下時間序列yt的條件均值和條件方差分別表示為: