投资组合配置¶

我们的论文：FinRL：一个用于量化金融中自动化股票交易的深度强化学习库。

在 NeurIPS 2020：深度强化学习研讨会上展示。

Jupyter notebook 代码可在我们的 Github 和 Google Colab 上获取。

提示

FinRL 单只股票交易在 Google Colab。
FinRL 多只股票交易在 Google Colab

查看我们之前的教程：单只股票交易和多只股票交易，以详细了解 FinRL 的架构和模块。

概述¶

首先，我们想解释使用深度强化学习进行投资组合配置的逻辑。我们在本文中始终使用道琼斯30指数成分股作为示例，因为它们是最受欢迎的股票。

假设我们在2019年初拥有100万美元。我们希望将这1,000,000美元投资于股票市场，在本例中是道琼斯30指数成分股。假设没有保证金、没有卖空、没有国库券（将所有资金仅用于交易这30只股票）。这样每只个股的权重都是非负的，并且所有股票的权重加起来等于1。

我们聘请了一位智能的投资组合经理——深度强化学习先生。DRL先生将每天给我们建议，包括投资组合权重或投资这30只股票的资金比例。因此，每天我们只需重新平衡股票的投资组合权重。基本逻辑如下。

tutorial/image/portfolio_allocation_1.png

投资组合配置与多只股票交易不同，因为我们在每个时间步都在本质上重新平衡权重，并且我们必须使用所有可用的资金。

进行投资组合配置的传统和最流行的方法是均值-方差或现代投资组合理论（MPT）

然而，MPT 在样本外数据中表现不佳。MPT 仅基于股票回报计算，如果我们要考虑其他相关因素，例如一些技术指标如 MACD 或 RSI，MPT 可能无法很好地将这些信息结合在一起。

我们引入了一个 DRL 库 FinRL，它方便初学者接触量化金融。FinRL 是一个专门为自动化股票交易设计的 DRL 库，旨在用于教育和演示目的。

本文重点介绍我们论文中的一个用例：投资组合配置。我们使用一个 Jupyter notebook 包含了所有必要的步骤。

问题定义¶

本问题是设计一个用于投资组合配置的自动化交易解决方案。我们将股票交易过程建模为一个马尔可夫决策过程（MDP）。然后我们将交易目标表述为一个最大化问题。

强化学习环境的组成部分是：

动作：每只股票的投资组合权重在 [0,1] 范围内。我们使用 softmax 函数将动作归一化，使其总和为1。

状态: {协方差矩阵, MACD, RSI, CCI, ADX}，状态空间形状为 (34, 30)。34 是行数，30 是列数。

奖励函数：r(s, a, s′) = p_t，p_t 是累积投资组合价值。

环境：道琼斯30指数成分股的投资组合配置。

协方差矩阵是一个很好的特征，因为投资组合经理用它来量化与特定投资组合相关的风险（标准差）。

我们还假设没有交易成本，因为我们试图将一个简单的投资组合配置案例作为一个起点。

加载 Python 包¶

安装 FinRL 的不稳定开发版本

 # Install the unstable development version in Jupyter notebook:
 !pip install git+https://github.com/AI4Finance-LLC/FinRL-Library.git

导入包

 # import packages
 import pandas as pd
 import numpy as np
 import matplotlib
 import matplotlib.pyplot as plt
 matplotlib.use('Agg')
 import datetime

 from finrl import config
 from finrl import config_tickers
 from finrl.marketdata.yahoodownloader import YahooDownloader
 from finrl.preprocessing.preprocessors import FeatureEngineer
 from finrl.preprocessing.data import data_split
 from finrl.env.environment import EnvSetup
 from finrl.env.EnvMultipleStock_train import StockEnvTrain
 from finrl.env.EnvMultipleStock_trade import StockEnvTrade
 from finrl.model.models import DRLAgent
 from finrl.trade.backtest import BackTestStats, BaselineStats, BackTestPlot, backtest_strat, baseline_strat
 from finrl.trade.backtest import backtest_strat, baseline_strat

 import os
 if not os.path.exists("./" + config.DATA_SAVE_DIR):
     os.makedirs("./" + config.DATA_SAVE_DIR)
 if not os.path.exists("./" + config.TRAINED_MODEL_DIR):
     os.makedirs("./" + config.TRAINED_MODEL_DIR)
 if not os.path.exists("./" + config.TENSORBOARD_LOG_DIR):
     os.makedirs("./" + config.TENSORBOARD_LOG_DIR)
 if not os.path.exists("./" + config.RESULTS_DIR):
     os.makedirs("./" + config.RESULTS_DIR)

下载数据¶

FinRL 使用 YahooDownloader 类来提取数据。

class YahooDownloader:
    """
    Provides methods for retrieving daily stock data from Yahoo Finance API

    Attributes
    ----------
        start_date : str
            start date of the data (modified from config.py)
        end_date : str
            end date of the data (modified from config.py)
        ticker_list : list
            a list of stock tickers (modified from config.py)

    Methods
    -------
        fetch_data()
            Fetches data from yahoo API
    """

下载数据并保存到 pandas DataFrame 中

 # Download and save the data in a pandas DataFrame:
 df = YahooDownloader(start_date = '2008-01-01',
                      end_date = '2020-12-01',
                      ticker_list = config_tickers.DOW_30_TICKER).fetch_data()

数据预处理¶

FinRL 使用 FeatureEngineer 类来预处理数据。

class FeatureEngineer:
    """
    Provides methods for preprocessing the stock price data

    Attributes
    ----------
        df: DataFrame
            data downloaded from Yahoo API
        feature_number : int
            number of features we used
        use_technical_indicator : boolean
            we technical indicator or not
        use_turbulence : boolean
            use turbulence index or not

    Methods
    -------
        preprocess_data()
            main method to do the feature engineering
    """

执行特征工程：协方差矩阵 + 技术指标

 # Perform Feature Engineering:
 df = FeatureEngineer(df.copy(),
                     use_technical_indicator=True,
                     use_turbulence=False).preprocess_data()


 # add covariance matrix as states
 df=df.sort_values(['date','tic'],ignore_index=True)
 df.index = df.date.factorize()[0]

 cov_list = []
 # look back is one year
 lookback=252
 for i in range(lookback,len(df.index.unique())):
   data_lookback = df.loc[i-lookback:i,:]
   price_lookback=data_lookback.pivot_table(index = 'date',columns = 'tic', values = 'close')
   return_lookback = price_lookback.pct_change().dropna()
   covs = return_lookback.cov().values
   cov_list.append(covs)

 df_cov = pd.DataFrame({'date':df.date.unique()[lookback:],'cov_list':cov_list})
 df = df.merge(df_cov, on='date')
 df = df.sort_values(['date','tic']).reset_index(drop=True)
 df.head()

构建环境¶

FinRL 使用 EnvSetup 类来设置环境。

class EnvSetup:
    """
    Provides methods for retrieving daily stock data from
    Yahoo Finance API

    Attributes
        ----------
        stock_dim: int
            number of unique stocks
        hmax : int
            maximum number of shares to trade
        initial_amount: int
            start money
        transaction_cost_pct : float
            transaction cost percentage per trade
        reward_scaling: float
            scaling factor for reward, good for training
        tech_indicator_list: list
            a list of technical indicator names (modified from config.py)
    Methods
        -------
        create_env_training()
            create env class for training
        create_env_validation()
            create env class for validation
        create_env_trading()
            create env class for trading
    """

初始化一个环境类

用户定义环境：一个模拟环境类。用于投资组合配置的环境

 import numpy as np
 import pandas as pd
 from gym.utils import seeding
 import gym
 from gym import spaces
 import matplotlib
 matplotlib.use('Agg')
 import matplotlib.pyplot as plt

 class StockPortfolioEnv(gym.Env):
     """A single stock trading environment for OpenAI gym
     Attributes
     ----------
         df: DataFrame
             input data
         stock_dim : int
             number of unique stocks
         hmax : int
             maximum number of shares to trade
         initial_amount : int
             start money
         transaction_cost_pct: float
             transaction cost percentage per trade
         reward_scaling: float
             scaling factor for reward, good for training
         state_space: int
             the dimension of input features
         action_space: int
             equals stock dimension
         tech_indicator_list: list
             a list of technical indicator names
         turbulence_threshold: int
             a threshold to control risk aversion
         day: int
             an increment number to control date
     Methods
     -------
     _sell_stock()
         perform sell action based on the sign of the action
     _buy_stock()
         perform buy action based on the sign of the action
     step()
         at each step the agent will return actions, then
         we will calculate the reward, and return the next observation.
     reset()
         reset the environment
     render()
         use render to return other functions
     save_asset_memory()
         return account value at each time step
     save_action_memory()
         return actions/positions at each time step

     """
     metadata = {'render.modes': ['human']}

     def __init__(self,
                 df,
                 stock_dim,
                 hmax,
                 initial_amount,
                 transaction_cost_pct,
                 reward_scaling,
                 state_space,
                 action_space,
                 tech_indicator_list,
                 turbulence_threshold,
                 lookback=252,
                 day = 0):
         #super(StockEnv, self).__init__()
         #money = 10 , scope = 1
         self.day = day
         self.lookback=lookback
         self.df = df
         self.stock_dim = stock_dim
         self.hmax = hmax
         self.initial_amount = initial_amount
         self.transaction_cost_pct =transaction_cost_pct
         self.reward_scaling = reward_scaling
         self.state_space = state_space
         self.action_space = action_space
         self.tech_indicator_list = tech_indicator_list

         # action_space normalization and shape is self.stock_dim
         self.action_space = spaces.Box(low = 0, high = 1,shape = (self.action_space,))
         # Shape = (34, 30)
         # covariance matrix + technical indicators
         self.observation_space = spaces.Box(low=0,
                                             high=np.inf,
                                             shape = (self.state_space+len(self.tech_indicator_list),
                                                      self.state_space))

         # load data from a pandas dataframe
         self.data = self.df.loc[self.day,:]
         self.covs = self.data['cov_list'].values[0]
         self.state =  np.append(np.array(self.covs),
                       [self.data[tech].values.tolist() for tech in self.tech_indicator_list ], axis=0)
         self.terminal = False
         self.turbulence_threshold = turbulence_threshold
         # initalize state: inital portfolio return + individual stock return + individual weights
         self.portfolio_value = self.initial_amount

         # memorize portfolio value each step
         self.asset_memory = [self.initial_amount]
         # memorize portfolio return each step
         self.portfolio_return_memory = [0]
         self.actions_memory=[[1/self.stock_dim]*self.stock_dim]
         self.date_memory=[self.data.date.unique()[0]]


     def step(self, actions):
         # print(self.day)
         self.terminal = self.day >= len(self.df.index.unique())-1
         # print(actions)

         if self.terminal:
             df = pd.DataFrame(self.portfolio_return_memory)
             df.columns = ['daily_return']
             plt.plot(df.daily_return.cumsum(),'r')
             plt.savefig('results/cumulative_reward.png')
             plt.close()

             plt.plot(self.portfolio_return_memory,'r')
             plt.savefig('results/rewards.png')
             plt.close()

             print("=================================")
             print("begin_total_asset:{}".format(self.asset_memory[0]))
             print("end_total_asset:{}".format(self.portfolio_value))

             df_daily_return = pd.DataFrame(self.portfolio_return_memory)
             df_daily_return.columns = ['daily_return']
             if df_daily_return['daily_return'].std() !=0:
               sharpe = (252**0.5)*df_daily_return['daily_return'].mean()/ \
                        df_daily_return['daily_return'].std()
               print("Sharpe: ",sharpe)
             print("=================================")

             return self.state, self.reward, self.terminal,{}

         else:
             #print(actions)
             # actions are the portfolio weight
             # normalize to sum of 1
             norm_actions = (np.array(actions) - np.array(actions).min()) / (np.array(actions) - np.array(actions).min()).sum()
             weights = norm_actions
             #print(weights)
             self.actions_memory.append(weights)
             last_day_memory = self.data

             #load next state
             self.day += 1
             self.data = self.df.loc[self.day,:]
             self.covs = self.data['cov_list'].values[0]
             self.state =  np.append(np.array(self.covs), [self.data[tech].values.tolist() for tech in self.tech_indicator_list ], axis=0)
             # calcualte portfolio return
             # individual stocks' return * weight
             portfolio_return = sum(((self.data.close.values / last_day_memory.close.values)-1)*weights)
             # update portfolio value
             new_portfolio_value = self.portfolio_value*(1+portfolio_return)
             self.portfolio_value = new_portfolio_value

             # save into memory
             self.portfolio_return_memory.append(portfolio_return)
             self.date_memory.append(self.data.date.unique()[0])
             self.asset_memory.append(new_portfolio_value)

             # the reward is the new portfolio value or end portfolo value
             self.reward = new_portfolio_value
             #self.reward = self.reward*self.reward_scaling


         return self.state, self.reward, self.terminal, {}

     def reset(self):
         self.asset_memory = [self.initial_amount]
         self.day = 0
         self.data = self.df.loc[self.day,:]
         # load states
         self.covs = self.data['cov_list'].values[0]
         self.state =  np.append(np.array(self.covs), [self.data[tech].values.tolist() for tech in self.tech_indicator_list ], axis=0)
         self.portfolio_value = self.initial_amount
         #self.cost = 0
         #self.trades = 0
         self.terminal = False
         self.portfolio_return_memory = [0]
         self.actions_memory=[[1/self.stock_dim]*self.stock_dim]
         self.date_memory=[self.data.date.unique()[0]]
         return self.state

     def render(self, mode='human'):
         return self.state

     def save_asset_memory(self):
         date_list = self.date_memory
         portfolio_return = self.portfolio_return_memory
         #print(len(date_list))
         #print(len(asset_list))
         df_account_value = pd.DataFrame({'date':date_list,'daily_return':portfolio_return})
         return df_account_value

     def save_action_memory(self):
         # date and close price length must match actions length
         date_list = self.date_memory
         df_date = pd.DataFrame(date_list)
         df_date.columns = ['date']

         action_list = self.actions_memory
         df_actions = pd.DataFrame(action_list)
         df_actions.columns = self.data.tic.values
         df_actions.index = df_date.date
         #df_actions = pd.DataFrame({'date':date_list,'actions':action_list})
         return df_actions

     def _seed(self, seed=None):
         self.np_random, seed = seeding.np_random(seed)
         return [seed]

实现 DRL 算法¶

FinRL 使用 DRLAgent 类来实现算法。

class DRLAgent:
    """
    Provides implementations for DRL algorithms

    Attributes
    ----------
        env: gym environment class
             user-defined class
    Methods
    -------
        train_PPO()
            the implementation for PPO algorithm
        train_A2C()
            the implementation for A2C algorithm
        train_DDPG()
            the implementation for DDPG algorithm
        train_TD3()
            the implementation for TD3 algorithm
        DRL_prediction()
            make a prediction in a test dataset and get results
    """

模型训练:

我们使用 A2C 进行投资组合配置，因为它稳定、成本效益高、速度更快，并且在大批量处理时表现更好。

交易：假设我们在2019年1月1日拥有1,000,000美元的初始资本。我们使用 A2C 模型对道琼斯30只股票进行投资组合配置。

 trade = data_split(df,'2019-01-01', '2020-12-01')

 env_trade, obs_trade = env_setup.create_env_trading(data = trade,
                                          env_class = StockPortfolioEnv)

 df_daily_return, df_actions = DRLAgent.DRL_prediction(model=model_a2c,
                         test_data = trade,
                         test_env = env_trade,
                         test_obs = obs_trade)

输出的动作或投资组合权重如下所示：

回测性能¶

FinRL 使用一组函数通过 Quantopian pyfolio 进行回测。

 from pyfolio import timeseries
 DRL_strat = backtest_strat(df_daily_return)
 perf_func = timeseries.perf_stats
 perf_stats_all = perf_func( returns=DRL_strat,
                               factor_returns=DRL_strat,
                                 positions=None, transactions=None, turnover_denom="AGB")
 print("==============DRL Strategy Stats===========")
 perf_stats_all
 print("==============Get Index Stats===========")
 baesline_perf_stats=BaselineStats('^DJI',
                                   baseline_start = '2019-01-01',
                                   baseline_end = '2020-12-01')


 # plot
 dji, dow_strat = baseline_strat('^DJI','2019-01-01','2020-12-01')
 import pyfolio
 %matplotlib inline
 with pyfolio.plotting.plotting_context(font_scale=1.1):
         pyfolio.create_full_tear_sheet(returns = DRL_strat,
                                        benchmark_rets=dow_strat, set_context=False)

左边的表格是回测性能统计数据，右边的表格是指数 (DJIA) 性能统计数据。

图表: