我在Python中使用Pandas编写了以下代码:
all_data = {}
for ticker in ['FIUIX', 'FSAIX', 'FSAVX', 'FSTMX']:
all_data[ticker] = web.get_data_yahoo(ticker, '1/1/2010', '1/1/2015')
prices = DataFrame({tic: data['Adj Close'] for tic, data in all_data.iteritems()})
returns = prices.pct_change()
我知道我可以像这样进行回归:
regs = sm.OLS(returns.FIUIX,returns.FSTMX).fit()
但是我如何为数据框架中的每一列做到这一点呢?具体来说,我如何遍历列,以便在每个列上运行回归?
具体来说,我想在FSTMX上回归彼此的股票代码(FIUIX, FSAIX和FSAVX),并存储每次回归的残差。
我尝试过以下几种方法,但没有一种能达到预期的效果:
resids = {}
for k in returns.keys():
reg = sm.OLS(returns[k],returns.FSTMX).fit()
resids[k] = reg.resid
代码的返回[k]部分有问题吗?如何使用k值访问列?或者还有更简单的方法吗?
我有点晚了,但我是这么做的。的步骤:
创建所有列的列表
使用itertools获取x的组合
将每个结果R平方值与排除列列表一起附加到结果数据框架中
将结果DF按R平方的降序排序,看看哪个是最合适的。
这是我在DataFrame上使用的代码,称为aft_tmt。请随意推断您的用例。
import pandas as pd
# setting options to print without truncating output
pd.set_option('display.max_columns', None)
pd.set_option('display.max_colwidth', None)
import statsmodels.formula.api as smf
import itertools
# This section gets the column names of the DF and removes some columns which I don't want to use as predictors.
itercols = aft_tmt.columns.tolist()
itercols.remove("sc97")
itercols.remove("sc")
itercols.remove("grc")
itercols.remove("grc97")
print itercols
len(itercols)
# results DF
regression_res = pd.DataFrame(columns = ["Rsq", "predictors", "excluded"])
# excluded cols
exc = []
# change 9 to the number of columns you want to combine from N columns.
#Possibly run an outer loop from 0 to N/2?
for x in itertools.combinations(itercols, 9):
lmstr = "+".join(x)
m = smf.ols(formula = "sc ~ " + lmstr, data = aft_tmt)
f = m.fit()
exc = [item for item in x if item not in itercols]
regression_res = regression_res.append(pd.DataFrame([[f.rsquared, lmstr, "+".join([y for y in itercols if y not in list(x)])]], columns = ["Rsq", "predictors", "excluded"]))
regression_res.sort_values(by="Rsq", ascending = False)