<< Пред. стр.

стр. 10
(общее количество: 46)

ОГЛАВЛЕНИЕ

След. стр. >>

например, из 100 сделок, выбранных случайным образом из всей популя-
ции данных — от начала рынка (например, 1983 г. для S&P 500) до отдален-
ного будущего. Такая выборка не только была бы защищена от серийной
зависимости, но и являлась бы более представительной для популяции.
Однако при разработке торговых систем выборка сделок обычно произ-
водится на ограниченном временном отрезке; следовательно, может на-
блюдаться корреляция каждой сделки с соседними, что сделает данные
зависимыми.
Практический эффект этого явления состоит в уменьшении размеров
выборки. Если между данными существует серийная зависимость, то, де-
лая статистические выводы, следует считать, что выборка в два или в че-
тыре раза меньше реального количества точек данных. Вдобавок опреде-
лить достоверным образом степень зависимости данных невозможно,
можно только сделать грубую оценку — например, рассчитав серийную
корреляцию точки данных с предшествующей и предыдущей точками.
Рассчитывается корреляция прибыли/убытка сделки i и прибыли/убыт-
ка сделок i + 1 и i — 1. В данном случае серийная корреляция составила
0,2120. Это немного, но предпочтительным было бы меньшее значение.
Можно также рассчитать связанный t-критерий для статистической зна-
чимости значения корреляции. В данном случае выясняется, что если
бы в популяции действительно не было серьезной зависимости, то такой
уровень корреляции наблюдался бы только в 16% тестов.
Серийная зависимость — серьезная проблема. Если она высока, то для
борьбы с ней надо считать выборку меньшей, чем она есть на самом деле.
Другой вариант — выбрать случайным образом данные для тестирования
из различных участков за длительный период времени. Это также повы-
сит представительность выборки в отношении всей популяции.

Что, если изменится рынок? При разработке торговых систем возможно
нарушение третьего положения t-критерия, и его невозможно предуга-
дать или компенсировать. Причина этого нарушения в том, что популя-
ция, из которой взят образец данных для тестирования или разработки,
может отличаться от популяции, данные из которой будут использовать-
ся в будущих сделках. Рынок может подвергаться структурным или иным
изменениям. Как говорилось, популяция данных S&P 500 до 1983 г. прин-
ципиально отличается от последующих данных, когда началась торговля
опционами и фьючерсами. Подобные события могут разрушить любой
СТАТИСТИКА 81
ГЛАВА 4



метод оценки системы. Как бы ни проводилось тестирование, при изме-
нении рынка до начала реальной торговли окажется, что система разра-
батывалась и тестировалась на одном рынке, а работать будет на другом.
Естественно, модель разваливается на части. Даже самая лучшая модель
будет уничтожена изменением рынка.
Тем не менее большинство рынков постоянно меняются. Несмотря на
этот суровый факт, использование статистики в оценке системы остается
принципиально важным, поскольку если рынок не изменится вскоре после
начала работы системы или же изменения рынка недостаточны, чтобы ока-
зать глубокое влияние, то статистически возможно произвести достаточно
достоверную оценку ожидаемых вероятностей и прибылей системы.


Пример 2: Оценка тестов на данных в пределах выборки
Каким образом можно оценивать систему, которая подвергалась подгон-
ке параметров (т.е. оптимизации) по некоторой выборке данных? Трей-
деры часто оптимизируют системы для улучшения результатов. В данном
аспекте применение статистики особенно важно, поскольку позволяет
анализировать результаты, компенсируя этим большое количество тес-
товых прогонов во время оптимизации. В табл. 4-2 приведены показатели
прибыли/убытка и различные статистические показатели для тестов в
пределах выборки (т.е. на данных, использовавшихся для оптимизации
системы). Система подвергалась оптимизации на данных за период с
1.01.1990г. по 1.02.1995г.
Большая часть статистики в табл. 4-2 идентична показателями табл. 4-1
из примера 1. Добавлены два дополнительных показателя — «Количество
тестов оптимизации» и «Скорректировано по оптимизации». Первый по-
казатель — просто количество различных комбинаций параметров, т.е.
число испытаний системы по выборке данных с различными параметра-
ми. Поскольку первый параметр системы на лунном цикле, L1, принимал
значения от 1 до 20 с шагом в 1, было проведено 20 тестов и соответствен-
но получено 20 значений t-критерия.
Количество тестов, использованных для коррекции вероятности (зна-
чимости) по лучшему показателю t-критерия, определяется следующим
образом: от 1 отнимается статистическая значимость лучшего теста, ре-
зультат возводится в степень m (где т— число прогонок тестов). Затем
этот результат вычитается из единицы. Это показывает вероятность об-
наружения в т тестах (в данном случае т = 20) по крайней мере одного
значения t-критерия, как минимум не уступающего действительно обна-
руженному в данном решении. Некорректированная вероятность случай-
ного происхождения результатов составляет менее 2% — весьма впечат-
ляющий показатель. После коррекции по множественным тестам (опти-
мизации) картина в корне меняется. Результаты с такой прибыльностью
82 РАБОЧИЕ ИНСТРУМЕНТЫ
ЧАСТЬ I




Таблица 4—2. Сделки на выборке данных S&P 500, использованной для тести-
рования модели на лунном цикле

Дата Дата Прибыль/ Капитал Статистический анализ средней прибыли/убытка
входа выхода убыток
900417 900501 5750 5750
900501 900516 11700 17450 Размер выборки 118.0000
900516 900522 -2500 14950 Среднее значение выборки 740.9664
900531 900615 150 15100 Стандартное отклонение выборки 3811.3550
900615 900702 2300 17400 Ожидаемое СО среднего 350.8637
900702 900716 4550 21950
900716 900731 6675 28625 Т-критерий (P/L>0) 21 1
.18
900731 900802 -2500 26125 Вероятность (значимость) 0.0184
900814 900828 9500 35625 Количество тестов оптимизации 20.0000
900828 900911 575 36200 Скорректировано по оптимизации 0.3104
900911 900926 7225 43425
900926 900926 -2500 40925 Корреляция серии (отставание=1) 0.0479
901010 901019 -2875 38050 Связанный t-критерий 0.5139
901026 901029 -2500 35550 Вероятность (значимость) 0.6083
901109 901112 -2700 32850
901126 901211 8125 40975 Прибыльных сделок 58.0000
901211 901225 -875 40100 Процент прибыльных сделок 0.4915
901225 910102 -2500 37600 Верхняя 99%-ная граница 0.6102
910108 910109 -2500 35100 Нижняя 99%-ная граница 0.3729
910122 910206 9850 44950 (Границы не скорректированы по оптимизации)
910206 910206 -2500 42450
910221 910308 4550 47000
910308 910322 5250 52250
910322 910409 5600 57850
910409 910416 -2500 55350
910423 910425 -2500 52850
910507 910521 3800 56650




системы могли быть достигнуты чисто случайно в 31% случаев! Впрочем,
все не так плохо. Настройка была крайне консервативной и исходила из
полной независимости тестов друг от друга. На самом же деле между тес-
тами будет идти значительная серийная корреляция, поскольку в боль-
шинстве традиционных систем небольшие изменения параметров вызы-
вают небольшие изменения результатов. Это в точности напоминает се-
рийную зависимость в выборках данных: эффективный размер снижает-
ся, если снижается эффективное количество проведенных тестов. По-
скольку многие из тестов коррелируют друг с другом, 20 проведенных
соответствуют 5—10 «реальным» независимым тестам. Учитывая серий-
ную зависимость между тестами, вероятность с поправкой на оптимиза-
цию составит около 0,15, а не 0,3104. Поскольку природа и точная величи-
на серийной зависимости тестов неизвестны, менее консервативное зак-
лючение об оптимизации не может быть рассчитано напрямую, а только
может быть примерно оценено.
В некоторых случаях, например в моделях множественной регрессии,
существуют точные математические формулы для расчета статистичес-
СТАТИСТИКА 83
ГЛАВА 4



ких параметров с учетом процесса подгонки (оптимизации), что делает
излишними поправки на оптимизацию.


Трактовка статистических показателей
В примере 1 представлен тест с проверкой системы, в примере 2 — опти-
мизация на данных из выборки. При обсуждении результатов мы возвра-
щаемся к естественному порядку проведения тестов, т.е. сначала оптими-
зация, а потом проверка.

Результаты оптимизации. В табл. 4-2 показаны результаты анализа
данных из выборки. За 5 лет периода оптимизации система провела 118
сделок (n = 118), средняя сделка дала прибыль в $740,97, и сделки были
весьма различными: стандартное отклонение выборки составило около
$3811. Таким образом, во многих сделках убытки составляли тысячи дол-
ларов, в других такого же масштаба достигали прибыли. Степень прибыль-
ности легко оценить по столбцу «Прибыль/Убыток», в котором встреча-
ется немало убытков в $2500 (на этом уровне активировалась защитная
остановка) и значительное количество прибылей, многие более $5000, а
некоторые даже более $10 000. Ожидаемое стандартное отклонение сред-
ней прибыли в сделке показывает, что если бы такие расчеты многократ-
но проводились на схожих выборках, то среднее колебалось бы в преде-
лах десяти процентов, и многие выборки показывали бы среднюю при-
быльность в размере $740 ± 350.
Т-критерий для наилучшего решения составил 2,1118 при статисти-
ческой значимости 0,0184. Это весьма впечатляющий результат. Если бы
тест проводился только один раз (без оптимизации), то вероятность слу-
чайно достичь такого значения была бы около 2%, что позволяет заклю-
чить, что система с большой вероятностью находит «скрытую неэффек-
тивность» рынка и имеет шанс на успех в реальной торговле. Впрочем, не
забывайте: исследовались лучшие 20 наборов параметров. Если скоррек-
тировать статистическую значимость, то значение составит около 0,31,
что вовсе не так хорошо — эффективность вполне может оказаться слу-
чайной. Следовательно, система имеет некоторые шансы на выживание
в реальной торговле, однако в ее провале не будет ничего удивительного.
Серийная корреляция между сделками составляла всего 0,0479 при зна-
чимости 0,6083 — в данном контексте немного. Эти показатели говорят,
что значительной серийной корреляции между сделками не наблюдалось,
и вышеприведенный статистический анализ, скорее всего, справедлив.
За время проведения теста было 58 прибыльных сделок, т.е. доля при-
быльных сделок составила около 49%. Верхняя граница 99%-ного довери-
тельного интервала количества прибыльных сделок составила около 61%,
а нижняя — около 37%. Это означает, что доля прибыльных сделок в по-
ЧАСТЬ I РАБОЧИЕ ИНСТРУМЕНТЫ
84



пуляции данных с вероятностью 99% попала бы в интервал от 37 до 61%.
Фактически коррекция по оптимизации должна была бы расширить до-
верительный интервал; но мы этого не делали, поскольку не особенно
интересовались показателем доли прибыльных сделок.

Результаты проверки. В табл. 4-1 содержатся данные и статистические
заключения по тестированию модели на данных вне выборки. Поскольку
все параметры уже определены при оптимизации и проводился всего один
тест, мы не рассматривали ни оптимизацию, ни ее последствия. За пери-
од с 1.01.1995 г. по 1.01.1997 г. система привела 47 сделок, средняя сделка
дала прибыль в $974, что выше, чем в выборке, использованной для опти-
мизации! Видимо, эффективность системы сохранилась.
Стандартное отклонение выборки составило более $6000, почти вдвое
больше, чем в пределах выборки, по которой проводилась оптимизация.
Следовательно, стандартное отклонение средней прибыли в сделке было
около $890, что составляет немалую ошибку. С учетом небольшого раз-
мера выборки это приводит к снижению значения t-критерия по сравне-
нию с полученным при оптимизации и к меньшей статистической значи-
мости — около 14%. Эти результаты не слишком плохи, но и не слишком
хороши: вероятность нахождения «скрытой неэффективности» рынка со-
ставляет более 80%. Но при этом серийная корреляция в тесте была зна-
чительно выше (ее вероятность составила 0,1572). Это означает, что та-
кой серийной корреляции чисто случайно можно достичь лишь в 16% слу-
чаев, даже если никакой реальной корреляции в данных нет. Следова-
тельно, и t-критерий прибыли/убытка, скорее всего, переоценил статис-
тическую значимость до некоторой степени (вероятно, на 20 — 30%). Если
размер выборки был бы меньше, то значение t составило бы около 0,18
вместо полученного 0,1392. Доверительный интервал для процента при-
быльных сделок в популяции находился в пределах от 17 до приблизи-
тельно 53%.
В общем, оценка показывает, что система, вероятно, сможет работать
в будущем, но без особой уверенности в успехе. Учитывая, что в одном
тесте вероятность случайности прибылей составила 31%, в другом, неза-
висимом, — 14% (с коррекцией на оптимизацию 18%), шанс того, что сред-
няя сделка будет выгодной и система в будущем сможет работать, остает-
ся неплохим.


ДРУГИЕ СТАТИСТИЧЕСКИЕ МЕТОДЫ И ИХ ИСПОЛЬЗОВАНИЕ
Этот раздел посвящен исключительно знакомству читателя с другими ста-
тистическими методами. Тем, кто желает серьезно заниматься разработ-
кой и тестированием торговых систем, мы настоятельно рекомендуем
обратить внимание на посвященную данным методам литературу.
СТАТИСТИКА 85
ГЛАВА 4



Системы, полученные генетическими методами
Мы разрабатываем множество систем с использованием генетических
алгоритмов. Популярной функцией пригодности системы (степени дос-
тижения желаемого результата) является общая прибыль системы. Но при
этом общая прибыль не является лучшим из критериев качества систе-
мы! Система, которая использует только крупные обвалы рынка S&P 500,
например, даст очень высокую общую прибыль и очень высокий процент
прибыльных сделок, но кто может с уверенностью утверждать, что такая
система полезна в практической торговле? Если система провела всего
2 — 3 сделки за 10 лет, чисто интуитивно нельзя ожидать ее стабильной
работы в будущем или быть уверенным, что система вообще сможет со-
вершать сделки. Частично проблема в том, что общая прибыль никак не
учитывает количество сделок и их изменчивость.
Альтернативными показателями пригодности, лишенными некоторых
недостатков общей прибыли, являются t-критерий и связанная с ним ве-
роятность. При использовании t-критерия как функции пригодности
(вместо простого поиска наиболее выгодного решения) смысл генетичес-
кого развития систем состоит в создании систем с максимальной вероят-
ностью прибылей в будущем или, что то же самое, с минимальной вероят-
ностью прибылей, обусловленных случайностью или подгонкой под ис-
торические данные. Этот подход работает весьма хорошо; t-критерий учи-
тывает прибыль, размер выборки данных и количество совершенных сде-
лок. Хотя все факторы важны, все же, чем больше сделок совершает сис-
тема, тем выше t-показатель и больше вероятность устойчивости в буду-
щем. Таким же образом, системы, которые дают более стабильные сдел-
ки с минимальным разбросом, будут иметь лучший t-показатель и пред-
почтительнее систем, где разброс сделок велик. T-критерий включает в
себя многие из параметров, определяющих качество торговой модели, и
сводит их в одно число, для оптимизации которого можно применить ге-
нетический алгоритм.


Множественная регрессия
Еще одна часто применяемая методика — множественная регрессия. Рас-
смотрим анализ сравнения рынков; цель этого исследования в том, чтобы
обнаружить на других рынках показатели поведения, которые указыва-
ли бы на текущее поведение данного рынка. Проведение различных рег-
рессий — подходящий метод для анализа таких потенциальных связей;
более того, существуют замечательные методы для тестирования и уста-
новки доверительных интервалов корреляций и весов регрессии (бета-
чисел), генерируемых при анализе. Ввиду ограниченности объема главы,
рекомендуем обратить внимание на книгу Майерса (Meyers, 1986) — хо-
рошее пособие по основам множественной регрессии.
ЧАСТЬ I РАБОЧИЕ ИНСТРУМЕНТЫ
86



Метод Монте-Карло
Есть еще один уникальный метод статистического анализа, который из-
вестен под названием метода Монте-Карло. Он состоит в проведении
множественных тестов на искусственных данных, сконструированных
так, чтобы обладать свойствами выборок, извлеченных из случайной по-
пуляции. За исключением случайности, эти данные настроены так, чтобы
иметь основные характеристики популяции, из которой брались реаль-
ные образцы и относительно которой требуется сделать заключение. Это
весьма мощный инструмент; красота моделирования по методу Монте-
Карло состоит в том, что его можно провести, не нарушая основных поло-
жений статистического анализа (например, обеспечить нормальное рас-
пределение), что позволит избежать необоснованных выводов.


Тестирование вне пределов выборки
Еще один способ оценки системы — проводить тестирование вне преде-
лов выборки. Несколько временных периодов резервируются для тести-
рования модели, которая была разработана и оптимизирована на данных
из другого периода. Тестирование вне пределов выборки помогает понять,
как ведет себя модель на данных, которые не использовались при ее раз-
работке и оптимизации. Мы настоятельно рекомендуем применять этот
метод. В приведенных выше примерах рассматривались тесты систем на
оптимизационных выборках и вне их пределов. При тестировании вне
пределов выборки не требуются коррекции статистики или процесса оп-
тимизации. Тесты вне пределов выборки и тесты на нескольких выбор-
ках также могут дать информацию об изменении поведения рынка с те-
чением времени.


Тестирование с прогонкой вперед
При тестировании с прогонкой вперед система оптимизируется на дан-
ных за несколько лет, затем моделируется торговля за следующий год.
Потом система повторно оптимизируется на данных за несколько лет, со
сдвигом окна оптимизации вперед, включая год ведения торговли, и про-
цесс повторяется раз за разом, прогоняя систему через популяцию дан-
ных. Хотя этот метод требует огромного количества вычислений, он чрез-
вычайно полезен для изучения и тестирования торговых систем. Его ос-
новное преимущество в том, что он совмещает оптимизацию и проведе-
ние тестов вне пределов выборки. Все вышеописанные статистические
методы, например проверка по критерию Стьюдента, могут быть исполь-
зованы на тестах с прогонкой вперед просто и доступно, без необходимо-
сти вносить поправки на оптимизацию. Кроме того, тесты будут весьма
СТАТИСТИКА 87
ГЛАВА 4



правдоподобно моделировать процесс, происходящий в реальной торгов-
ле, — сначала ведется оптимизация, а затем система ведет торговлю на
ранее неизвестных данных и время от времени повторно оптимизирует-
ся. Продвинутые разработчики встраивают процесс оптимизации в сис-
тему, создавая то, что можно назвать «адаптивной торговой моделью». В
работе Мейерса (Meyers, 1997) подробно рассмотрен процесс тестирова-
ния с прогонкой вперед.


ЗАКЛЮЧЕНИЕ
В процессе разработки торговых систем статистика помогает трейдеру
быстро отбрасывать модели, эффективность которых может быть объяс-
нена случайным совпадением, излишней подгонкой под исторические
данные или несоответствующим размером образца данных. Если статис-
тический анализ показывает, что вероятность случайной эффективности
модели очень низка, то трейдер может использовать модель в реальной
торговле с большей уверенностью.
Существует множество статистических методов, применимых к тор-
говле на финансовых рынках. Главное в них — попытка сделать вывод о
всей популяции данных на основе выбранных из нее образцов.
Не забывайте, что при использовании статистических методов на дан-
ных, с которыми работают трейдеры, не будут выполняться некоторые
требования статистического анализа. Некоторые из этих нарушений не
очень серьезны; благодаря центральной предельной теореме в большин-
стве случаев можно нормально анализировать даже данные, не соответ-
ствующие нормальному распределению. Другие, более серьезные нару-
шения, например наличие серийной корреляции, должны учитываться,
но для оценки поправок вероятности на этот случай существуют специ-
альные методы. Суть в том, что лучше работать с информацией, зная, что
некоторые положения нарушены, чем работать вслепую.
Данная глава была написана для того, чтобы в общих чертах познако-
мить читателя с наиболее часто используемыми статистическими метода-
ми. Для более подробного изучения статистики мы советуем обратиться к
специальным пособиям.
ЧАСТЬ II


Исследование входов в рынок
Введение




В этом разделе будут систематически рассмотрены различные методы вхо-
дов. Мы сравним качество входов, обеспечиваемое разными методами.
Хороший вход важен, поскольку он снижает риск и увеличивает вероят-
ность прибыльности сделки. Хотя порой можно получить прибыль даже
при плохом входе (с достаточно хорошим выходом), хороший вход позво-
ляет удачно открыть позицию, заложив фундамент будущей прибыли.


ЧТО ЯВЛЯЕТСЯ ХОРОШИМ ВХОДОМ?
Хороший вход— это такой вход, который начинает сделку в точке с низ-
ким потенциальным риском и высокой потенциальной прибылью. Точка
с низким риском — это точка, где величина возможного неблагоприятно-
го движения перед поворотом рынка в пользу трейдера невелика. Входы,
при которых неблагоприятное движение минимально, весьма желатель-
ны, поскольку они позволяют устанавливать очень близкие защитные ос-
тановки, минимизируя, таким образом, риск. Хороший вход должен так-
же с большой вероятностью сопровождаться благоприятным движением
рынка вскоре после входа. Сделки, долго ожидающие благоприятного
движения рынка, попросту оттягивают на себя деньги, которые можно
применить в других местах; такие сделки не только увеличивают общий
риск портфеля, но и расходуют часть маржи, не позволяя открыть дру-
гие, более эффективные позиции. Идеальный вход состоял бы в покупке
по минимальной цене и продаже по максимальной. Естественно, такие
входы едва ли случаются в реальном мире и совсем не обязательны для
успешной торговли. Для успешной торговли всего-навсего достаточно,
чтобы входы в сочетании с разумными выходами образовывали торговую

<< Пред. стр.

стр. 10
(общее количество: 46)

ОГЛАВЛЕНИЕ

След. стр. >>