<< Пред. стр.

стр. 3
(общее количество: 46)

ОГЛАВЛЕНИЕ

След. стр. >>

ная цена), максимальная и минимальная цены публикуются каждый день
вскоре после закрытия рынка.
Внутридневные ценовые данные состоят из последовательности ба-
ров, каждый их которых отражает фиксированный временной интервал,
или из индивидуальных тиков. Показатели точки данных включают дату,
время, цену открытия, максимальную цену, минимальную цену, цену зак-
рытия и тиковый объем. Тиковый объем отличается от объема дневных
торгов: для внутридневных данных — это количество тиков, происходя-
щих в пределах бара, вне зависимости от количества контрактов или сде-
лок в каждом из этих тиков. Для индивидуальных тиков сообщается толь-
ко дата, время и цена, но не объем. Внутридневные тиковые данные могут
быть легко конвертированы в данные с фиксированным временным ин-
тервалом при помощи доступных программ, которые часто предоставля-
ются поставщиком данных без дополнительной оплаты.
Кроме данных о ценах товаров, существуют другие ценные данные.
Например, долговременные данные об активности солнечных пятен, по-
лученные из Бельгийской Королевской Обсерватории, использованные
в главах о влиянии Солнца и Луны. Изменения температуры и осадков
оказывают влияние на рынок сельскохозяйственных продуктов. Различ-
ные данные из самых разных областей экономики — от уровня инфля-
ции до цен на жилье — могут помочь в успешной торговле на товарной
бирже. Не забывайте просматривать сводки, отражающие настроения
участников рынка, такие как обзоры «Взгляды Трейдеров» (Commitment
of Traders), опросы, отражающие преобладание бычьих или медвежьих
настроений, соотношения опционов пут и колл. Кроме того, при тестиро-
ГЛАВА 1 ДАННЫЕ 23



вании систем можно использовать и нечисленные данные — например,
новости в прессе. Поиск необычных данных часто открывает интересные
и выгодные возможности — зачастую, чем более необычны и труднодос-
тупны данные, тем они ценнее!


ВРЕМЕННЫЕ МАСШТАБЫ ДАННЫХ
Данные могут использоваться в своих естественных временных рамках
или пересчитываться в другой масштаб. В зависимости от используемого
масштаба при торговле и особенностей торговой системы могут потребо-
ваться тиковые, 5- и 20-минутные, часовые, недельные, двухнедельные, ме-
сячные, квартальные и даже годовые данные. Обычно источник данных
имеет естественные временные ограничения; для внутридневных дан-
ных — это тик. Тик не является постоянной единицей времени: иногда
тики бывают очень частыми, иногда спорадическими с длинными интер-
валами между ними. День — естественная единица шкалы для дневных
данных. Для некоторых других данных естественный масштаб может быть
двухмесячным, как, например, для сводок обзоров «Взгляды Трейдеров»,
или квартальным, как бывает с отчетами о прибыли компаний.
Хотя от длинных временных периодов нельзя перейти к коротким
(нельзя создать отсутствующие данные), обратный переход легко дости-
жим при соответствующей обработке. Например, несложно создать се-
рию 1-минутных штрихов на основе тиков. Конверсия обычно проводит-
ся автоматически при использовании аналитических программ или гра-
фических пакетов, а также при помощи особых утилит, часто предостав-
ляемых поставщиком данных. Если данные скачиваются из Интернета по
протоколу ftp или при помощи стандартного броузера, может потребо-
ваться небольшая дополнительная программа или скрипт для перевода ска-
чиваемых данных в желаемый формат и сохранения в приемлемом для
других программ формате.
Какой временной масштаб лучше? Это зависит от трейдера. Для тех,
кто предпочитает быструю обратную связь, частые сделки, близкие за-
щитные остановки и ежедневную фиксацию прибыли, идеальный вы-
бор — внутридневной масштаб. Чем больше сделок, тем быстрее трейдер
учится и выбирает наиболее приемлемые для него торговые методы. Кро-
ме того, при ежедневном закрытии всех позиций вечером трейдер может
полностью избежать риска изменений рынка за ночь. Еще одна полезная
характеристика краткосрочной торговли — возможность использовать
близкие защитные остановки, снижая убытки при неудачных сделках. В
конце концов любители статистики будут очарованы представительны-
ми выборками данных, содержащими сотни тысяч показателей и тысячи
сделок, которые легко накопить при использовании коротких временных
масштабов. Большие выборки снижают риск «подгонки» системы под
РАБОЧИЕ ИНСТРУМЕНТЫ
24 ЧАСТЬ I



прошлые данные, дают более стабильные статистические результаты и
увеличивают вероятность того, что прогностические модели будут рабо-
тать в будущем так, как работали в прошлом.
Недостатками краткосрочных временных масштабов являются необ-
ходимость получения данных в реальном времени, накопления истори-
ческих тиковых данных, применения высокопроизводительной аппара-
туры с огромным объемом памяти, использования специальных программ
и большое количество времени на занятия собственно торговлей. Необ-
ходимость в производительном компьютере с большим объемом памяти
возникает по двум причинам: (1) при тестировании системы будут исполь-
зоваться колоссальные объемы данных; (2) программы, управляющие сис-
темой, ведущие сбор данных и строящие графики, должны работать в
реальном времени, не пропуская ни одного тика. И база исторических
данных, и программы, способные справиться с такими объемами, необ-
ходимы для разработки и тестирования систем. Реальная работа требует
поступления данных в реальном времени, и хотя сейчас мощные компью-
теры вполне доступны по цене, специализированные программы и банки
исторических тиковых данных недешевы. Оплата данных в реальном вре-
мени — также заметный и постоянный расход.
С другой стороны, стоимость данных и затраты времени на торговлю
минимальны для работающих на дневных и более длительных временных
масштабах. Для большинства финансовых инструментов в Интернете дос-
тупны бесплатные данные, программы также скорее всего будут дешевле,
и торговля потребует меньше времени: систему можно запускать после зак-
рытия рынков и передавать брокеру приказы до открытия рынков утром.
Таким образом, на торговлю можно тратить около 15 минут в день, остав-
ляя больше времени на разработку системы и, естественно, на отдых.
Еще одно преимущество больших временных масштабов — возмож-
ность вести торговлю на большом количестве рынков. Поскольку не на
многих рынках уровень ликвидности и волатильности достаточен для днев-
ной торговли, а человек не способен успевать делать все сразу, внутри-
дневной трейдер может осуществлять диверсификацию только с помо-
щью нескольких торговых систем на одном рынке. Трейдер, работающий
по данным на конец дня, имеет более широкий выбор рынков и больше
свободного времени, что дает ему возможность работать на нескольких
рынках одновременно. Распределение капитала — замечательный способ
снижения риска и повышения прибылей. Кроме того, длительные времен-
ные масштабы позволяют получать большие прибыли при следовании за
сильными, продолжительными трендами; такие прибыли могут превра-
тить позицию $50 000 в миллион менее чем за год. В конце концов средне-
и долгосрочный трейдер может найти больше внешних параметров, име-
ющих потенциальные прогностические качества.
Впрочем, длительные временные масштабы не лишены недостатков.
Трейдер должен мириться с запоздалой реакцией на текущие ценовые
ДАННЫЕ 25
ГЛАВА 1




изменения, с «далекими» защитными остановками, с риском ночных из-
менений. Удерживание непрерывных позиций — психологическая на-
грузка, способная довести до бессонницы. При работе системы, основан-
ной на дневных, недельных или месячных данных, могут возникнуть про-
блемы статистической достоверности. Одним из способов обойти пробле-
мы малых выборок данных является работа с портфелями, а не с индиви-
дуальными позициями.
Какой временной масштаб лучше? Это зависит от вас, трейдера! На
разнообразных временных масштабах возможна выгодная торговля. На-
деемся, эта дискуссия пояснила ряд проблем и вариантов выбора.


КАЧЕСТВО ДАННЫХ

Плохие данные могут привести любой анализ в состояние полного хаоса,
дать потенциально убыточные заключения и привести к потере драгоцен-
ного времени. Поэтому для проведения тестов требуется применять толь-
ко лучшие из доступных данных. Некоторые прогностические системы, на-
пример основанные на нейронных сетях, могут быть чрезвычайно чувстви-
тельны к нескольким отклонениями, ошибочным данным; в таких случаях
необходимость в чистых данных особенно высока. Время, потраченное на
поиск и окончательную чистку хороших данных, не будет потеряно.
Ошибки данных принимают много различных форм, и некоторые из
них весьма заметны. При торговле в реальном времени порой попадают-
ся тики с откровенно ошибочными, попросту невозможными ценами. В
течение секунды индекс S&P 500 может «упасть» с уровня 952,00 до 250,50!
Это что — гигантский обвал рынка? Нет: спустя пару секунд в следую-
щем тике индекс опять будет на уровне 952,00 или где-то рядом. Что слу-
чилось? Плохой тик — «шумовой выброс» в данных. Такие ошибки, если
они не будут обнаружены и исправлены, могут погубить результаты са-
мой лучшей механической торговой модели. Более опасны, хотя чаще
встречаются и труднее обнаруживаются, обычные мелкие ошибки в уров-
нях цен и других показателях, попадающих к трейдеру от поставщиков
данных. Лучшие из поставщиков неоднократно проверяют свои данные
и сообщают о поправках в случае обнаружения ошибок. Например, по-
чти каждый день Pinnacle Data автоматически сообщает о программных
коррекциях ошибок. Многие из этих мелких обычных ошибок не очень
опасны для тестирования систем, но заранее этого знать нельзя.
В зависимости от чувствительности испытываемой торговой или про-
гностической модели и таких факторов, как доступность программ для
проверки данных, может иметь смысл проводить различные статистичес-
кие исследования для поиска подозрительных данных. Для обнаружения
этих точек, или выбросов, как их иногда называют статистики, существу-
ет ряд методов. Порой встречаются пропущенные, лишние и несоответ-
РАБОЧИЕ ИНСТРУМЕНТЫ
26 ЧАСТЬ I



ствующие рыночным реалиям точки данных; их следует находить и кор-
ректировать. Как пример проверки данных, в табл. 1-1 и 1-2 приведены
случаи обработки данных с помощью программы, ищущей выбросы, про-
пуски и ошибочные значения.
Табл. 1-1 изображает результат программы, проверявшей данные по
непрерывным фьючерсам на индекс S&P 500 (дневные данные от Pinnacle
Data Corporation (800-724-4903)). Программа не обнаружила неадекватных
цен или объемов в этом наборе данных; не было примеров максимальной
цены, меньшей, чем цена закрытия, минимальной, большей, чем цена от-
крытия, отрицательного объема и других ложных данных. Два дня, впро-
чем, имели подозрительно высокие значения: один — на 10/19/87 (в отче-
те 871019), а другой — на 10/13/89. Аномальное значение на 10/19/87 не
представляет собой ошибки, а связано с волатильностью, вызванной круп-
ным падением рынка; значение на 10/13/89 также не является ошибкой,
а связано с так называемым юбилейным эффектом. Поскольку эти два
значения не были ошибочными, коррекции не потребовалось. При этом
наличие таких значений в данных должно привлечь внимание к тому фак-
ту, что на рынке случаются события, когда изменения цены достигают
экстремальных пропорций, и система должна быть способна справляться
с такими случаями. Все значения в табл. 1-1 стандартизованы, т.е. вычис-
лены путем деления ценового интервала данного дня на усредненный ин-
тервал 20 предыдущих дней. Как часто бывает с рыночными данными,
распределение таких стандартизованных показателей более «растянуто»,
чем можно было бы ожидать при нормальном распределении, но, тем не
менее, статистически события 10/19/87 и 10/13/89 — исключения. Во всех
остальных случаях распределение давало упорядоченную картину: стан-
дартизованные данные изменялись от 0 до 7 и лишь в отдельных случаях
превышали 10.
Утилита также пометила 5 дней, как имеющие сильные отклонения
цены закрытия. Как и ценовой диапазон дня, отклонение измерялось в
виде распределения значений, с использованием стандартизованного со-
отношения цен закрытия. В данном случае стандартизованное соотноше-
ние вычислялось путем деления абсолютного значения разности цены
закрытия и предшествующей цены на среднее от 20 предыдущих таких
разностей.
При исключении 5 дней с наибольшими отклонениями наблюдается
подобное растянутое распределение изменений цен закрытия от 0 до 7
стандартизованных единиц. Значения, близкие к отклонению, равному
8, отмечались три раза, а значения 10 — только два раза. Рассмотрение
данных торговых дней показывает, что в них имела место аномальная ак-
тивность рынка, а не ошибка. Неудивительно, что два из пяти помечен-
ных дней — те же самые, что выделялись при рассмотрении величины
дневного диапазона цен. В конце концов программа не обнаружила про-
пущенных дней, данных, приходящихся на нерабочие дни, а также дан-
ДАННЫЕ
ГЛАВА 1 27



Таблица 1—1. Результаты программы по проверке данных непрерывных
фьючерсов на S&P 500 от Pinnacle

Проверяемый файл данных: /data/sp.lng Число полей:7
Значения данных: от 830103 до 980521
Общее количество дней: 4014

Дни с нелогичными ценами или объемами
Дата Открытие Макс Мин Закрытие Объем ОткрИнтер
Число=0

Дни с исключительными максимальными/минимальными параметрами
Дата Открытие Макс Мин Закрытие Объем ОткрИнтер Значение
871019 424.400 429.400 358.400 361.900 162022 172178 10
891013 496.100 497.550 466.950 466.950 62514 125604 10
Число=2

Распределение значений
Значение Количество
1 3838
2 128
3 11
4 6
5 5
6 1
7 0
8 0
9 0
10 2

Дни с отклонениями цены закрытия
Дата Открытие Макс Мин Закрытие Объем ОткрИнтер Значение
860911 413.450 413.450 401.550 402.350 151300 120864 8
871019 424.400 429.400 358.400 361.900 162022 172178 10
891013 496.100 497.550 466.950 466.950 62514 125604 10
911115 507.450 507.450 488.250 492.750 65533 151861 8
971027 960.400 966.300 896.400 896.400 85146 201015 8
Число=5


Распределение отклонений
Относительное отклонение Количество
1 3439
2 352
3 122
4 48
5 16
6 9
7 0
8 3
9 0
10 2

Дни с повторяющимися или перепутанными датами
Дата Открытие Макс Мин Закрытие Объем ОткрИнтер Значение
Число=0

Пропавшие данные или данные, приходящиеся на выходные
Дата Ошибка
Число=0
28 РАБОЧИЕ ИНСТРУМЕНТЫ
ЧАСТЬ I




Таблица 1—2. Результаты программы по проверке данных постоянных
контрактов AAPL

Проверяемый файл данных: ../techstks/aapl.dat Число полей:7
Значения данных: от 970102 до 981106
Общее количество дней: 468

Дни с нелогичными ценами или объемами
Дата Открытие Макс Мин Закрытие Объем ОткрИнтер
981019 0.000* 38.063 35.875 37.500 4248000 О
981030 36.500 36.500* 36.250 37.125 2836100 О
Число=2

Дни с исключительными максимальными/минимальными параметрами
Дата Открытие Макс Мин Закрытие Объем ОткрИнтер Значение
980106 15.938 20.000 14.750 18.938 16191000 0 7
Число=1

Распределение значений
Значение Количество
1 407
2 29
3 6
4 1
5 1
6 0
7 1
8 0
9 0
10 0

Дни с отклонениями цены закрытия
Дата Открытие Макс Мин Закрытие Объем ОткрИнтер Значение
970806 25.250 27.750 25.000 26.313 37430000 0 10
980102 13.625 16.250 13.500 16.250 6411700 0 10
980106 15.938 20.000 14.750 18.938 16191000 0 7
Число=3

Распределение отклонений
Относительное отклонение Количество
1 380
2 40
3 12
4 5
5 2
6 3
7 1
8 0
9 0
10 2

Данные с повторяющимися или перепутанными датами
Дата Открытие Макс Мин Закрытие Объем ОткрИнтер Значение
Число=О

Даты пропавших данных или данных, приходящихся на выходные
Дата Ошибка
970217 Пропущен
970328 Пропущен
970526 Пропущен
970704 Пропущен
970901 Пропущен
971127 Пропущен
971225 Пропущен
980101 Пропущен
980119 Пропущен
980116 Пропущен
980410 Пропущен
980525 Пропущен
980703 Пропущен
980907 Пропущен
Число=14
ГЛАВА 1 ДАННЫЕ 29



ных с повторными или перепутанными датами. Единственные проблем-
ные моменты являются следствием аномалии рынка, а не ошибок. В об-
щем набор данных по S&P можно считать чрезвычайно чистым, что и не-
удивительно, зная о высокой репутации поставщика — Pinnacle Data
Corporation.
Как пример низкого качества данных рассмотрим последовательность
котировок компании Apple Computer (AAPL), полученных авторами от
одного знакомого. Результаты проверки приведены в табл. 1-2.
В отличие от предыдущей выборки, здесь данные за два дня были по-
мечены как имеющие необъяснимые логические ошибки. В одном случае
цена открытия равнялась нулю и была ниже минимальной цены. В дру-
гом случае обнаружилась аномальная величина дневного диапазона цен
(что может быть как ошибкой, так и последствием аномальной торговли).
В нескольких случаях отмечалось сильное отклонение цены закрытия,
возможно ввиду нескорректированных дроблений акций. Повторяющих-
ся или перепутанных дат не обнаружено, но немало дней было пропуще-
но. В данном случае пропущенные точки соответствуют праздникам и, сле-
довательно, просто указывают на разный подход к работе с данными; мы
обычно по ряду причин заполняем праздничные дни данными предыду-
щего дня. При том что последовательность включает котировки только с
1/2/97 по 11/6/98 (котировки S&P 500 — с 1/3/83 по 5/21/98), обнаруже-
ние ряда серьезных ошибок с помощью довольно простой процедуры не
может не настораживать.
Суть в том, что на этих примерах показана важность приобретения
качественных данных от поставщика, имеющего хорошую репутацию и
ведущего серьезную работу. Это сэкономит время, обеспечит надежные,
чистые данные для разработки и тестирования систем и для торговли в
дальнейшем. Более глубокий обзор проблем качества данных, в том числе
и то, как, собственно, создаются рыночные котировки, как их передают и
хранят, можно найти у Джурика (Jurik, 1999).



ПОСТАВЩИКИ И ИСТОЧНИКИ ДАННЫХ
Сегодня существует множество источников для получения данных. Дан-
ные можно получать от поставщиков за отдельную плату, скачивать с раз-
личных бирж, получать из различных баз данных, доступных в Интерне-
те и на компакт-дисках.
Поставщики, взимающие дополнительную плату, такие как Tick Data
и Pinnacle, данные которых широко использовались в работе над книгой,
могут снабжать трейдеров достаточно чистыми данными в удобном для
использования формате. Они также предлагают удобные службы обнов-
ления и, по крайней мере Pinnacle, обеспечивают автоматическую кор-

<< Пред. стр.

стр. 3
(общее количество: 46)

ОГЛАВЛЕНИЕ

След. стр. >>