Linear Regression R-Squared — R квадрат в линейной регрессии

R-квадрат
Linear Regression R‑Squared (коэффициент детерминации для линейной регрессии) — это статистический индикатор, применяемый в техническом анализе для оценки качества линейной аппроксимации ценового ряда на заданном окне (периоде). Он показывает, какую долю вариации зависимой переменной (цен) объясняет линейная модель. По сути, R² отвечает на вопрос: «Какой процент вариаций целевой переменной объясняется моделью?»

Значения R² находятся в диапазоне от 0 до 1 (или от 0% до 100%):
● Значение близкое к 1 (100%) указывает на то, что цены очень хорошо выстраиваются вдоль линии тренда, что свидетельствует о сильном тренде.
● Значение близкое к 0 указывает на отсутствие линейного тренда и характерно для боковых, хаотичных или циклических рынков.
● Промежуточные значения отражают частичное объяснение вариаций.

Давайте поймем концепции R-квадрата визуально, используя диаграммы рассеяния с линейными линиями регрессии и различными значениями R-квадрата.
R-squared-explained-using-plots
Приведенные выше графики визуально представляют три различных сценария R-квадрата в линейной регрессии:

1.Высокий R-квадрат (левый участок):
Точки данных (синие) тесно связаны с линией регрессии (красные).
Это указывает на сильную линейную связь между независимыми и зависимыми переменными.
The Значение R-квадрат высокое (около 1), что позволяет предположить, что модель объясняет значительную часть дисперсии зависимой переменной.

2. Умеренный R-квадрат (средний график):
Здесь точки данных (зеленые) демонстрируют большую дисперсию вокруг линии регрессии.
Линейная зависимость все еще очевидна, но не так сильна, как в сценарии с высоким R-квадратом.
The Значение R-квадрат умеренное, что указывает на то, что модель объясняет приличную, но не подавляющую часть дисперсии.

3. Низкий R-квадрат (правый участок):
Точки данных (фиолетовые) широко разбросаны по линии регрессии.
Это указывает на слабую линейную зависимость между переменными.
Низкое значение R-квадрат предполагает, что модель не объясняет большую часть дисперсии зависимой переменной.

Индикатор помогает трейдерам отличить периоды сильного тренда от периодов консолидации или боковых движений, что позволяет выбрать соответствующую торговую стратегию.

Линейная регрессия определяет уравнение, которое дает наименьшую разницу между всеми наблюдаемыми значениями и их подобранными значениями. Точнее, линейная регрессия находит наименьшую сумму квадратов остатков, возможную для набора данных.
Линейная-регрессия-определяет-уравнение
Остаточные значения — это расстояние между наблюдаемым значением и установленным значением.

Визуальное представление R-квадрата
Чтобы визуально продемонстрировать, как значения R-квадрата представляют разброс вокруг линии регрессии, вы можете построить график подобранных значений по наблюдаемым значениям.
Визуальное-представление-R-квадрата
R-квадрат для регрессионной модели слева составляет 15%, а для модели справа — 85%. Когда регрессионная модель учитывает большую часть дисперсии, точки данных находятся ближе к линии регрессии. На практике никогда не увидишь регрессионную модель с R2 из 100%. В этом случае подобранные значения равны значениям данных, и, следовательно, все наблюдения попадают точно на линию регрессии.

К какому типу индикаторов относится Linear Regression R-Squared?
Относится к категории трендовых/статистических индикаторов (индикаторов качества тренда). Точнее — это статистический (регрессионный) индикатор, служащий для оценки силы и надежности линейного тренда. Его применяют в сочетании с собственно линейной регрессией (Linear Regression Line) для подтверждения существования тренда.


Формула расчета индикатора Linear Regression R-Squared

Пусть за окно из N точек у нас наблюдения (xi, yi), где xi — индекс времени (часто принимают 1..N), yi — цена (например, закрытие).
Математически R² определяется как отношение объяснённой дисперсии к общей дисперсии.
= 1 − (SS_res / SS_tot)
Где:
SS_res = Сумма((Actual Price — Predicted Price)²) = Σ {i=1..N} (yi − ŷi)² — сумма квадратов остатков, или необъяснённая дисперсия(разница между фактическими yi и предсказанными регрессией ŷi),
где:
— Actual Price — фактическая цена
— Predicted Price — прогнозируемая цена из уравнения регрессии

SS_tot = Сумма((Actual Price — Average Price)²) = Σ {i=1..N} (yi − ȳ)² — общая сумма квадратов относительно среднего, или полная дисперсия зависимой переменной ȳ = (1/N) Σ yi.
где Average Price — среднее значение цены за период

y = a + b*x — Построение линии линейной регрессии для ценовых данных за период
где:
y — цена (зависимая переменная)
x — порядковый номер периода (независимая переменная)
a — свободный член (точка пересечения с осью y)
b — коэффициент наклона

— Альтернативно, для простой линейной регрессии через xi и yi можно вычислять через корреляцию:
R² = r_{x,y}²,
где r_{x,y} = cov(x,y) / (σ_x σ_y).
Для равномерных xi=1..N часто используют упрощённые выражения для коэффициентов регрессии, но общий смысл остаётся: R² — квадрат корреляции между временем и ценой на окне.

Для лучшего понимания рассмотрим простой пример. Представим, что у нас есть следующие значения:
у-нас-есть-следующие-значения
Среднее фактическое значение ȳ = 14. Рассчитаем:

SSres = 1 + 1 + 1 + 4 + 1 = 8
SStot = 16 + 1 + 4 + 25 + 0 = 46
R² = 1 – (8/46) ≈ 0.826 или 82.6%
Таким образом, наша модель объясняет примерно 82.6% вариации данных, что в большинстве контекстов считается хорошим результатом.

В многомерных регрессиях, где используется несколько независимых переменных, R² также интерпретируется как квадрат коэффициента множественной корреляции между зависимой переменной и предсказанными значениями.

Давайте рассмотрим следующую диаграмму, чтобы понять понятия R-квадрат.
linear-regression-f-statistics-definition
Обратите внимание на некоторые из следующих моментов на приведенной выше диаграмме в отношении изучения концепций R-квадрата.

Горизонтальная красная линия представляет собой среднее значение всех значений переменной отклика регрессионной модели. На диаграмме оно представлено как среднее значение фактического значения переменной/ответа.

Изменение фактических значений от среднего или горизонтальной линии представлено как функция отклонения точек от среднего значения. Таким образом, отклонение значений от среднего значения рассчитывается как сумма квадрата расстояния отдельных точек от среднего значения. Это еще называется сумма квадратов всего (SST).


R-квадрат в линейной регрессии можно интерпретировать следующим образом:

Оценка силы тренда:
● Значения выше 0.7 (70%) указывают на сильный тренд.
● Значения между 0.3 и 0.7 (30-70%) указывают на умеренный тренд.
● Значения ниже 0.3 (30%) указывают на слабый тренд или его отсутствие.

Выбор торговой стратегии:
● При высоких значениях R² (сильный тренд) эффективны стратегии следования за трендом.
● При низких значениях R² (боковое движение) эффективны стратегии торговли в диапазоне.

Поиск точек перехода:
● Увеличение R² может сигнализировать о формировании нового тренда.
● Уменьшение R² может сигнализировать об ослаблении тренда и возможной консолидации или развороте.

Фильтрация сигналов:
● Сигналы от трендовых индикаторов более надежны при высоких значениях R²
● Сигналы от осцилляторов более надежны при низких значениях R²

Комбинирование с другими индикаторами:
● R² часто используется для определения режима рынка, после чего применяются соответствующие индикаторы.
Например, при высоком R² можно использовать скользящие средние, а при низком — стохастический осциллятор.

Оценка предсказуемости рынка:
● Высокие значения R² указывают на более предсказуемое движение цены в краткосрочной перспективе.
● Низкие значения R² указывают на более хаотичное, непредсказуемое движение.

Временные рамки:
● R² может давать разные результаты на разных временных рамках.
● Сравнение R² на разных таймфреймах может дать дополнительную информацию о структуре рынка.

В практике аналитики часто недооценивают контекст. Согласно отчету American Statistical Association за 2024 год, в 65% публикаций по эконометрике R квадрат интерпретируют слишком буквально, игнорируя размер выборки. Это приводит к переоценке моделей. Чтобы избежать этого, всегда проверяйте корректированный R квадрат, который учитывает количество предикторов и предотвращает «надувание» значения.

Некоторые ограничения использования R²:
● Значение R² увеличивается (не уменьшается) от добавления в модель новых переменных, даже если эти переменные никакого отношения к объясняемой переменной не имеют. Поэтому сравнение моделей с разным количеством факторов с помощью R² некорректно.
● Отрицательное значение R² возможно только при линейной регрессии, когда либо пересечение, либо наклон ограничены таким образом, что «наиболее подходящая» линия (с учётом ограничения) подходит хуже, чем горизонтальная линия.
● R² не отражает надёжность модели — он не говорит, хороша ли выбранная модель или плоха, и не говорит, являются ли данные и прогнозы предвзятыми.

В инвестировании R-квадрат обычно интерпретируется как процентное соотношение движений фонда или ценной бумаги, которые можно объяснить движениями базового индекса. Например, R-квадрат для ценной бумаги с фиксированным доходом по сравнению с индексом облигаций показывает, какая доля движения цены ценной бумаги предсказуема на основе движения цены индекса.

То же самое можно применить к соотношению акций и индекса S&P 500 или любого другого соответствующего индекса. Это также может называться коэффициентом детерминации.

Значения R-квадрата варьируются от 0 до 1 и обычно указываются в процентах от 0 % до 100 %. Значение R-квадрата, равное 100 %, означает, что все движения ценной бумаги (или другой зависимой переменной) полностью объясняются движениями индекса (или любой другой независимой переменной, которая вас интересует).

При инвестировании высокий R-квадрат, от 85% до 100%, указывает на то, что показатели акций или фонда движутся относительно в соответствии с индексом. Фонд с низким коэффициентом R в квадрате, равным 70% или менее, указывает на то, что фонд обычно не следит за изменениями индекса. Более высокое значение R в квадрате укажет на более полезную бета-цифру. Например, если коэффициент детерминации акций или фонда близок к 100 %, но бета-коэффициент ниже 1, то, скорее всего, они предлагают более высокую доходность с поправкой на риск.

Инвесторы анализируют акции: регрессия цены vs экономические индикаторы дает R²=0.7, но в волатильные периоды (как 2024 инфляция) он падает, сигнализируя о рисках.