ПРИКЛАДНАЯ МАТЕМАТИКА

УДК 621.39.1:519.24

В.К. Брутян

Адаптивное управление сложными
системами при непредсказуемых возмущениях

(Представлено академиком Ю.Г. Шукуряном 20/I 2000)

    1. Введение. В автоматических системах действия внешних возмущений (ВВ) компенсируются соответствующим синтезом оптимального закона управления (ОЗУ). Если имеется статистическая информация о случайных ВВ, минимизации подвергается математическое ожидание функционала качества по отношению к среднему значению ВВ [1-6]. Основным недостатком такого подхода является невозможность учета различий между ВВ с одинаковыми численными характеристиками, но с различной формой и амплитудой. Это означает, что имеющиеся начальные сведения о возможной форме и амплитуде ВВ не используются при решении задач оптимального управления. Сказанное целесообразно пояснить на примере функции x(t), которая удовлетворяет скалярному линейному дифференциальному уравнению с постоянными коэффициентами g0x(m)(t)+g1x(m-1)(t)+ј+gmx(t)=h(t), где h(t)- непредсказуемые ВВ. Общее решение соответствующего однородного уравнения представляет собой линейную комбинацию совокупности m различных собственных решений, структура которых полностью определяется выбором параметров (g0, g1јј, gm). Очевидно, что, если h(t) является последовательностью ВВ, время появления и интенсивность которых непредсказуемы, то функция x(t), представляет собой линейную комбинацию известных собственных решений со случайно изменяющимися весовыми коэффициентами. Это означает, что априорно известна возможная функция x(t), но не известны конкретные сведения о ее действительной форме и амплитуде [7,8]. В примере рассматривалось стационарное линейное дифференциальное уравнение. Вообще говоря, можно оперировать и сложными формами функции возмущений, полученными из нелинейных дифференциальных уравнений с переменными коэффициентами [9].
   В настоящее время не существует общей теории управления при наличии любых ВВ, имеющих случайную интенсивность и появляющихся в случайные моменты времени. В связи с этим в данной работе разрабатывается метод, согласно которому ОЗУ с обратными связями при наличии непредсказуемых ВВ адаптируется к любым скачкам, появляющимся в функциях возмущений x(t).
   2. Постановка задачи. Пусть управляемая система описывается нелинейным дифференциальным уравнением

(1)

где x(t) является n -мерным векторным процессом, представляющим вектор-состояние (в.с.) системы, y(ј) - n -мерная, достаточно гладкая по всем аргументам векторная нелинейная функция, определенная в некоторой области X пространства Eu, u(t) -r-мерный вектор управления, причем его значения находятся в выпуклом компактном подмножестве U М Er, x(t) - l-мерная векторная функция ВВ, D(t) и G(t) - матрицы соответствующих размерностей.
   Наблюдение в.с. системы (1) является m-мерным векторным процессом, описываемым уравнением  

  y(t)=h(x(t), t),
(2)

где h(ј) - достаточно гладкая по всем аргументам m-мерная векторная известная алгебраическая нелинейная функция в.с. x и времени t, (m Јn ).
   Для справедливости последующих рассуждений необходимо, чтобы входящие в уравнения (1) и (2) функции удовлетворяли предположениям [1,10,11]:
   1) функции y(ј), h(ј) должны удовлетворять равномерному условию Липшица по переменной x и быть ограничены следующим образом:

 ||y(x,t)||Ј k1(1+|x|)1/2||h(x,t)||Ј k2(1+|x|)1/2
где действительные положительные постоянные  k1 и k2 не зависят от x и t, а символ || · || обозначает евклидовую норму;
   2) конечное целевое множество задано уравнением j(x(t), T)=0, где j - кусочно-дифференцируемая функция, которое разрешимо относительно T. Предполагается, что функционал качества имеет вид

(3)

Здесь (^) имеет смысл оценки в.с. системы, вычисленной при известном значении y(s), t. F и L - конечные, положительные, нелинейные, кусочно-непрерывные скалярные функции от всех аргументов. Предполагается также, что будущее поведение ВВ непредсказуемо из текущих значений в.с. системы и что свойства ВВ определяются решением дифференциальных уравнений, которым по определению оно удовлетворяет. В общем случае x(t) определяется решениями следующих нелинейных и нестационарных уравнений:

(4)

где z(t) - l-мерный в.с. возмущений, h(t) -l-мерный вектор непредсказуемых ВВ. Предполагается, что h(t) - вектор последовательностей дельта-функций со случайными интенсивностями и случайными моментами появления, а вектор z в дальнейшем будем называть "дополнительным в.с. возмущений". Q и V - известные достаточно гладкие по всем аргументам l-мерные векторные функции.
   Теперь вместо (1) можно рассмотреть систему уравнений

(5)

где v(t) - n +l-мерный расширенный в.с. содержит дополнительный в.с. системы и тем самым связан с BB.
   Предполагается, что стратегия ОЗУ содержит два компонента(u*1(t),u*2(t)), первый из которых предусмотрен для случая, когда отсутствуют скачки в ВВ, а второй - для случая, когда будущее поведение этих возмущений непредсказуемо из текущих значений в.с. системы. Последний компонент можно представить в виде u*2(t)=u*2(x(t),x(t),t). Для того чтобы обеспечить быструю нейтрализацию действий ВВ в системе (5) для всех x О X, t ОIt необходимо, чтобы при u*2(x(t),x(t),t удовлетворялось равенство

D(t) u*2(x(t), 0, t)=D(t)u*2(x(t), x(t),t)+G(t)x(t)
(6)

для любого возможного BB. Следует заметить, что учет условия (6) обеспечивает полную адаптацию u*(t) к любым скачкам, появляющимся в функции BB.
   Задача синтеза состоит в определении такого остро реагирующего ОЗУ u*(t) О U системы (5), который при соблюдении алгебраического равенства (6) и при неполных наблюдениях (2) минимизирует функционал качества (3).
    3. Метод оптимальной адаптации закона управления к действиям непредсказуемых ВВ. Поставленная задача решается путем использования принципа максимума Понтрягина [1,11]. Вначале задача решается при h(t)=0. Вводя n+l-мерный сопряженный вектор p=[px, pz], можно сформулировать гамильтониан

H=бpxў,y(x,t)+D(t)u(t)+G(t)Q(v,t)с+бpzў, V(v,t)с-L(x,u,t),
где H H(v,p,u,t),  б.,.с - символ скалярного произведения.
   ОЗУ определяется из соотношения
                                                           maxH
=0.
                                                        u О U, t О It
 Приравнивая производную H/u к нулю, можно получить
u*(t)=u*(v,p,t).
(7)
Канонически сопряженные уравнения имеют вид

(8)

   Далее, если положить H*(v,p,t) = H(v,p,t,u*), то dH*(v(t),p(t),t)/dt = H*t (v(t),p(t),t). Пусть при t=T уравнения (8) удовлетворяют условиям трансверсальности

n
е
i=1 
й
к
л
pxi(T)+Fxi(x,T) щ
ъ
ы
dxi/dt=H*(v,p,T)-FT(x,T),   pz(T)=0,  Ft ¶F/t      

для любого направления (dt, dx), касательного к конечному целевому множеству j(x, t)=0 в точке x=x(T), t=T.
   Следует рассмотреть вопрос интегрирования уравнений (8) в обратном времени t = T-t. Пусть условия трансверсальности удовлетворяются по крайней мере для части неизвестного вектора pv(T). Иными словами, пусть n компонент вектора pv(T) определен с помощью k-мерного параметрического вектора q=(q1јqk), k Ј n , т. е. pv(T)=p(vT,q). Следовательно, если выбран произвольный вектор q, то значения конечных условий vT, pT полностью определены. Пусть выбраны значение xT и соответствующее время T = j 1(xT) и пусть, кроме того, известно zT. Тогда, так как pz(T)=0, условие трансверсальности удовлетворяется при фиксированном pх(T), определяемом с помощью k-мерного вектора q, можно записать px(T)=px(vx, q). Далее пусть v0, p° - значения v(t), p(t) при t = T-t0. Если для уравнений (8) справедливы обычные условия существования и единственности решения, то значения v0, p° однозначно определяются через заданные vT, pT, T, t0.
   Итак имеем v0=v0(vT, q, t0),  p0=p0(vT, q, t0). Решая первое уравнение относительно vT, можно получить vT=vT(vT, q, t0). Подставляя это решение обратно в уравнение, можно определить q через v0, t0, т. е. q = q (v0, t0). Следовательно, вектор p° можно представить в виде p0 = p0(v0, t0). Подстановкой последнего выражения в формулу (7) получается u*(t) = u*(v,p(v,t),t) или

u*(t)=u*(v,t),
(9)

из чего следует, что ОЗУ является (в общем случае нелинейной) функцией только текущих значений расширенного в. с.
   4. Реализуемость оптимального закона управления при неконтролируемых ВВ. Из вышесказанного не ясно, является ли ОЗУ, содержащий дополнительный в.с. z(t) и тем самым связанный с ВВ, реализуемым или нет. Выше при определении ОЗУ (9) в системе (5) пренебрегается наличие h(t), влияние которого проявляется в появлении неконтролируемых ВВ x(t). Главный вопрос, который возникает в отношении ОЗУ, заключается в том, каким образом стратегия ОЗУ u* (t) должна адаптироваться к ВВ. Поскольку не существует обоснованного подхода для данной ситуации, то остается высказать определенное предположение, а именно, что управление (9) является оптимальным также для случая, когда h(t) является полностью неконтролируемой последовательностью изолированных друг от друга дельта-функций. Основанием для такого предположения является возможность использования метода оптимальной адаптации к любым ВВ, т. е. в любой момент времени t ОIt текущее значение v(t) является достаточной информацией для выбора u* (t)=u*(u*1(t),u*2(t)), содержащего как компонент u*1(t)=u*1(v,t) для случая, когда отсутствуют ВВ, так и компонент u*2(t)=u*2(x,Q(v,t),t) для случая, когда ОЗУ адаптируется к непредсказуемым ВВ. Таким образом, основанием для развития нового метода является возможность использования метода адаптации к ВВ даже в том случае, когда будущее поведение функции x(t) неизвестно и неконтролируемо из текущего значения z(t).
   Рассмотрим реализуемость ОЗУ, содержащих дополнительный в.с. z(t), связанный с ВВ. При неполных наблюдениях (2) ОЗУ условно зависит от y(t), т. е. вместо u* (t) имеем

(10)

где   - подлежащий определению функционал, соответствующий ОЗУ.
Задача реализуемости ОЗУ состоит в том, чтобы установить возможность формирования (9) в виде (10). Для этого вводится модифицированное понятие "конструируемости оценки расширенного в.с.", которое дополняет понятие наблюдаемости, введенное Калманом [1,10,11]. Предполагается, что оценка   является полностью конструируемой, если она в любой момент времени вычисляется по предыдущим значениям y(t), u(t) некоторым физически реализуемым функционалом

 Поскольку конструируемость в соответствии с (10) связана с реализацией ОЗУ (9), то можно сформулировать следующее положение. Пусть (t0, T) означает интервал времени It, из которого исключены моменты появления h(t). Тогда достаточным условием того, что ОЗУ (9) может быть реализован в форме (10), является полная конструируемость оценки  на интервале (t0, T]. Замечание. Следует заметить, что важной задачей остается возможный принцип конструируемости оценки, который обеспечил бы получение текущих значений v(t) по предыдущим значениям (y(t), u(t), t),  t О [t0, t],  t О (t0, T]. К сожалению, такой общий принцип в настоящее время отсутствует, хотя исследования в этом направлении ведутся интенсивно. Тем не менее в рассмотренном ниже важном частном примере указывается принцип выполнения свойства конструируемости оценки расширенного в.с. v(t).
   5. Применение разработанного метода адаптации. В задачах управления объектами различной физической природы наиболее часто встречается случай, когда имеется ограниченная априорная информация о характеристиках ВВ. Представляет интерес ситуация, когда априорно известен только возможный вид ожидаемых возмущений. Принято считать, что возмущающие факторы вызывают лишь нежелательные эффекты и их действие необходимо компенсировать соответствующим управлением. Однако в ряде случаев выгодно использовать ВВ для уменьшения расхода энергии и/или времени, затрачиваемых на управление. Использование энергии ВВ требует весьма тонкого выбора ОЗУ, что возможно при применении мощного математического аппарата современной теории оптимального управления. Можно рассмотреть три возможных аспекта задачи адаптации к ВВ при оптимальном управлении:
   1. точная компенсация ВВ;
   2. оптимальное парирование действия ВВ;
   3. оптимальное использование ВВ в качестве вспомогательного фактора
       при оптимальном управлении.
   Чтобы реализовать полную нейтрализацию действия ВВ, необходимо поступить следующим образом. Рассмотрим правую часть уравнения (1) и определим, что при ОЗУ u*2(x, t, x) справедливо равенство (6). Это значит, что функция u*2(x, t, x) должна удовлетворять определенным необходимым алгебраическим условиям для того, чтобы была возможна точная компенсация ВВ (случай линейного объекта рассмотрен в примере, приведенном ниже). Тогда, используя функцию Q(x, z, t) (см. уравнение (4)), выбираем u*2(t) в форме u*2(x, t, Q(x, t, z)). Теперь можно уравнение (1) представить в виде

для всех ожидаемых ВВ. Возможность данной операции определяется видом уравнения (1). В линейной задаче (см. ниже уравнение (11)) это всегда возможно, что иллюстрирует приведенный пример. Управление u*1(t) выбираем таким образом, чтобы минимизировать функционал (2) изложенным выше методом принципа максимума, развитым для задачи оптимального управления при отсутствии ВВ. Для реализации процесса оптимального парирования ВВ выбираем функцию u2(x, t, Q) так, чтобы минимизировать ВВ и в правой части уравнения (1). Такого рода задачи рассмотрены в предшествующих работах [1,12].
   Наибольший интерес представляет третий тип адаптации к действию ВВ, а именно, случай, когда ВВ активно используются при управлении. Основная идея заключается в выборе такой структуры функционала (2), чтобы при его минимизации выполнялась не только основная задача управления, но и максимально использовалось ВВ. Например, если необходимо обеспечить x(t)=при заданном времени и минимальном расходе энергии на управление, то целесообразно функционал выбрать следующим образом: 

J = T
у
х
t0 
L1(x) + L2(u)]dt, где L1(·) и L2(·)

 

положительно определенные скалярные функции. В задаче оптимизации по быстродействию с ограниченным управлением можно использовать действующие ВВ как возможное средство дополнительного уменьшения времени управления.
     6. Задача конструируемости оценки расширенного в.с. v(t). Так как, по предположению, функции y(ј), h(ј), V(ј) и Q(ј) могут быть разложены в ряд Тейлора в некоторой непустой окружности вокруг заданных номинальных траекторий, то можно построить линеаризованную систему, описываемую уравнениями

(11)

y(t)=h(t)x(t),

(12)

(13)

x(t)=F(t)V(t),   F(t   [F1(t)   F2(t)],

(14)

где

известные матрицы соответствующих размерностей.
   В этом случае исходная задача конструируемости оценки расширенного в. с. может быть сформулирована следующим образом: определить способ конструирования, который работает по неполным наблюдениям (y(t), u  (t),t), t О [t0, t], выдавая значения v(t),  t О (t0, T], где (v(t), y(t)) являются произвольными решениями уравнений (11) - (14). Рассмотрим этот способ. Целесообразно объединить уравнения (11) и (14)

(15)

и сформулировать утверждение.
Утверждение. Пусть оценка расширенного в.с. линеаризованной динамической системы (11) - (14) удовлетворяет дифференциальному уравнению расширенного оценивающего устройства (РОУ):

(16)

где

и пусть матрица коэффициентов усиления   корректирующего члена выбрана так, что все решения соответствующего однородного уравнения приближаются к номинальному значению за относительно малое время переходного процесса. Тогда ошибка конструируемости

(17)

стремится к нулю.
   Доказательство. Дифференцируя равенство (17) по времени и используя уравнения (12), (13) и (15), можно получить

(18)

Матрицы, определяющие собственные решения уравнений (16), (18), по структуре совпадают, что и доказывает сформулированное утверждение.
   Теперь рассмотрим вопрос вычисления матриц k1(t) и k2(t) , которые обеспечивают требуемые свойства РОУ. Из теории управления линеаризованных систем при неполных наблюдениях в.с. известно, что уравнение РОУ (16) состоит из двух частей [13,14]. Первая часть отвечает линеаризованным уравнениям, а вторая часть представляет собой некоторый корректирующий член, пропорциональный разности Таким образом, если фактический расширенный в.с. неизвестен, то для получения его оценки можно воспользоваться РОУ, а закон управления формировать в соответствии с положением   Следует заметить, что, если однородное уравнение, соответствующее уравнению (18), имеет вид

(19)

и если матрица   на It определяется соотношением [1,6]

(20)

где R(t) является квадратичной, симметричной и полуопределенной матрицей, удовлетворяющей матричному уравнению Риккати

(21)

в котором S - любая заданная положительно определенная симметричная матрица, то время переходного процесса может быть сделано произвольно малым выбором достаточно большой нормы ||S|| и однородная часть уравнения (18) асимптотически устойчива. Знание матрицы R(t) позволяет оценить ошибку конструируемости и качество переходного процесса.
   7. Пример применения метода адаптации в линейных системах. Пусть управляемая система описывается уравнениями (11) - (14). Задача состоит в выборе такого ОЗУ u*(y,t) О U системы (11) - (14), который при соблюдении алгебраического равенства (6) и при неполных наблюдениях (2) удерживает управляемую систему вблизи невозмущенного состояния при действии неконтролируемых ВВ и минимизирует квадратический функционал качества.
   Для решения этой задачи ОЗУ представляется в виде

u*(t)=u*1(t)+u*2(t),
(22)

где u*1(t) обеспечивает условие x(t)®  ,   a   u*2(t) предназначено для подавления влияния x(t).
   Функционал качества (3) имеет вид

 

где GT и B(t) - положительно полуопределенные n x n -мерные симметрические матрицы, E(t) - положительно определенная t x t-мерная симметрическая матрица, т. е. xTўGTxTі 0,  xўBxі 0,  uўEu > 0 для всех ненулевых векторов x О X, u1 О U, причем B(t) и E(t) - непрерывные и локально ограниченные на интервале времени It.
   В соответствии с процедурой, изложенной в пункте 5, условием для существования управления u2 является выполнение равенства (6). В данном случае управление u2   u*2(x,x,t) существует тогда, когда можно выбрать управление u2   u*2(x,x,t) так, что выполняется равенство (6) для всех значений x = F1(x)+F2(z), где переменные (x, z, t) произвольны. Пусть ранг матрицы [F2F1]ў равен r. Это условие всегда можно выполнить, если ввести некоторые преобразования:

и

При этом равенство (6) удовлетворяется тогда, когда для некоторой матрицы M(t) справедливо равенство

G(t)=D(t) · M(t)
(23)
или
Ранг  [D(t)  G(t)]=Ранг  [D(t)],    t ОIt..
(24)
   Заметим, что если ранг матрицы D(t) равен r на интервале It, то из теории матриц следует, что условия (23) и (24) выполняются тогда, когда


G0ўG0 = G0ўD0[D0ўD0]1D0ўG0,   t О It.
   Пусть удовлетворено тождество (23). Тогда закон управления в форме
u2=u2(x,t,x)=-M(t)x(t)
(25)

обеспечивает справедливость равенства (5).
   Подставляя выражения (22), (25) в уравнение (11), можно получить

Далее, применяя к этой системе теорию управления детерминированных систем [1,11], можно определить

                                              u*1(t)=-C(t)x* (t),    C(t) E 1(t)Dў(t)G(t), 
(26)

где G(t) удовлетворяет матричному уравнению Риккати

Подставляя соотношения (25) и (26) в равенство (22) и преобразуя последнее с помощью уравнения (14), можно получить

                                               u*(v*,t)=-C(t)x*(t)-M(t)F(t)v*(t).

На основании утверждения, заменяя u*(v*,t) на

(27)

нетрудно определить уравнение РОУ в виде

     Следует заметить, что ошибка dv(t) определяется уравнением (18).   выбирается в соответствии с (19)-(21) так, чтобы dv(t)® 0 достаточно быстро. Структурная схема линеаризованной системы управления показана на рис.1. Следует  также заметить, что ОЗУ  (27)  совместно с уравнением  (25)  может

     Рис. 1. Структурная схема линеаризованной системы управления. 1 - управляемая
     система, 2 - управляющее устройство, 3 - подсистема ВВ, 4 - аналог подсистемы ВВ.
   

Рис. 2. Структурная схема линеаризованной системы управления при кусочно-
    постоянных возмущениях. 1 - управляемая система, 2 - управляющее устройство.

обеспечить оптимальный процесс x*(t) при любых ВВ, которые могут быть генерированы  с  помощью  системы, описываемой уравнениями (13), (14). Система управления, представленная на рис. 1, обладает способностью адаптации к широкому классу ВВ. Во многих приложениях ВВ изменяются достаточно медленно и могут быть представлены в виде кусочно постоянных функций со случайными амплитудами, изменяющимися в случайные моменты времени [15,16]. В этом случае можно точно определить ВВ, положив W(t)=F1(t)=0, F2(t)=1 в уравнениях (13), (14). Тогда схема, представленная на рис. 1, упрощается и приводится к виду, показанному на рис. 2. Нетрудно убедиться, что управляющее устройство на рис. 2 является обобщением классической схемы пропорционально интегрального регулятора.
   8. Заключение. При наличии непредсказуемых ВВ рассмотрена задача адаптивного управления сложными системами, которая решена путем использования принципа максимума. Установлено, что ОЗУ является (в общем случае нелинейной) функцией только текущих значений расширенного в. с. и рассмотрена реализуемость ОЗУ. Достаточным условием того, что ОЗУ может быть реализован, является полная 0конструируемость оценки расширенного в. с. Построена линеаризованная динамическая управляемая система и разработан метод конструирования оценки расширенного в. с., который обеспечивает адаптацию ОЗУ к действию любого ВВ. Получено дифференциальное уравнение РОУ и рассмотрен вопрос вычисления матрицы усиления РОУ. Приведен пример и исследованы вопросы применения разработанного метода, процесс адаптации и полученные результаты.
 

   Военный институт МО РА
 

Литература

     1. Брутян В. К. Основные аспекты теории непрерывных марковских управляемых систем и ее приложение. Ерeван: Айастан, 1984. 296 с.
     2. Брутян В. К. - Известия АН АрмССР. Сер. ТН. 1990. T. 63. № 6. С. 291-296.
     3. Брутян В. К. - ДАН АрмССР. 1990. T. 92. № 5. С. 131-135.
     4. Брутян В. К. - ДАН АрмССР. 1991. Т. 92. № 4. С. 154-161.
     5. Брутян В. К. Автоматика и телемеханика. 1980. № 7. с. 51-61.
     6. Брутян В. К. - Известия АН СССР. Техн. кибернетика, 1980. № 6. С. 27-36.
     7. Брутян В. К. Некоторые вопросы применения марковских процессов к исследованию нелинейных автоматических систем. Ереван:
     Изд-во ЕГУ.   1974.  198 с.
     8. Брутян В. К. - ДНАН Армении. 1993. Т. 94. № 5. С. 281-289.
     9. Брутян В. К. - Известия НАН и ГИУ Армении. Сер. ТН. 1995. Т.48. № 1. С. 22-27
     10. Дэвис М. Х. А. Линейное оценивание и стохастическое управление. М.: Наука, 1978. 552 с.
     11. Ройтенберг Я. Н. Автоматическое управление. М.: Наука, 1978. 552 с.
     12. Брутян В. К., Саргсян В. В. - ДАН АрмССР. Т. 97. № 1. 1997. С. 24-32.
     13. Брутян В. К. - ДАН АрмССР. 1990. Т. 90. № 2. С. 65-71.
     14. Пугачев В. С., Синицын И. Н. Стохастические дифференциальные системы. М.: Наука, 1985. 560 с.
     15. Брутян В. К., Бадалян А. Р. - ДАН АрмССР. 1998. Т. 99. № 1. С. 19-24.
     16. Брутян В. К., Бадалян А. Р. - Известия НАН и ГИУ Армении. Сер. ТН. 1998. Т. 55. № 2. С. 25-33.