To jest stara wersja strony!
Niepewność wiedzy
Załóżmy, ze zadaniem inżyniera wiedzy jest dobór właściwej reprezentacji wiedzy dla następującego fragmentu wiedzy medycznej, która będzie
zapisana w bazie wiedzy przyszłego systemu ekspertowego wspomagającego diagnozę w przypadku chorób serca:
> ”Miażdżyca powoduje często zwężenie tętnic wieńcowych. Prowadzi to zazwyczaj do zmniejszenia przepływu krwi w tych naczyniach, co może wywołać niedotlenienie mięśnia sercowego, zwłaszcza przy wysiłku fizycznym”. |
---|
Wykorzystując reprezentacje wiedzy w postaci rachunku predykatów (czy np. reguł w postaci klauzul Horna) inżynier wiedzy zmuszony byłby
do przekształcenia powyższego zdania do ścisłej formy umożliwiajacej
zastosowanie klarownych implikacji:
”Miażdżyca powoduje zwężenie tętnic wieńcowych. Prowadzi to do zmniejszenia |
---|
> przepływu krwi w tych naczyniach, co wywołuje niedotlenienie mięśnia |
---|
> sercowego przy wysiłku fizycznym”. |
---|
Niepewność wiedzy
Niestety prowadzi to do znacznej radykalizacji prezentowanych stwierdzeń oraz potencjalnych problemów z odwzorowaniem ostatniej części zdania.
Najważniejszą wadą jest uniemożliwienie przywiązania różnych wag do poszczególnych symptomów.
Lekarz bowiem jest zainteresowany informacjami o dużo subtelniejszej naturze niż stwierdzenie, ze pacjent z miażdżycą ma niedotlenionymięsień sercowy (co wydaje sie oczywiste lecz nie zawsze prawdziwe).
Kardiolog może oczekiwać od przyszłego systemu ekspertowego, że będzie ”umiał” on odpowiedzieć np. na pytania:
▪ jaki ma wpływ wysiłek fizyczny na niedotlenienie mięśnia sercowego u ludzi z jednakowo posuniętą miażdżycą, wykonujących wysiłek fizyczny o różnym natężeniu?
▪w jakim stopniu człowiek u którego nie występuje niedotlenienie z powodu wysiłku, narażony jest na zwężenie tętnic z powodu miażdżycy?
Niepewność wiedzy
Wiedza uzyskana od ekspertów jest często
● niepewna;
● niekompletna;
● niespójna;
● niedoskonała.
Systemy ekspertowe muszą być w stanie radzić sobie z wiedzą tego typu.
Niepewność wiedzy
Istnieją różne podejścia umożliwiające odwzorowanie
przykładowego fragmentu wiedzy medycznej w swej pierwotnej postaci oraz umożliwiające realizacje
procesu wnioskowania również w przypadku postawionych poprzednio pytań.
Podejścia te opierają się zwykle na metodach numerycznych.
Do najważniejszych należą metody:
▪probabilistyczne,
▪wielowartościowe,
▪rozmyte
▪wykorzystujące teorię Dempstera-Shafera.
Niepewność wiedzy
Eksperci są w stanie podejmować decyzje w oparciu o swoją często niedoskonałą wiedzę.
Systemy ekspertowe również muszą być w stanie radzić sobie z wiedzą tego typu.
> Niepewność można zdefiniować jako brak dokładnej wiedzy, tzn. takiej, która umożliwia podejmowanie w |
---|
> pełni uzasadnionych decyzji i w pełni wiarygodnych wniosków. |
---|
Czym jest niepewność? Z formalnego punktu widzenia
Klasyczna logika zakłada, że dostępna wiedza jest doskonała oraz że zawsze jest spełnione prawo wyłączonego środka:
IF A jest TRUE THEN A nie jest FALSE IF A jest FALSE THEN A nie jest TRUE
Źródła niepewności
● Nieprecyzyjność języka naturalnego
● Trudności ze sformułowaniem zależności w postaci reguł● Łączenie wiedzy kilku ekspertów
● Niekompletność danych, na których system ma
operować
Nieprecyzyjność języka naturalnego
> ● Always 99 | > ● Always 100 |
---|
> ● Very often 88 ● Usually 85 ● Sometimes 20● Usualluy not 10● Never 0 | > ● Very often 87 ● Usually 79 ● Sometimes 29● Usualluy not 16● Never 0 |
---|
Łączenie wiedzy kilku ekspertów
W rozwoju systemów ekspertowych bierze udział wielu
ekspertów.
Eksperci często mają odmienne zdanie na dany temat.
Ich wiedza często jest na różnym poziomie w zależności od
zagadnienia w danej dziedzinie.
Metody umożliwiające reprezentacje niepewności wiedzy:
▪probabilistyczne,
▪wielowartościowe,
▪rozmyte
▪wykorzystujące teorię
Dempstera-Shafera.
Metody probabilistyczne POJĘCIA PODSTAWOWE
Systemy ekspertowe i wiedza niepewna Załóżmy, że mamy regułę w postaci:
IF E is TRUE THEN H is TRUE {z prawd. p} Reguła ta mówi, że jeśli wystąpi E to H wystąpi z
prawdopodobieńśtwem p.
IF jest ładna pogoda THEN może pójdę na spacer {0.9}
E: pogoda jest ładna
H: może pójdę na spacer
Teoria prawdopodobieństwa
● Prawdopodobieństwo zdarzenia A to liczba z przedziału
[0,1] wyrażająca proporcję przypadków, kiedy dane
zdarzenie zachodzi.
● p(A) = 0 – całkowita niemożliwość● p(A) = 1 – całkowita pewność
Jeśli wynikiem może być sukces lub porażka:
p(sukces) = liczba_sukcesów / liczba_prób
p(porażka) = liczba_porażek / liczba_prób
Aksjomaty prawdopodobieństwa
Rozkład zmiennej losowej (Gaussa)
1 F(x)
P-wo, że X
mieści się w ∆
f(x)
∆m
20
Prawdopodobieństwo warunkowe
Załóżmy, że zdarzenia A i B nie są wzajemnie
wykluczające się.
Prawdopodobieństwo zdarzenia A może zależeć od tego,
czy miało miejsce zdarzenie B.
p(A|B) = liczba_wystąpień_A_oraz_B / liczba_wystąpień_B
Prawdopodobieństwo warunkowe
Prawdopodobieństwo tego, że wystąpi A i B nazywamy prawdopodobieństwem łącznym tych zdarzeń.
Zatem prawdopodobieństwo warunkowe definiujemy jako:
Prawdopodobieństwo warunkowe
Analogicznie prawdopodobieństwo B pod warunkiem A:
Prawdopodobieństwo łączne jest przemienne:
Wzór Bayesa
p(A) – prawdopodobieństwo zdarzenia A
p(B) – prawdopodobieństwo zdarzenia B
p(A|B) – prawdopodobieństwo zdarzenia A pod warunkiem, że zaszło zdarzenie B p(B|A) – prawdopodobieństwo zdarzenia B pod warunkiem, że zaszło zdarzenie A
prawdopodobieństwo zajścia jakiegoś zdarzenia (faktu). Jest to oczywiście
prawdopodobieństwo zajścia zdarzenia A pod warunkiem zdarzenia B - co odpowiada
prostej regule ”Jezeli B to A”, którego ogólna postać wygląda następująco:
Prawdopodobieństwo całkowite
Jeśli Bi i=1…n wyczerpują wszystkie
> ![]() | ![]() | > możliwe zdarzenia: S – zbiór wszystkich możliwych zdarzeń; wtedy prawdopodobieństwo całkowite p(A): |
---|
Reguła Bayesa
Reguła Bayesa
Wzór ten jest podstawą do obsługi niepewności w systemach ekspertowych z wykorzystaniem metod probabilistycznych.
Systemy ekspertowe i wiedza niepewna Załóżmy, że mamy regułę w postaci:
IF E is TRUE THEN H is TRUE {z prawd. p}
Reguła ta mówi, że jeśli wystąpi E to H wystąpi z
prawdopodobieńśtwem p.
Systemy ekspertowe i wiedza niepewna
> IF E is TRUE THEN H is TRUE {p} | > Jak obliczyć??? |
---|
Wiemy, że E wystąpiło.
Jak policzyć prawdopodobieństwo, że wystąpiło H ?
Odpowiedź (reguła Bayesa):
Systemy ekspertowe i wiedza niepewna
p(H) – prawdopodobieństwo a priori wystąpienia H
p(E|H) – prawdopodobieństwo, że jeśli wystąpi H, to wystąpiło też E
p(~H) – prawdopodobieństwo a priori nie wystąpienia H
p(E|~H) – prawdopodobieństwo, że jeśli nie wystąpi H, to mimo wszystko wystąpiło E
p(H|E) – prawdopodobieństwo a posteriori wystąpienia H, jeśli wystąpiło E
Systemy ekspertowe i wiedza niepewna
Co w przypadku wystąpienia wielu przesłanek Ei?
(Hipotezy oraz przesłanki (dowody, ang. Evidences) muszą być wzajemnie wykluczające się oraz wyczerpujące).
Powyższy wzór wymaga obliczenia wszystkich prawdopodobieństw warunkowych dla wszystkich możliwych kombinacji przesłanek Ei oraz hipotez Hi.
W praktyce jest to często niemożliwe.
W przypadku szacowania na podstawie danych pojawiają się watpliwości o jakość uzyskanych szacowań, jeśli np. przykładowych danych pokrywających dany przypadek jest mało.
Systemy ekspertowe i wiedza niepewna
Często zakłada się zatem, że E1, E2,…, En są wzajemnie niezależne.
Dwa zdarzenia A oraz B są określane jako niezależne wtedy i tylko wtedy, gdy:
Przykład
Warunki E1, E2 oraz E3 są wzajemnie warunkowo niezależne.
Trzy hipotezy H1, H2 oraz H3 są wzajemnie wykluczające się oraz wyczerpujące.
Ekspert dostarcza prawdopodobieństw a priori p(H1), p(H2), p(H3)
oraz prawdopodobieństwa warunkowe
p(Ei|Hj)
Hipoteza
Prawdopodobieństwo i=1 | i=2 | i=3 | |
---|---|---|---|
> p(Hi) p(E1|Hi) p(E2|Hi) p(E3|Hi) | > 0.4 0.3 0.9 0.6 | ||
> 0.35 0.8 0.0 0.7 | > 0.25 0.5 0.7 0.9 |
Hipoteza
> p(Hi) p(E1|Hi) p(E2|Hi) p(E3|Hi) | > 0.4 0.3 0.9 0.6 | > 0.35 0.8 0.0 0.7 | > 0.25 0.5 0.7 0.9 |
---|
> p(Hi) p(E1|Hi) p(E2|Hi) p(E3|Hi) | > 0.4 0.3 0.9 0.6 | > 0.35 0.8 0.0 0.7 | > 0.25 0.5 0.7 0.9 |
---|
> p(Hi) p(E1|Hi) p(E2|Hi) p(E3|Hi) | > 0.4 0.3 0.9 0.6 | > 0.35 0.8 0.0 0.7 | > 0.25 0.5 0.7 0.9 |
---|
Przykład 2 - Prognoza pogody
IF dzis jest deszcz
THEN jutro jest deszcz
IF dzis jest slonce
THEN jutro jest slonce
Zakładamy, że nie mając żadnych innych przesłanek,
deszcz jest równie prawdopodobny jak słońce – zatem
prawdopodobieństwa a priori wynoszą 0.5.
Przykład 2 - Prognoza pogody
IF dzis jest deszcz {LS=2.5, LN=0.6}
THEN jutro jest deszcz {a priori 0.5}
IF dzis jest slonce {LS=1.6, LN=0.4}
THEN jutro jest slonce {a priori 0.5}
LS (likelihood of sufficiency) – współczynnik wystarczalności
Miara przekonania eksperta, że H wystąpi, jeśli wystąpiło E.
LN (likelihood of necessity) – współczynnik konieczności
Miara przekonania eksperta, na ile E jest istotny dla wystąpienia H.
Przykład 2 - Prognoza pogody IF dzis jest deszcz {LS=2.5, LN=0.6}
THEN jutro jest deszcz {a priori 0.5}
IF dzis jest slonce {LS=1.6, LN=0.4}
THEN jutro jest slonce {a priori 0.5}
LS (likelihood of sufficiency) – współczynnik wystarczalności
Miara przekonania eksperta, że H wystąpi, jeśli wystąpiło E.
Przykład 2 - Prognoza pogody
IF dzis jest deszcz {LS=2.5, LN=0.6}
THEN jutro jest deszcz {a priori 0.5}
IF dzis jest slonce {LS=1.6, LN=0.4}
THEN jutro jest slonce {a priori 0.5}
LN (likelihood of necessity) – współczynnik konieczności
Miara przekonania eksperta, na ile E jest istotny dla wystąpienia H.
Przykład 2 - Prognoza pogody
LS nie może być otrzymany z LN ani LN z LS.
Ekspert musi dostarczyć obie wartości.
Nie jest konieczne szacowanie prawdopodobieństw warunkowych.
LN oraz LS mogą być szacowane bezpośrednio.
Wysokie wartości LS (LS » 1) wskazuje na to, że reguła mocno wspiera hipotezę H jeśli zaobserwowano E.
Małe wartości LN (0 < LN < 1) wskazują na to, że reguła mocno zaprzecza hipotezie H w przypadku braku E.
Przykład 2 - Prognoza pogody Reguła 1:
IF dzis jest deszcz {LS=2.5, LN=0.6}
THEN jutro jest deszcz {a priori 0.5}
Reguła ta mówi, że jeśli dziś jest deszcz, to jest
duże prawdopodobieństwo, że jutro również będzie
deszcz (LS=2.5).
Ale nawet jeśli dziś nie ma deszczu, istnieje pewna
niewielka szansa na to, by jutro był deszcz. (LN=0.6)
Przykład 2 - Prognoza pogody Reguła 2:
IF dzis jest slonce {LS=1.6, LN=0.4}
THEN jutro jest slonce {a priori 0.5}
Jeśli dziś jest słońce, jest duże prawdopodobieństwo, że jutro również będzie słońce (LS=1.6).
LN=0.4 określa jakie są szanse na to, że jutro będzie słońce jeśli dziś mamy deszcz (E nie jest spełnione)
Zalety szacowania niepewności w oparciu o reguły Bayesa
● Dobrze rozwinięta teoria matematyczna.
● Decyzje oparte na metodzie Bayesa są optymalne (pod warunkiem, że znamy odpowiednie
rozkładyprawdopodobieństw).
● Wszystkie inne metody podejmowania decyzji mogą być co najwyżej zbieżne do metody Bayesa.
Wady reguły Bayesa
● Czasami trzeba czynić nieuprawnione założenia
upraszczające problem (np. założenie o niezależności bądź
warunkowej niezależności między zmiennymi).
● Badania psychologiczne dowodzą, iż ludziom cieżko jest szacować prawdopodobieństwa – często prawd. A priori są niespójne z prawd. warunkowymi.
SIECI BAYESA
Definicja sieci Bayesowskiej
Pod pojęciem sieci Bayesowskiej rozumieć będziemy trójkę: B = {N, E,CP},
Gdzie: dwójka {N, E} jest zorientowanym grafem acyklicznym zbudowanym na podstawie zadanych
prawdopodobieństw warunkowych zawartych w zbiorze CP.
Inaczej mówiąc:
Sieć Bayesa stanowi numeryczny model związków
przyczynowo-skutkowych zachodzących między elementami
zbioru obserwacji i hipotez. Stosując twierdzenie Bayesa,
można dokonywać zarówno wnioskowania progresywnego
(wnioskowanie w przód), jak i wnioskowania regresywnego (wnioskowanie wstecz).
Przykład syntezy sieci Bayesa
Załóżmy, że dany jest zbiór pewnych zmiennych identyfikujących obserwacje i hipotezy. Przyjmijmy również, że nie jest dla nas w tym momencie ważne, które elementy tego zbiory są obserwacjami a które hipotezami. Niech zbiór tych zmiennych ma następującą postać:
Z = {A, B,C, D, E, F, G, H}
Dane są również informacje opisujące związki przyczynowo-skutkowe pomiędzy tymi zmiennymi w postaci zbiory prawdopodobieństw warunkowych CP:
CP = {P(A), P(B|A), P(C|B), P(C|F), P(D|C), P(E|H), P(F|G), P(G), P(H|G)}
Na podstawie tych informacji możemy zbudować następujący graf skierowany, który po uzupełnieniu zbiorem konkretnych wartości prawdopodobieństw warunkowych opisuje sieć Bayesa:
B = {N, E,CP}
co można przedstawić graficznie:
CP = {P(A), P(B|A), P(C|B), P(C|F), P(D|C), P(E|H), P(F|G), P(G), P(H|G)}
Sieć Bayesa stanowi numeryczny model związków przyczynowo- > skutkowych zachodzących pomiędzy elementami zbioru obserwacji i hipotez. Stosując twierdzenie Bayea, można dokonywać zarówno wnioskowania progresywnego (wnioskowanie w przód), jak i wnioskowania regresywnego (wnioskowanie wstecz). |
---|
Przykład sieci Bayesowskiej
W podanym niżej tekście występują pewne zależności przyczynowo skutkowe
opisane liczbowo prawdopodobieństwami warunkowymi.
Należy podać zbiór CP takich prawdopodobieństw warunkowych oraz narysować graf przyczynowo-skutkowy. Czy otrzymany graf jest siecią Bayes’a ?
▪Jeżeli masz sporo pieniędzy, lubisz szybkie samochody i masz małą rodzinę to stawiam 10 do 100, że kupisz mały, czerwony, sportowy samochód.
▪Ale jeśli masz sporo pieniędzy, lubisz szybkie samochody i masz sporo dzieci to kupisz na pewno kombi z mocnym silnikiem.
▪Jeżeli jesteś na stanowisku kierowniczym i dbasz o prestiż to na 50 % kupisz mercedesa ze skórzaną tapicerką.
▪Jeżeli potrzebujesz jedynie wygodnego , prostego
samochodu to na pewno kupisz auto klasy kompaktowej. ▪Jeżeli jest ci wszystko jedno to na 30 % auto średniej klasy
Rozwiązanie
O - obserwacje:
• a - mała rodzina (mało dzieci),
• b - sporo pieniędzy,
• c - lubić szybkie samochody,
• e - spora rodzina (sporo dzieci),
• f - stanowisko kierownicze,
• h - posiadany prestiż,
• j - chęć wygodny i prostoty,
• k - obojętność.
H - hipotezy:
• D - czerwony, sportowy samochód,
• G - kombi,
• I - sedan ze skórzaną tapicerką,
• L - samochód kompaktowy,
• M – auto średniej klasy
CP = {P(D|a, c) = 0.1, P(G|b,e) = 1.0, P(I| f, h) = 0.5, P(L|j) = 1.0, P(M|k) = 0.3}
Reprezentacja graficzna:
Jak widać graf jest skierowany (dokładnie określone są kierunki
wnioskowania), jest on acykliczny (gdyż nie zawiera żadnych cykli), zatem jest on siecią Bayesa.
Podsumowanie
Wadą tej metody jest fakt, że wymaga ona znajomości
dokładnych wartości lub rozkładów prawdopodobieństw
pojawienia się parametrów zjawiska, czyli problemu będącego przedmiotem rozważań.
Innym problemem jest to, że należy dokonać pewnych
nierealistycznych założeń – na przykład w klasyfikacji
bayesowskiej wymagane wyniki, np. rozpoznawania, muszą się wzajemnie wykluczać. Niestety w wielu przypadkach mogą występować liczne podobne wyniki (np. w diagnostyce: pacjent może mieć wiele chorób).
Innym założeniem, co prawda niewymaganym przez
twierdzenie Bayesa, ale wymuszonym przez praktykę, jest statystyczna niezależność cechy problemu .