Zarządzanie jest jak sterowanie – w obu niezbędne jest sprawne sprzężenie zwrotne
Małgorzata Kaliczyńska - PAR print
Rozmowa z prof. Ryszardem Tadeusiewiczem o rozpoznawaniu obrazów i ludzkiej mowy, biocybernetyce oraz burzliwej historii Katedry Automatyki AGH.
Panie Profesorze, najważniejsze Pana prace dotyczą sieci neuronowych oraz rozpoznawania obrazów. Skąd taki wybór?
Istotnie, zajmowałem się sieciami neuronowymi i rozpoznawaniem obrazów, byłbym jednak niesprawiedliwy, gdybym prace z tych dziedzin uznał za najważniejsze. Doktorat i habilitację robiłem z problematyki związanej z rozpoznawaniem mowy, a badania społecznych i psychologicznych aspektów formowania się tzw. społeczeństwa informacyjnego, zainicjowane przeze mnie, ale prowadzone na Wydziale Nauk Społecznych AGH, zaowocowały blisko setką prac naukowych i książką. „Społeczność Internetu” doczekała się trzech polskich wydań i została przetłumaczona na języki niemiecki, rosyjski, słowacki i ukraiński. Jednak ostatnio najważniejszym źródłem inspiracji dla moich badań naukowych faktycznie stała się problematyka automatycznego rozumienia obrazów.
Google od wielu lat pracuje nad algorytmami, które umożliwiłyby szybkie i bezbłędne indeksowanie grafiki na podstawie tego, co faktycznie przedstawia, a nie jej opisu tekstowego. To bardzo ważny i przełomowy projekt – choćby ze względu na ochronę własności intelektualnej – ale, niestety, jego wyniki pozostają wciąż niezadowalające. Dlaczego? Na czym polega podstawowy problem „inteligentnego” przetwarzania obrazów?
Kilka lat temu zapoczątkowaliśmy z profesorem Ogielą badania nad możliwością komputerowego sięgnięcia do merytorycznej zawartości obrazu. Nasze usiłowania zaadresowaliśmy początkowo do obrazu medycznego, w celu zapewnienia doskonalszego funkcjonowania komputerowych systemów wspomagania diagnostyki medycznej. Okazało się to w wielu przypadkach możliwe, co zaowocowało dużą liczbą wartościowych publikacji. Wykazaliśmy, że można w automatycznej interpretacji obrazów medycznych oprzeć się na podejściu biorącym za podstawę wiedzę lekarza. Wówczas dochodzi do konfrontacji, wynikających z tej wiedzy, oczekiwań merytorycznych z rzeczywistymi cechami analizowanego obrazu. Stopień zgodności cech aktualnie, automatycznie interpretowanego obrazu z tymi cechami, które można wyprowadzić z przechowywanej w pamięci wiedzy ekspertów wskazuje, która z hipotez dotyczących semantycznej interpretacji zawartości obrazu jest najbardziej stosowna. Oparta na wspomnianej wiedzy ekspertów semantyczna interpretacja stanowi podstawę automatycznego rozumienia obrazu, bo wraz z wiedzą ekspertów na temat tego, czego się można spodziewać na rozważanych obrazach – zakodowana jest także wiedza o tym, co oznacza, gdy się już takie coś na obrazie znajdzie. Wydaje się, że podobne koncepcje, oparte na zaproponowanym przez nas mechanizmie rezonansu kognitywnego, mogą znaleźć także zastosowanie w inteligentnym wyszukiwaniu obrazów oraz sekwencji wideo w dużych multimedialnych zasobach danych – w szczególności w Internecie.
Czy można uznać, że jest to podejście biocybernetyczne, naśladujące funkcjonowanie ludzkiej percepcji wzrokowej?
Odpowiedzi na to i kolejne pytania w numerze PAR 12/2011. Zapraszamy do lektury!
source: PAR 12/2011