Wirtualna biblioteka
Andrzej Barciński print
Od lat 90. technologie cyfrowe całkowicie zmieniają nasze życie. Obecnie jesteśmy na etapie pełnej transformacji – przekształcenia całej udokumentowanej wiedzy ludzkości w formę cyfrową. Spójrzmy w przeszłość i zobaczmy przyszłość.
Zuse, CERN, Zuckerberg – to symbole kolejnych etapów cyfrowej rewolucji. W 1941 roku Konrad Zuse zbudował w Berlinie pierwszy na świecie komputer. Tej ogromnej cyfrowej maszynie liczącej konstruktor nadał nazwę Zuse Z3. W 1991 roku światowa sieć World Wide Web opracowana przez Tima Bernersa-Lee w ośrodku badawczym CERN w Szwajcarii została oddana użytkownikom na całym świecie. Sieć WWW zrewolucjonizowała sposób komunikacji międzyludzkiej i przetarła szlaki dla Google’ a, Amazona i wielu innych firm. Później, w roku 2004, Mark Zuckerberg założył sieć społecznościową, którą nazwał Facebook. Dziś jego serwis i podobne platformy pozwalają prawie dwóm miliardom osób tworzyć swoją cyfrową tożsamość.
Początek lawiny
Komputery, WWW, Facebook – wszystko to opiera się na cyfryzacji, czyli przekształcaniu informacji analogowych, takich jak teksty, dźwięki, obrazy i filmy, w łatwy do przechowywania kod binarny złożony z jedynek i zer. Raz stworzone, te cyfrowe dane mogą być odtwarzane w nieskończoność bez straty jakości i w ciągu zaledwie sekund rozpowszechniane na świecie przez Internet. Cyfryzacja stworzyła całkowicie nowe rodzaje kanałów sprzedaży w biznesie, lecz także zupełnie nowe problemy, na przykład nielegalne kopiowanie danych. Rozkwit technologii internetowych, który rozpoczął się w latach 90., spowodował postęp cyfryzacji na niespotykaną wcześniej skalę. W 1993 roku tylko około 3% informacji na świecie przechowywano w formie cyfrowej. Do 2007 roku liczba ta skoczyła do 94%. Tendencja ta postępuje nieprzerwanie, a każdego dnia digitalizowane są olbrzymie ilości nowych danych.
Jednym z najważniejszych pionierów cyfryzacji był niemiecki wynalazca Rudolf Hell – „Edison branży graficznej” uhonorowany Wielkim Krzyżem Zasługi Republiki Federalnej Niemiec, Nagrodą Gutenberga i Pierścieniem Wernera von Siemensa. Hell jest uznawany za ojca rozwiązań, takich jak faks i skaner. W 1980 roku skomercjalizował on przełomowy system cyfrowego przetwarzania obrazów Chromacom. Na początku lat 80. firma HELL, która wówczas była spółką zależną Siemensa, została zatrudniona przez Bibliotekę Watykańską do zeskanowania i stworzenia cyfrowych reprodukcji cennego księgozbioru, by możliwe było udostępnienie go społeczeństwu. W latach 90. procesy cyfryzacji stały się bardziej rozbudowane i systematyczne. Na przykład w 1990 roku firma Siemens Nixdorf zainstalowała w muzeum Kremla w Moskwie system przetwarzania danych, który umożliwił stworzenie pierwszego cyfrowego katalogu całej kolekcji sztuki rosyjskich carów. Cyfrowe obrazy i informacje zostały później udokumentowane i skategoryzowane w bazie obrazów.
Skanowanie półotwartych książek
Obecnie wiele instytucji chce tworzyć cyfrowe kopie wszystkich posiadanych informacji. Jednym z najlepszych przykładów tego trendu jest Bawarska Biblioteka Państwowa w Monachium. W należącym do niej centrum cyfryzacji mieści się największa w Niemczech gama urządzeń. „Wykorzystujemy 26 różnych systemów skanowania, w tym cztery w pełni zautomatyzowane roboty skanujące, które mogą przetworzyć do dwóch tysięcy stron na godzinę” – mówi zastępca dyrektora biblioteki, Klaus Ceynowa. „Mamy dwóch operatorów, z których każdy monitoruje pracę dwóch robotów. System jest nie tylko szybki, lecz także zaprojektowany w taki sposób, by chronić książki, które są otwierane pod kątem zaledwie 60 stopni. Głowica skanera jest prowadzona w półotwartej książce. Doskonale odczytuje ona strony, a potem obraca je, by zająć się kolejną sekwencją skanowania”.
Biblioteka Bawarska od 2007 roku współpracuje z Google nad projektem Google Books, którego celem jest digitalizacja i publikacja w Internecie miliona książek z kolekcji Biblioteki. Księgozbiór ten to pozycje powstałe w latach 1601-1874, które nie są już objęte prawami autorskimi. „Każdego tygodnia wypuszczamy około 5 tysięcy książek, które Google przetwarza w postać cyfrową w swoim centrum skanowania w Niemczech” – wyjaśnia Ceynowa. „Google płaci za skanowanie i daje nam cyfrowe kopie do naszej własnej bazy danych. Wszystkie prace powstałe przed rokiem1601 i po roku 1874, w tym bardzo cenne rękopisy średniowieczne, są przetwarzane w naszym własnym centrum. Projekt Google’a zostanie według planów ukończony przed końcem tego roku. Już wgraliśmy prawie całą naszą kolekcję miliona książek do cyfrowej biblioteki na naszej stronie, gdzie każdy może mieć do nich dostęp”.
Jednakże całkowita cyfryzacja to jeszcze nie koniec prac w Bibliotece Bawarskiej. „Nasza praca to tylko początek” – mówi Ceynowa, „ponieważ to, co dotąd zrobiliśmy, otwiera nowe możliwości łączenia cyfrowych informacji”. Biblioteka Bawarska stworzyła kilka mobilnych aplikacji, w tym również jedną o nazwie Ludwig II. Aplikacja umożliwia ludziom dostęp do historycznych informacji, obrazów i dokumentów związanych z baśniowymi zamkami króla w taki sposób, by informacje były dostosowane do lokalizacji użytkownika. Na przykład osoba stojąca bezpośrednio przed królewskim pałacem Residenz w Monachium może za pomocą aparatu w smartfonie mieć dostęp do zdjęć słynnych, nieistniejących już, ogrodów zimowych pałacu. W ogrodach zimowych, które znajdowały się na dachu rezydencji, rosły egzotyczne rośliny i znajdowało się sztuczne jezioro – wszystko to wyświetla aplikacja.
Digitalizacja rejestrów cywilnych
Muzea i biblioteki nie są pierwszymi instytucjami, które skorzystały z zalet całkowitej cyfryzacji. Agencje rządowe i przedsiębiorstwa przemysłowe już od dawna korzystają z tej technologii. Obecnie 16 krajów związkowych Niemiec planuje zdigitalizować wszystkie prowadzone rejestry cywilne. W tym celu zleciły one jednostce Corporate Technology (CT) Siemensa prowadzenie przez ostatnie dwa lata studium wykonalności pod kierunkiem doktora Bernta Andrassy. „Niemcy są właściwie podzielone na części” – wyjaśnia Andrassy. „Rejestry przypisują tym częściom określone prawa. W ten sposób stanowią one centralny mechanizm regulacji wykorzystania ziemi w kraju. Kraje związkowe zeskanowały i zarchiwizowały wszystkie dokumenty rejestrów sięgające 50 lat wstecz, a CT dostarczyło niezbędne elementy systemu. Zebraliśmy olbrzymią ilość danych, około 500 milionów stron dokumentów PDF”.
Ten rozbudowany projekt cyfryzacji stanowił ogromne wyzwanie. Zespół Siemensa musiał opracować zautomatyzowane oprogramowanie, które rozpoznaje poszczególne słowa, rozumie kluczowe kwestie i rozpoznaje powiązania pomiędzy skanowanymi dokumentami, takimi jak strony pisane na maszynie, kopie złej jakości i dokumenty zawierające wielokrotne poprawki. „Oprogramowanie musi wiedzieć, która część dokumentu zawiera nazwiska właścicieli mienia, a w której części znajdują się informacje na temat rozmiarów nieruchomości i obciążenia hipoteką” – wyjaśnia Andrassy. Aby rozwiązać te kwestie, specjaliści musieli wykonać intensywne prace programistyczne. „Nasze oprogramowanie rozpoznaje wymagane informacje i automatycznie wypełnia maskę wprowadzania danych” – mówi Andrassy. „Operator po prostu sprawdza, czy wszystkie dane są na miejscu”. Kraje związkowe planują teraz ogłosić przetarg dotyczący wielkiego projektu archiwizacji. „Kiedy wszystkie rejestry zostaną zdigitalizowane, każdy kraj założy własny portal dla użytkowników, który umożliwi szybki i łatwy dostęp do rejestrów poszczególnym osobom i instytucjom zainteresowanym takimi dokumentami – na przykład notariuszom, bankom i urzędom podatkowym”.
Pomyłki mogą kosztować miliony
Doświadczenie Andrassyego zdobyte podczas realizacji projektu digitalizacji rejestrów przyda się również w sektorze przemysłowym. „Pracujemy nad oprogramowaniem, które automatycznie rejestruje wymagania klienta dotyczące oferty, a następnie porównuje je z danymi w cyfrowej dokumentacji poprzednich projektów” – mówi Andrassy. „Takie zapytania ofertowe zwykle przychodzą w formie dokumentów pdf liczących ponad 1000 stron. Wcześniej każda specyfikacja – na przykład maksymalna prędkość obrotowa turbiny lub największy dopuszczalny poziom hałasu po godzinie 16. dla elektrowni gazowo-parowych – musiała być sprawdzana ręcznie i oceniana przez specjalistę”.
Listy wymogów i specyfikacji są zazwyczaj wyjątkowo długie i pomyłka w odczytaniu chociażby jednego zdania może powodować straty rzędu milionów euro. Z tego względu specjaliści z Monachium opracowali niezawodną technologię wyszukiwania, która zauważa każdą zmianę i informuje o niej użytkowników. Głównym celem jest to, by program rozumiał i prawidłowo interpretował specyfikacje jako obiekty semantyczne. „Stworzone przez nas oprogramowanie pracuje w trzech etapach, które określamy mianem Tender Search, Tender Comparision i Tender Tracer” – wyjaśnia Andrassy. „Pierwszy krok to efektywny proces umożliwiający użytkownikowi znalezienie specyfikacji w dokumencie. Następnie oprogramowanie wyszukuje podobne specyfikacje w poprzednich projektach. Umożliwia to wykorzystanie odpowiadających szacunków dokonanych w przeszłości, a tym samym uniknięcie błędów. Ostatnim krokiem jest prześledzenie zidentyfikowanych specyfikacji we wszystkich nowych wersjach dokumentu”. Wynikające z tego korzyści są jasne, ponieważ automatyczna ocena znacząco przyspiesza procesy i umożliwia znalezienie na bardzo wczesnym etapie błędów popełnionych w poprzednich projektach. Co więcej, system umożliwia klientom wprowadzenie w ostatnim momencie zmian, których konsekwencje mogą zostać szybko przeanalizowane i uwzględnione w projekcie.
Łączenie archiwów w ciągu kilku sekund
Pełna cyfryzacja to dopiero początek. Niezależnie, czy chodzi o biblioteki, agencje rządowe czy fabryki – wszędzie powstają ogromne ilości cyfrowej wiedzy, która może zostać wykorzystana w kompletnie nowy sposób. W ciągu następnych kilku czy kilkunastu lat rozwój w tej dziedzinie będzie ukierunkowany przede wszystkim na narzędzia oparte na oprogramowaniu, które pozwolą w kilka sekund przeszukiwać cyfrowe archiwa, będą rozumieć powiązania semantyczne, a także sortować i łączyć ze sobą informacje. „Na przykład badacze będą mogli szybko stwierdzić, w którym rękopisie po raz pierwszy użyto terminu »nowela«” – mówi Ceynowa. „By uzyskać odpowiedź, nie będą musieli przeszukiwać setek dokumentów w bibliotekach na całym świecie. To będzie prawdziwa rewolucja w niektórych dziedzinach nauki”.
„Możliwe będzie o wiele szybsze uzyskanie dostępu do informacji, takich jak orzeczenia sądowe i wcześniejsze diagnozy medyczne rzadkich chorób” – dodaje Andrassy. „Ale inteligentne zdobywanie danych nadal nie zastąpi pracy człowieka – może ją jednak wesprzeć. Innymi słowy, nadal jest przed nami jeszcze daleka droga do autonomicznych fabryk, które same czytają pliki pdf klientów, porównują je ze swoją bazą danych i od razu wiedzą, co i jak muszą zbudować”.
źródło: Siemens