Abstrakty Abstrakty

Projekt SYNAT: droga do otwartego środowiska komunikowania naukowego i zasobów wiedzy Marek Niezgódka ICM UW

Metody eksploracji danych w systemach ekstrakcji i wyszukiwania informacji – Henryk Rybiński, Marzena Kryszkiewicz  PW

SYNAT – narzędzia dla nowoczesnej naukiDominik Batorski ICM UW

Choć pierwotnie Internet był tworzony na uniwersytetach i w dużej mierze dla potrzeb środowiska naukowego, to jednak w ostatnich kilkunastu latach rozwój sieci był zdominowany przez zastosowania komercyjne i skierowane do użytkowników indywidualnych. Obecnie działalność naukowa nie wykorzystuje w pełni możliwości jakie oferują nowe technologie informacyjno-komunikacyjne. Platforma tworzona w projekcie SYNAT ma umożliwić zmianę takiego stanu rzeczy poprzez dostarczenie narzędzi usprawniających dostęp do treści, komunikację i współpracę naukową.

Wystąpienie poświęcone będzie zaprezentowaniu głównych funkcjonalności Platformy oraz tego, w jaki sposób pozwoli ona usprawnić pracę naukową i dydaktyczną, dostęp do zasobów, a także komunikację pomiędzy pracownikami naukowymi.

Założenia działań opracowania koncepcji funkcjonalności systemu uniwersalnej, otwartej, repozytoryjnej platformy hostingowej i komunikacyjnej dla sieciowych zasobów wiedzy – Dariusz Paradowski BN

Fundamentalna wizja systemu Synat i jego zasadnicze funkcje zostały już zdefiniowane w zgłoszeniu konkursowym przez jego Twórców i potwierdzone umową z Zamawiającym, zatem tworzenie koncepcji funkcjonalności winna odbywać się w określonych w ten sposób ramach. Podstawowe cele tego działania obejmować będą dążenie do jak najpełniejszego uwzględnienia potrzeb użytkowników w zakresie zgodnym z wizją systemu oraz precyzowanie i aktualizowanie tej wizji.

Realizacja przebiegać będzie w trzech zasadniczych obszarach:

  1. badanie istniejących rozwiązań - obejmuje wyszukiwanie istniejących na świecie systemów o podobnych zakresach działania ich analizę i definiowanie funkcjonalności, które mogą być przydatne w rozwijanym systemie i przekazanie wyników do obszaru b)
  2. zbieranie wymagań - obejmuje przygotowanie metodyki i organizację badań ankietowych pracy grup fokusowych, spotkań eksperckich itp. a także analizę uzyskiwanych wyników, ich korelowanie i iteracyjne weryfikowanie w celu tworzenia spójnego modelu i zapewniania jego zgodności z wizją.
  3. istotną sferą wszelkich prac przy opracowywaniu koncepcji jest tworzenie dokumentacji.

Tworzone jest zestawienie programów zachodzących zakresem działania w obszar ujęty wizją systemu Synat; znaleziono w nich interesujące funkcje.

Przygotowywane są założenia organizacyjne i metodyki prac grupowych. Wartościowe metody pracy wyodrębniono z dokumentacji prac nad portalem Europeana. Opracowywane są zasady funkcjonowania zarówno grup o charakterze eksperckim jak i grup użytkowników. W obu przypadkach zastosowane będą techniki aktywizacji, wspomagania kreatywności i pracy w grupie. Badania ankietowe będą miały głównie profil weryfikacyjny.

Analizowane są rozwiązania wspierające zarządzanie wymaganiami. Ustalono, że ze względu na współpracę w projekcie Synat bardzo wielu instytucji zasadniczym elementem tworzenia dokumentacji musi być możliwość komunikowania się w jej kontekście.

Możliwości i kierunki rozwoju systemu zarządzania wiedzą - prace Poznańskiego Centrum Superkomputerowo-Sieciowego - Cezary Mazurek PCSS

Koncepcja udostępniania danych i usług z zasobów projektowanego systemuM.Kiedrowicz, J.Koszela WAT

Sprzętowa akceleracja przetwarzania informacji/danych zgromadzonych w repozytoriumKazimierz Wiatr, Ernest Jamro, Paweł Russek, Agnieszka Dąbrowska-Boruch, Maciej Wielgosz AGH CYFRONET

Otwarte innowacje – Mieczysław Muraszkiewicz Politechnika Warszawska

W historii wielokrotnie nowe media były zaczynem głębokich przemian. Ostatnie dwie dekady przyniosły istotne zmiany spowodowane przez Internet i telefonię komórkową. Ich wpływ i znaczenie zostały zauważone i wykorzystane przez szerokie rzesze społeczeństwa niemal we wszystkich obszarach życia i działalności ludzkiej. Nie oznacza to wszak, że rola nowych technik informacyjnych i komunikacyjnych została powszechnie zrozumiana i przyswojona. Odnosi się to miedzy innymi do związków nowych technologii z innowacyjnością. Ta ostatnia – po roli, którą odgrywa informacja i wiedza we współczesnym społeczeństwie – stała się niewątpliwie jednym z zasadniczych czynników rozwojowych społeczności, regionów i krajów. W zdolności do innowacyjnego myślenia i działania upatruje się dziś klucz do sukcesów w szeroko rozumianym planie gospodarczym, społecznym i politycznym.

W referacie zadamy pytanie o to czy sieć może stać się miejscem budowania skutecznej komunikacji i platformą wspierania procesów innowacyjnych przez ekosystemy informacyjne złożone z podmiotów naukowych (uniwersytety, ośrodki i laboratoria badawcze), podmiotów gospodarczych, przemysłowych i usługowych oraz innych interesariuszy. W poszukiwaniu odpowiedzi na to pytanie sięgniemy do koncepcji „Open Innovation" (otwarte innowacje) zaproponowanej przez prof. W. Chesbrougha oraz do koncepcji „Open Access" (otwarty, trwały i natychmiastowy dostęp do cyfrowych form zapisu danych i treści naukowych oraz edukacyjnych). Zapytamy także: czy, i jeśli tak, to jaką role system SYNAT może odegrać w promowaniu i realizacji idei otwartych innowacji?

Otwarte globalne repozytoria vs. otwarte zasoby uczelni – Małgorzata Pańkowska Uniwersytet Ekonomiczny (Katowice)/Uczelnia Łazarskiego

W pracy przyjęto założenie, że otwarta nauka rozwinęła się jako ruch społeczny, dla którego wiedza i kultura stanowią dobra wspólne. Inicjatywie otwartej nauki towarzyszy szlachetne przekonanie, że dostęp do wyników badań jest kluczowym elementem wyrównywania szans na udział w społeczeństwie wiedzy. Idea otwartej nauki obejmuje różne projekty promujące modele otwartej komunikacji naukowej, w szczególności za pomocą mediów cyfrowych dostęp do czasopism naukowych oraz otwartych zasobów edukacyjnych na poziomie szkolnictwa wyższego.

Wystąpienie obejmuje prezentację autorskiego modelu biznesowego generowania publikacji naukowych. Model ten bazuje na procesowym podejściu do generowania wiedzy. Dyskusja nad modelem wymaga nawiązania do oświadczenia Singapore Statement on Research Integrity.

Następnie zostaną przedstawione modele ekonomiczne otwartych publikacji i ocena ich mocnych i słabych stron.

W ostatniej części wystąpienia zostaną przedstawione wyniki analizy Bibliotek Cyfrowych i polskich repozytoriów regionalnych dostępnych w katalogu OpenDOAR w aspekcie łatwości nawigacji i wyszukiwania informacji, oraz otwartego dostępu do prac doktorskich. Ostatni slajd zawiera podsumowanie.

Informacja, pamięć, polityka: od funkcji do kosztów i z powrotem – Henryk Hollender Uczelnia Łazarskiego

Badania naszego Zespołu zmierzają do rozpoznania i charakterystyki kluczowych elementów tworzonej w Polsce „platformy hostingowej" poprzez porównanie jej założeń z rozwiązaniami występującymi w praktyce informacyjnej innych krajów. Podjęte dotychczas  tematy dotyczą ogólnych strukturalnych i użytkowych cech takiego „narodowego" serwisu i dotychczasowego polskiego dorobku w tym zakresie, ogólnych problemów finansowania służb informacyjnych (Open Access i komercjalizacja), zagadnień informacji gospodarczej i transferu innowacji.

Wychodząc poza formułę „informacji naukowej", pragniemy przyczynić się do zbudowania systemu wielofunkcyjnego, elastycznego i zdolnego do rozwoju. W przeciwnym bowiem wypadku musielibyśmy poprzestać na charakterystyce rozwiązań w zakresie obsługi informacyjnej prac badawczych i dydaktyki akademickiej, przypominając podstawowe, aktualne, lecz nie wyczerpujące całości zagadnienia rozróżnienie zasobów komercyjnych i otwartych. Jest oczywiste, że trzon tych pierwszych powinien być udostępniany na wypróbowanej zasadzie licencji krajowej. Jest również istotne, aby dostęp otwarty był jak najszerszy – dotychczasowe rozwiązania polskie pozostają tu zdecydowanie w tyle za światowymi – oraz aby objął nie tylko typowe „publikacje naukowe", ale także zestawy danych o odpowiedniej strukturze, umożliwiające szybsze osiąganie efektu kumulacji wyników w badaniach empirycznych. Prawdziwie nowatorski będzie jednak dopiero system, który połączy  obieg ściśle naukowy z gospodarczym, a ucyfrowionym zasobom należącym do dziedzictwa kultury zapewni zarówno miejsce w świadomości społecznej, jak i obecność w badaniach w charakterze materiałów źródłowych.

W tym kierunku zdają się zmierzać rozwiązania brytyjskie, rozpisujące niejako sferę obiegu informacji na szereg ogniw/pięter instytucjonalnych, zapewniających wytwarzanie i agregację informacji oraz nadawanie jej wysokiego stopnia dostępności i przeszukiwalności, a także wspólną dla instytucji nauki infrastrukturę. Inaczej jednak niż w Polsce, nie planuje się tam stworzenia jednolitej platformy zasobów informacyjnych; ujednolicenie następuje wówczas, gdy docelowy, fizyczny użytkownik korzysta z informacji dostępnej dla niego osobiście poprzez obsługującą go instytucję, np. uczelnię, po pierwsze dlatego, że posługuje się on jednym hasłem do wszystkich źródeł informacji, po drugie zaś dlatego, że instytucja może zastosować rozmaite mechanizmy scalania zasobów, nadając wyszukiwaniu informacji postać określaną obrazowo jako „one-stop-shopping". Takie narzędzia są komercyjnie dostępne, ale ich wdrażanie nie stanowi w Wielkiej Brytanii elementu strategii krajowej, ukierunkowanej raczej na intensywne zasilanie odbiorów tekstami i danymi czerpanymi z prawdziwego frontu badawczego.

Stan digitalizacji dziedzictwo kulturowego Kościoła Katolickiego w Polsce - ks. Stanisław Dziekoński, ks. Maciej Bała UKSW      

Celem prezentacji jest ukazanie stanu digitalizacji Kościoła Katolickiego w Polsce. Prezentacja została podzielona na trzy części: analiza bibliotek wirtualnych, digitalizacja zasobów muzealnych i dział sztuki oraz digitalizacji archiwów kościelnych.

Pierwszą kościelną biblioteką cyfrową w Polsce jest Księgozbiór Wirtualny Federacji Bibliotek Kościelnych „FIDES" – http://digital.fides.org.pl. Już na początku powstawania bibliotek cyfrowych w Polsce Federacja „FIDES" zatroszczyła się o zorganizowanie wspólnej dla bibliotek kościelnych platformy cyfrowej. Biblioteka wirtualna „FIDES" technicznie została uruchomiona 11 sierpnia 2006 roku. Księgozbiór Wirtualny FIDES współtworzą publikacje 15 instytucji (nie licząc tych, które dostarczyły tylko jedną publikację) oraz dostarczone przez autorów indywidualnych. W połowie listopada 2010 roku, po czterech latach funkcjonowania, całkowita liczba publikacji Księgozbioru Wirtualnego FIDES wynosi 806, co stawia bibliotekę dopiero na 41. miejscu wśród 59 bibliotek uczestniczących w Federacji Bibliotek Cyfrowych. Liczba odwiedzin sięga 1,5 miliona.

Z kolei podstawowy wniosek, wypływający z przeprowadzonej badań nad stanem digitalizacji muzeów i dzieł sztuki kościelnej, jest następujący: istniejące strony parafialne i muzealne nie są źródłem, za pośrednictwem którego istnieje możliwość zapoznania się z obiektami zabytkowymi znajdującymi się w posiadaniu Kościoła Katolickiego w Polsce. Zarówno jakość umieszczanych na portalach parafialnych fotografii, jak i towarzyszące im sporadycznie opisy, nie są w stanie sprostać kryteriom naukowym stawianym przez współczesną historię i historię sztuki.

Przeprowadzona analiza stanu digitalizacji archiwów kościelnych uświadamia zasadnicze trudności związane z ustaleniem stanu posiadania, zakresem inwentaryzacji oraz udostępnia archiwalnych zbiorów kościelnych. Ich uwarunkowania tkwią przede wszystkim w przeszłości. Świadomość zawłaszczania dzieł sztuki, księgozbiorów, dokumentów itp. przez zaborców, okupantów i władze PRL-u powodowała, iż niektórzy dostojnicy Kościoła decydowali o zmianach miejsca przechowywania szczególnie istotnych akt, a nawet całych zespołów. Z tego powodu np. kompetentni badacze dziejów Kościoła na Śląsku do dziś nie wiedzą gdzie przechowywane jest archiwum kardynała Bolesława Kominka. Doświadczenia historyczne poszczególnych diecezji zaważyć też musiały na decyzjach biskupów i postawach archiwistów powstrzymujących się z opracowywaniem jednostek archiwalnych, bądź wprowadzających ograniczenia w dostępie do zespołów zawierających np. akta wytworzone po 1939 r.

Konieczne jest więc określenie zasad inwentaryzacji z uwzględnieniem różnego charakteru dóbr będących w zasobach kościelnych, a także metodyki przyszłej ich digitalizacji. 

Koncepcje i stanowiska badawcze do automatycznej anotacji plików fonicznych, zaawansowanego technologicznie rangowania dokumentów i rekonstruowania nagrańBożena Kostek, A. Czyżewski Politechnika Gdańska

Zaprojektowano i zbudowano repozytorium nagrań muzycznych do zastosowań w eksperymentalnej weryfikacji metod automatycznej anotacji plików lub strumieni  fonicznych, wspomaganej tekstem. Opracowano koncepcję metodyki rangowania dokumentów opartą na śledzeniu wzroku użytkownika biblioteki cyfrowej i zbudowano laboratoryjne stanowiska badawcze oparte na tej technologii. Sformułowano założenia systemów automatycznej oceny i poprawy jakości nagrań. W referacie zostanie przedstawiony przegląd dotychczas zrealizowanych prac o charakterze koncepcyjnym i implementacyjnym oraz zarysowane zostaną kierunki ich rozwoju w kolejnym okresie. 

Reprezentacja dokumentów dla algorytmu interaktywnego przeszukiwania tekstówHenryk Krawczyk, Julian Szymański Politechnika Gdańska

Przeprowadzono analizę trzech metod reprezentacji tekstu dla dokumentów hipertekstowych. Wykorzystano podejście oparte na: słowach, referencjach i kompresji. Zbudowano klasyfikator dokumentów wykorzystujący metodę wektorów wspierających. Dokonano porównania metod reprezentacji w zadaniu klasyfikacji dokumentów. 

Przedstawiono architekturę systemu wyszukującego treści tekstowe w dużym repozytorium dokumentów. Opisana została propozycja algorytmu wyszukiwania wykorzystującego system kategorii organizujących dokumenty oraz interakcję z użytkownikiem.

Automatyczne wydobywanie informacji z dużych kolekcji dokumentów Maciej Piasecki, Bartosz Broda, Marek Maziarz Politechnika Wrocławska

Gwałtownie powiększające się zasoby elektronicznych dokumentów są dla nauki szansą, ale i wyzwaniem. Jest to szczególnie widoczne w obszarze nauk humanistycznych, gdzie podstawą jest praca z dokumentami tekstowymi: ogromna ilość informacji dostępnych z dowolnego miejsca ułatwia gromadzenie danych badawczych, istniejące metody przeszukiwania kolekcji dokumentów oferują jednak bardzo ograniczone możliwości interpretacji treści przeszukiwanych dokumentów. Opierają się one głównie na wyszukiwaniu wystąpień poszczególnych wyrazów w tekście (z dokładnością do niewielkiego zakresu zmienności ich form).
Naszym celem jest opracowanie systemu użytecznego dla naukowców - przedstawicieli wielu gałęzi nauki. 
System będzie umożliwiał ograniczoną znaczeniowo analizę tekstu zawartego w dokumentach oraz analizę wybranych aspektów graficznych dokumentów. Działanie systemu będzie ukierunkowane na wydobywanie informacji faktograficznej, dotyczącej określonych klas bytów i związków między nimi, zgodnie z potrzebami użytkownika. W wymiarze jednostkowym oznacza to rozpoznawanie w tekście jednostkowych wystąpień informacji określonego rodzaju, w wymiarze masowym zaś --- statystyczną analizę faktów określonego typu (w całym tekście czy korpusie). 
Chcemy, żeby nasz system --- dzięki rozszerzonym metodom interpretacji tekstu i jego struktury graficznej --- stał się narzędziem wspomagającym pracę szerokiego grona naukowców pracujących z dokumentami elektronicznymi. Dążymy do istotnej poprawy możliwości wyszukiwania dokumentów (nie tylko po ściśle określonych wyrazach, ale np. również po ich synonimach) oraz do umożliwienia wizualizacji struktury pojedynczego dokumentu czy całej kolekcji dokumentów.
Konstrukcja tak pomyślanego systemu wymaga przede wszystkim zapewnienia tzw.\ podstawowego zbioru zasobów (np.\ korpusów tekstów, słowników, gramatyk) i narzędzi językowych (do analizy budowy i znaczenia wypowiedzi w języku naturalnym) dla języka polskiego. Narzędzia i zasoby językowe będziemy dalej określać zbiorczą nazwą \emph{elementów technologii językowej}. Mimo znaczącego postępu, jaki się dokonał w Polsce w tej dziedzinie w ciągu ostatnich lat, ciągle jeszcze wiele problemów nie zostało rozwiązanych. Narzędzia analizy i korpusy tekstów są ciągle w stadium konstrukcji i udoskonalania, zaś istniejące zasoby językowe i aplikacje nie są ani powszechnie dostępne, ani darmowe (z powodu uwarunkowań licencyjnych). Jednym z naszych podstawowych celów jest rozbudowanie zbioru elementów technologii językowej i udostępnienie ich na licencjach darmowych. 
Dążąc do maksymalnie efektywnego wykorzystania środków finansowych, w ramach prac projektowych jako punkt wyjścia chcemy wykorzystywać elementy będące wynikiem ukończonych już projektów naukowych (np.\ projekt \emph{Słowosieć 1.0}), jak również projektów realizowanych równolegle (np.\ projekty \emph{NEKST} i \emph{Słowosieć 2.0}). Prace obejmą zarówno poziom płytkiej analizy składniowej, jak i płytkiej analizy semantycznej tekstu. Ponadto zostaną opracowane mechanizmy selektywnie pogłębianej analizy semantycznej tekstu oraz automatycznego wydobywania meta-danych dotyczących dokumentu, jego wewnętrznej struktury tematycznej oraz struktury tematycznej całych kolekcji dokumentów.
Opracowana zostanie publicznie dostępna technologia płytkie analizy składniowej języka polskiego obejmująca analizator morfologiczny (zbudowany na bazie integracji kilku istniejących analizatorów) oraz rozszerzony płytki parser rozpoznający frazy kilku typów jak również ograniczoną strukturę zależności pomiędzy nimi.
W dziedzinie płytkiej analizy semantycznej nacisk zostanie położony na dwie klasy algorytmów: ujednoznaczniania znaczeń leksykalnych i wydobywania informacji. Algorytmy ujednoznaczniania znaczeń będą korzystały w opisie semantyki ze Słowosieci, która zostanie rozszerzona w zakresie jednostek wielowyrazowych i słownictwa specjalistycznego. Ze względu na złożoność problemu ujednoznaczniania znaczeń leksykalnych zostanie opracowana metoda hybrydowa łączące najlepsze cechy algorytmów nadzorowanych, nienadzorowanych i opartych na wiedzy. W ramach wydobywania informacji algorytmy będą rozwiązywały trzy podstawowe zadania: identyfikacji bytów nazwanych oraz relacji występujących pomiędzy nimi, rozwiązywania ko-referencji oraz wydobywania relacji i zdarzeń opartych na holistycznych wzorcach ekstrakcji informacji. Aby umożliwić trenowanie i ocenę zaproponowanych metod zostanie skonstruowany korpus oznaczony w zakresie płytkiego opisu syntaktycznego  i semantycznego. 
Mechanizm selektywnie pogłębianej analizy semantycznej tekstu będzie oparty na idei rozpoznawania w tekście miejsc kluczowych dla użytkownika i poddawania ich dokładniejszej, bardziej szczegółowej analizy treści z wykorzystaniem języka logiki jako języka reprezentacji znaczenia.
Mechanizmy automatycznego wydobywania meta-danych obejmą meta-dane dotyczące dokumentu, jego wewnętrznej struktury tematycznej oraz struktury tematycznej kolekcji dokumentów. Wyniki będą prezentowane za pomocą wizualizacji, np.\ mapy struktury tematycznej dokumentu i kolekcji dokumentów.
W dziedzinie analizy obrazów zawartych w dokumentach prace będą koncentrowały się na miarach podobieństwa obrazów i grup obrazów, jak również grupowaniu obrazów. W połączeniu z metodami klasyfikacji tematycznej i częściowej interpretacji treści obrazów opracowywanymi w ramach innego projektu będziemy mogli wykorzystać informację wnoszoną przez obrazy połączone z tekstem do, np., poprawy wydobywania informacji czy też budowania map tematycznych.
Zbudowany system będzie szeroko dostępny poprzez usługi sieciowe w ramach skonstruowanej otwartej, wielkoskalowej, rozproszonej architektury centrum technologii językowych dla języka polskiego.

System rozproszonych repozytoriów danych wizyjnych - Andrzej Dziech, Andrzej Głowacz AGH CYFRONET

Celem zadania realizowanego przez zespół badawczy prof. A. Dziecha z AGH jest opracowanie systemu rozproszonych danych wizyjnych, głównie dla sekwencji wideo. W ramach pracy jest przygotowywana fundamentalna architektura repozytorium oraz zestaw narzędzi dla m.in. cyfrowego znakowania wodnego; tworzenia i zabezpieczenia systemu bazodanowego; spersonalizowanego wyszukiwania w rozproszonym systemie metadanych oraz indeksowania i oceny jakości sekwencji wideo.

W ramach definiowania systemu dokonano analizy wymaganych modułów systemu oraz wyodrębniono części funkcjonalne związane z opracowaniem: bazy danych, platformy wyszukiwania, prezentacji i bezpieczeństwa danych. Pierwszy etap prac wykonywany w 2010 r. obejmował: opracowanie metody osadzania metadanych w stratnie kompresowanych sekwencjach wizyjnych; analizę metod parametryzacji modelu procesu zgłoszeń w celu filtracji nielegalnych pakietów i nielegalnych zapytań do baz danych; analizę wymagań dla integracji schematów baz danych w oparciu o ontologie; przegląd standardów wyszukiwania obiektów wiedzy (m.in. IEEE LOM, SQI, OAI-PMH) oraz ocenę możliwości implementacji metryk oceny jakości SSIM, VQM i PSNR wraz z ich korelacjami z MOS.

Automatyczne znajdowanie podobnych obrazów w oparciu o deskryptory koloruBogusław Cyganek, Rafał Frączek AGH CYFRONET

 

Narzędzia wykorzystujące metody lingwistyki korpusowej i analiza historycznych dokumentów tekstowych - Agnieszka Mykowiecka IPI PAN

Od kilkunastu lat członkowie Zespołu Inżynierii Lingwistycznej i osoby współpracujące z nami w ramach wielu kolejnych projektów zajmują się różnorodnymi tematami związanymi z przetwarzaniem tekstów w języku naturalnym (głównie polskim). Podstawowe dziedziny, w których osiągnięte zostały najbardziej znaczące wyniki to: analiza morfologiczna, ujednoznacznianie tagów morfologicznych, analiza składniowa, odkrywanie wiedzy lingwistycznej z tekstów, budowa anotowanych korpusów tekstowych oraz ekstrakcja informacji.

W wyniku prowadzonych prac powstało szereg programów pozwalających na przetwarzanie polskich tekstów. Wśród narzędzi, którymi dysponuje ZIL IPIPAN wymienić można dwa tagery morfologiczne, głęboki parser składniowy wykorzystujący gramatykę DCG oraz  parser powierzchniowy wraz z gramatyka opisująca polskie frazy.
Równolegle do prac nad budowa narzędzi prowadzone są prace nad gromadzeniem zasobów lingwistycznych. Najważniejszy opracowany zasób to korpus języka polskiego (IPI PAN korpus) oraz budowany obecnie Narodowy Korpus Języka Polskiego. Korpus IPIPAN oznaczony jest informacjami morfologicznymi, podczas gdy NKJP będzie miał również anotacje składniowe i proste anotacje semantyczne.  Zadawanie bardzo skomplikowanych pytań o informacje zawarte w korpusach jest możliwe dzięki zbudowanej przeglądarce Poliqarp.  Poza tymi dużymi korpusami ogólnymi zbudowano anotowany semantycznie korpus transkrypcji dialogów oraz opracowano szereg mniejszych, różnorodnych zasobów danych, takich  jak syntaktyczny słownik walencyjny języka polskiego czy słownik nazw warszawskich.

Realizacja celów 14.1 i 14.2 wymagać będzie opracowania koncepcji słownika kilku historycznych wersji języka polskiego uwzględniającego zmiany znaczenia i pisowni słów. Wypełnianie słownika opierać się będzie o dane pozyskane bezpośrednio z analizy pochodzących z danego okresu historycznego tekstów. Narzędzia do analizy tekstów, które powstaną, będą miały charakter ogólny i będą mogły być wykorzystywane do analizy innego typu polskich danych tekstowych.   O ile uda się nawiązać odpowiednia współpracę przewidziane jest też alternatywne włączanie do opracowywanego słownika innych opracowanych już zasobów leksykalnych.
 Drugim podjętym zadaniem jest opracowanie programu pozwalającego na interaktywne korzystanie ze słownika w trakcie przeglądania tekstów staropolskich. W pierwszym etapie powstanie koncepcja takiej nakładki, która będzie dyskutowana z aktualnymi użytkownikami bibliotek cyfrowych.
Ostanie wyodrębnione zadanie to próby ułatwienia rozumienia tekstów staropolskich przez gromadzenie tłumaczeń fragmentów dłuższych niż pojedyncze słowa i proponowanie ich na życzenie  osobie przeglądającej tekst staropolski.
Prezentacja zawierać będzie pierwsze założenia dotyczące realizacji dwóch pierwszych z wymienionych zadań i dane  ilustrujące poszczególne problemy, które trzeba rozwiązać.

Metodologia badań w zakresie analizy i standaryzacji metadanych oraz szkieletów klasyfikacji w projekcie SYNAT– Marcin Roszkowski Biblioteka Narodowa

Celem wystąpienia jest zreferowanie zakresu prac badawczych prowadzonych w ramach etapu  B1 w projekcie PASSIM.  Dotyczą one:

  • analizy stosowalności istniejących standardów metadanych i narzędzi opracowania rzeczowego oraz możliwości ich adaptacji na potrzeby projektu,
  • typologii elementarnych jednostek opisu włączanych do zasobów systemu,
  • opracowania modelu danych na potrzeby projektu PASSIM, uwzględniającego opis na poziomie jednostki oraz kolekcji,
  • wykorzystania zasobów terminologicznych oraz systemów organizacji wiedzy na potrzeby reprezentacji metainformacji. 

Semantyczne wyszukiwanie informacji - Hung Son Nguyen – WMIM UW

Integracja heterogenicznych źródeł wiedzy – podejście ontologiczne Krzysztof Goczyła, Aleksander Waloszek, Wojciech Waloszek, Teresa Zawadzka – Politechnika Gdańska

W prezentacji przedstawiono założenia metodyki integracji heterogenicznych źródeł wiedzy opartej na podejściu ontologicznym. Ontologia w tym podejściu traktowana jest jako wspólny i rozszerzalny szkielet reprezentacji artefaktów różnego rodzaju i należących do różnych obszarów tematycznych. Artefaktami mogą być dowolne dokumenty niosące jakąś wiedzę użyteczną dla człowieka, np. obiekty dziedzictwa kulturowego, prace naukowe, opisy wynalazków itd. Artefakty przypisywane są do poszczególnych konceptów ontologii, a związki pomiędzy artefaktami – do relacji (ról) zdefiniowanych w ontologii. Ontologia obejmuje trzy poziomy:

  • poziom ogólny (upper-level), niezależny od rodzaju i obszaru tematycznego artefaktów, a zawierający pojęcia wspólne dla wszystkich artefaktów;
  • poziom reprezentacji, zależny od  formy artefaktu (dokument pisany, obraz, film, ….)
  • poziom tematyczny, zależny od obszaru tematycznego artefaktów.

Zakłada się, że  poziom ogólny jest to jedna ontologia oparta na ontologii CIDOC. Poziom reprezentacji jest oparty na powszechnie przyjętych standardach reprezentacji obiektów cyfrowych różnego rodzaju i ma charakter rozszerzalnego zbioru ontologii. Poziom tematyczny zawiera szczegółowe ontologie opisujące dany obszar tematyczny.

Narzędziem, które  planuje się wykorzystać do budowy prototypowego systemu integracji, jest system wnioskujący RKaSeA, obsługujący pewien podzbiór języka OWL 2.0, wraz z warstwą Knowledge Layer służącą do obsługi integracji zewnętrznych źródeł wiedzy. Narzędzie to zostanie wykorzystane i rozbudowane pod kątem zastosowania w tzw. eksploracyjnych grach edukacyjnych (ExGames). W grze tego typu użytkownik usiłuje osiągnąć postawiony mu cel, który może być sformułowany na różnym poziomie szczegółowości. Cel zawsze związany jest ze zdobyciem pewnej wiedzy na określony temat. Przebieg gry polega na „wędrówce" po sieci semantycznej określonej przez ontologię ogólną, stosowne ontologie reprezentacji i właściwe ontologie tematyczne w poszukiwaniu wyznaczonego celu. Gra może być w każdej chwili przerwana lub zakończona przez użytkownika. Do realizacji wędrówki wykorzystywana jest baza wiedzy zarządzana przez system RKaSeA.

Integracja heterogenicznych źródeł wiedzy za pomocą wirtualnych perspektyw baz danych- Piotr Habela, Kazimierz Subieta PJWSTK

Model biznesowy platformy - zakres współpracy między partnerami: UJ - Szkoła ŁazarskiegoEwa Okoń-Horodyńska Uniwersytet Jagielloński

Spersonalizowane wyszukiwanie na bazie zgromadzonej i udostępnionej wiedzy– system PrOntoAndrzej P. Wierzbicki Instytut Łączności

System PrOnto wspomaga pracę zespołu badawczego użytkowników (Virtual Research Community, VCR) w oparciu o radykalnie spersonalizowany interfejs użytkownika. Radykalna personalizacja interfejsu polega na założeniu, że preferencji badawczych użytkownika nie da się w pełni sformalizować logicznie czy probabilistycznie (co najwyżej 0,01% neuronów w naszym mózgu zajmuje się rozumowaniem racjonalnym, logicznym). Dlatego też interfejs powinien zachowywać i podkreślać intuicyjny charakter wyborów użytkownika, a mimo to wspomagać go we współpracy z narzędziami inżynierii ontologicznej.Model PrOnto zakłada obsługę grupy użytkowników (VCR) poprzez funkcjonalności służące indywidualnemu użytkownikowi lub współpracy grupowej. Model ten obejmuje:

1) Radykalnie spersonalizowany model ontologiczny użytkownika, składający się z trzech warstw:

a) warstwy intuicyjnych, pozalogicznychpojęć C; radykalna personalizacja polega właśnie na tym, że traktujemy te pojęcia jako twory intuicyjne, osobiste użytkownika i nie nadajemy im zbyt daleko idących interpretacji logicznych, wstrzymujemy się też od ich nadmiernej automatyzacji, chociaż dopuszczamy intuicyjne określanie relacji pomiędzy pojęciami;

b) warstwy klasycznych fraz kluczowych K(podlegających analizie semantycznej i logicznej z użyciem narzędzi inżynierii ontologicznej);

c) warstwy relacji pomiędzy pojęciami a frazami kluczowymi f: CxK -> R(w pierwotnej wersji są to współczynniki wagi lub istotności określane subiektywnie przez użytkownika, ale właśnie w tej warstwie relacji można proponować różnorodne interpretacje i rozszerzenia tych relacji).

2) Repozytorium dokumentów D, interesujących dla użytkownika bądź zespołu badawczego użytkowników (VRC), składającego się z tekstów dokumentów pozyskanych bądź sieciowych odnośników (linków) do takich dokumentów;

3) Metody wyszukiwania oraz rankingu dokumentów w repozytorium dla indywidualnegoużytkownika w oparciu o radykalnie spersonalizowany model użytkownika (możliwe są różne metody, i model użytkownika ich bynajmniej jednoznacznie nie określa);

4) Agenta wyszukiwania sieciowego (tzw. agenta hermeneutycznego) wspomagającego wyszukiwanie sieciowe – zazwyczaj z wykorzystaniem dostępnych wyszukiwarek – nowych dokumentów dla wzbogacenia repozytorium, wraz z odpowiednia metodą rankingu dokumentów i(lub) reguła decyzyjną;

5) Funkcjonalności uzupełniające, które mogą wzbogacić działanie systemu PrOnto bądź to w odniesieniu do użytkownika indywidualnego, bądź też zbiorowego.

Istnieje już prototyp systemu PrOnto, implementujący powyższą architekturę i część funkcjonalności. Przedmiotem zadania badawczego Model profilu ontologicznego użytkownika i grupy było rozszerzenie modelu PrOnto o różne interpretacje (logiczne i probabilistyczne) umożliwiające dalsze wzbogacenie funkcjonalności. Prezentacja przedstawi przyjęte założenia takiego rozszerzenia w aspektach: Pojęcia zapytania użytkownika; Interpretacji relacji pomiędzy pojęciami; Interpretacji relacji pomiędzy pojęciami a frazami kluczowymi; Metod rankingu dokumentów; Funkcji agenta wyszukiwania sieciowego; Funkcjonalności uzupełniających.

Koncepcja architektury PlatformyWojciech Sylwestrzak, Aleksander Nowiński ICM UW

Prezentacja przedstawia założenia otwartej architektury Platformy realizowanej w ramach projektu SYNAT.  Architektura, która opracowana zostanie w połowie roku 2011 będzie wynikiem zarówno założeń funkcjonalnych jak i ogólnych założeń dotyczących tworzonej platformy, które przedstawiamy w pierwszej części prezentacji. Oprócz tych założeń omawiamy podstawowe klasy usług w poszczególnych warstwach systemu, a także przedstawiamy ogólny model operacyjny platformy.

Zintegrowany System Wiedzy oraz Wielofunkcyjne Repozytorium Danych Źródłowych – podstawy technologiczneMarcin Werla PCSS

Portal Liferay jako środowisko pracy grupowej – Błażej Zyglarski UMK, Piotr Bała  ICM UW

Istotnym elementem nowoczesnej otwarten nauki jest współpraca poszczególnych badaczy i grup badawczych. Współpraca coraz częściej dotyczy osób zatrudnionych w różnych instytucjach i pracujących w różnych miejscach. Współczesne narzędzia informatyczne pozwalają na sprawne komunikowanie się różnych grup badawczych i wymianę i współdzielenie dokumentów. Efektywne prowadzenie badań naukowych we współczesnej nauce nie ogranicza się tylko do komunikacji poprzez pocztę elektroniczną czy telefon (nawet jeżeli jest to komunikacja w oparciu o technologię VoIP czyli np. Skype). Niezbędnym elementem codziennej pracy jest współdzielenie dokumentów i zasobów. Jeżeli mówimy o współdzieleniu zasobów to musimy uwzględnić możliwość tworzenia grup mających dostęp do poszczególnych zasobów, różne poziomy dostępu i edycji dokumentów, czyli wszystko to co rozumiemy poprzez mechanizmy pracy grupowej.  

Obecnie dostępnych jest wiele środowisk pracy grupowej, od bardzo prostych po rozbudowane, w większości komercyjne narzędzia. Większość z nich oparta jest o mechanizmy internetowe, pozwalające na dostęp do dokumentów i innych zasobów projektu z przeglądarki internetowej. W projekcie SYNAT zdecydowaliśmy się na wykorzystanie otwartego środowiska portalowego Liferay (www.liferay.org) jako środowiska pracy grupowej. Liferay, obok rozbudowanej platformy portalowej, udostępnia bogate mechanizmy pracy grupowej, takie jak repozytoria dokumentów, blogi, wiki, czy fora dyskusyjne przy jednoczesnym rozbudowanym systemie konfiguracji uprawnień. 

Przedstawione zostaną założenia wykorzystane przy organizacji systemu pracy grupowej dla projektu SYNAT, mozliwości jakie oferuje portal a także dotychczasowe doświadczenia. 

Opracowanie prototypowych narzędzi analizy statystycznej grupowania tematycznego dużych kolekcji dokumentów tekstowych - Mieczysław Kłopotek IPI PAN

IPI PAN prowadzi badana podstawowe w dziedzinach lingwistyki komputerowej, wyszukiwarek internetowych, robotyki, weryfikacji oprogramowania, równoległych architektur etc. W ramach niniejszego projektu nasz zespół podjął się opracowania prototypowych narzędzi analizy statystycznej grupowania tematycznego dużych kolekcji dokumentów tekstowych

Rozpoczynając prace nad projektem należy zadać sobie fundamentalne pytanie: na ile jego realizacja ma sens i czy potencjalne korzyści / wartość dodana z jego realizacji uzasadnia poniesione koszty. Bo przecież gigantyczną platformą  hostingową dla ZASOBÓW WIEDZY jest Internet jako taki, a gwarantem dostępu do tych zasobów DLA NAUKI, EDUKACJI I  OTWARTEGO SPOŁECZEŃSTWA  WIEDZY – zdawałoby się są liczne wyszukiwarki internetowe o ogromnych indeksach.

Ale czy rzeczywiście takie wyszukiwarki jak Gogle czy Yahoo zapewniają nam szeroki dostęp do zasobów wiedzy? Polski Internet to około 1 miliarda stron WWW, podczas gdy wg informacji właścicieli Gogle liczba znanych różnych adresów URL sięga biliona. Tymczasem indeks Gogle ogranicza się do 25 miliardów dokumentów,. Przy czym nauka i edukacja, w tym zwłaszcza polska, nie stanowią bynajmniej priorytetu dla pająków tej wyszukiwarki.

Implikuje to bardzo smutną konkluzję: ponad 90% dokumentów prezentujących polską naukę,  kulturę czy gospodarkę  nie zostanie odnaleziona przez jej użytkowników.

Tymczasem dla naszej gospodarki to właśnie dostępność informacji o polskiej nauce jest kluczowa. Przytoczmy ekstremalny, ale jakże wymowny w konkretnych środkach finansowych przykład:  Co kilkanaście lat powraca jak bumerang kwestia chorób zakaźnych zwierząt gospodarskich takich jak pryszczyca. Podczas ostatniej europejskiej epidemii groziło wybicie całych stad, gdzie potencjalne straty szacowano  w setkach milionów złotych. Tymczasem producentem najlepszych środków zapobiegawczych i leczniczych, tzw. Jodoforów jest .... Polska. Na temat tych związków napisano kilkadziesiąt artykułów naukowych – ale żadnego nie można znaleźć w Google. Szybki dostęp do informacji w sytuacjach krytycznych może zatem błyskawicznie zwrócić koszty poniesione na przedmiotowy projekt.

Ale samo zgromadzenie polskich zasobów naukowych w formie elektronicznej to nie wszystko. Liczy się przede wszystkim łatwość odnalezienie dokumentów na interesujący nas temat.  Szczególnie w dziedzinie badań naukowych ważne jest usystematyzowanie potencjalnie dostępnej wiedzy. W tym kontekście mówimy o strukturalnym grupowaniu dokumentów, tzn. na takim ich podziale na skupiska dokumentów tematycznie podobnych, by również uwidocznić relacje między tymi skupieniami. 

Takiej prezentacji wyszukanych dokumentów nie oferują największe wyszukiwarki, Google, czy Yahoo. Mniejsze silniki, takie jak Vivisimo, grupują wprawdzie wyniki wyszukiwania, ale bez opisu ich wzajemnej relacji, a jeśli takowa jest dostarczana w postaci mapy kolekcji dokumentów, to są to systemy bardzo wolne, jak np. Micropatent czy WebSOM.

Tymczasem grupowanie strukturalne wnosi nową jakość do rozumienia kolekcji dokumentów, wspiera rozumienie kontekstu zapytania i odpowiedzi na nie, Nowe technologie,  opracowane w IPI PAN w ramach projektu BEATCA, bazujące na strukturach rosnącego gazu neuronowego i sieci immunologicznych nie tylko czynią grupowanie strukturalne wykonalnym dla dużych kolekcji dokumentów poprzez przyspieszenie procesu obliczeniowego, ale tworzą nową jakość dzięki bardziej elastycznej strukturze połączeń między grupami w porównaniu do wspomnianych map dokumentów.

Kolejnym aspektem wyszukiwania informacji, w którym w ramach wieloletniego projektu BEATCA, wspieranego kilkoma grantami MNiSW, to zagadnienie kontekstowości. Szczególnie dla dokumentów pochodzących z różnych dziedzin nauki, takich jak fizyka, matematyka, historia, istnieje potrzeba uwzględnienia specyfiki dziedzinowego języka przy ocenie podobieństwa między dokumentami podczas ich grupowania.

Dla kolekcji różnorodnych nie sprawdzają się tradycyjne metody globalnej wagi poszczególnych słów, jak jest to stosowane w wielkich systemach wyszukiwarek.

Dlatego w ramach projektu BEATCA odeszliśmy od modelu globalnego na rzecz lokalnego, kontekstowego.  Dzięki temu jesteśmy w stanie nie tylko ocenić ogólną ważność poszczególnych terminów, ale także ich znaczenie w kontekście określonej dziedziny. Dzięki temu modelowi uzyskujemy stabilizację grup, czyli np. przyrost dokumentów w dziedzinie np. medycyny nie powoduje zmiany struktury podkolekcji dokumentów z dziedziny fizyki.  Ponadto poprawia się efektywność procesu rozrostu kolekcji w ogóle z uwagi na ograniczenie zakresu aktualizacji struktur informacyjnych kolekcji.

Jednym z powodów, dla których analiza skupień dla wielkich kolekcji dokumentów nie znalazła dotychczas szerokiego zastosowania, jest konieczność stałej aktualizacji strukury grup tematycznych kolekcji z uwagi na naturalny dryft tematyczny. Niektóre kierunki badań zanikają, inne dopiero powstają. Tradycyjne metody grupowania wymagały powtarzania procesu grupowania od początku, co z jednej strony jest procesem niezwykle czaso- i zasobochłonnym, a z drugiej generuje gwałtowne nieraz zmiany przynależności do grup tematycznych.

Dlatego też w ramach projektu BEATCA opracowaliśmy metody grupowania adaptacyjnego, pozwalające na niwelację obu tych niekorzystnych zjawisk, dzięki czemu struktura skupień, uzyskana w procesie grupowania strukturalnego, może nadążać za zmianami w kolekcji gwarantując płynną zmianę ej struktury.

W ramach grantu SYNAT naszym celem jest stworzenie narządzi  analizy statystycznej grupowania tematycznego dużych kolekcji dokumentów tekstowych, opartych o wspomniane technologie, wypracowane w ramach projektu BEATCA. Generowane w tych warunkach skupienia będą podstawą do uogólnionego etykietowania grup jak i dokumentów. Ponadto w oparciu o autorską koncepcję podobieństwa histogramowego określana będzie ważność dokumentów w ramach skupień. Opracujemy metody oceny jakości zarówno uzyskiwanych skupień jak i przypisywanych etykiet.

Znakowanie wodne dokumentów – Kamil Kaczyński WAT

W prezentacji przedstawiona została idea znakowania wodnego dokumentów. Rozróżnione zostały dwie główne metody nanoszenia informacji o własności intelektualnej – znakowanie widoczne i niewidoczne. Prezentacja skupia się na przedstawieniu metod znakowania widocznego i niewidocznego plików graficznych standardu JPEG oraz dokumentów PDF. Zaproponowane zostały także najbardziej uniwersalne i efektywne metody znakowania dla wymienionych plików

Różne aspekty przechowywania i archiwizacji danych – Łukasz Walkiewicz NASK

Wykorzystanie systemów klucza publicznego bazującego na teorii krzywych eliptycznych do podpisywania dokumentów  -Piotr Bora, Tomasz Kijko WAT

W prezentacji przedstawiona została idea znakowania wodnego dokumentów. Rozróżnione zostały dwie główne metody nanoszenia informacji o własności intelektualnej – znakowanie widoczne i niewidoczne. Prezentacja skupia się na przedstawieniu metod znakowania widocznego i niewidocznego plików graficznych standardu JPEG oraz dokumentów PDF. Zaproponowane zostały także najbardziej uniwersalne i efektywne metody znakowania dla wymienionych plików

Wybrane zagadnienia z zakresu prawa własności intelektualnej w projekcie SYNAT Tomasz Targosz,  Sybilla Stanisławska-Kloc Uniwersytet Jagielloński

Przedmiotem wystąpienia jest omówienie podstawowych problemów prawnych z zakresu własności intelektualnej, jakie mogą wystąpić w projekcie SYNAT oraz przedstawienie zadań Instytutu Prawa Własności Intelektualnej UJ w projekcie oraz harmonogramu ich realizacji. Zasygnalizowane zostaną przede wszystkim te obszary projektu, w których istotność praw własności intelektualnej jawi się jako oczywista, tzn. pozyskiwanie treści, pozyskiwanie i tworzenie narzędzi służących zarządzaniem zasobami oraz udostępniania treści użytkownikom. Ponieważ analiza tych zagadnień z punktu widzenia praw własności intelektualnej wymaga znajomości konkretnych zamierzeń uczestników projektu, konieczna jest identyfikacja tych zamierzeń, czemu służyć ma krótka ankieta kierowana do uczestników projektu. Na zakończenie przedstawione zostaną w najogólniejszym zarysie regulacje dotyczące własności intelektualnej.