Daniel Baránek – Projekty

Wikimedia versus traditional biographical encyclopedias (2024–2025)

Wikipedie se díky svému rozsáhlému záběru a dostupnosti stala hlavním zdrojem životopisných informací. Wikipedie a Wikidata jsou však ze své podstaty – částečně kvůli politice „žádný vlastní výzkum“ – do značné míry závislé na výstupech výzkumných institucí.

Projekt si klade za cíl analyzovat produkci tradičních biografických slovníků, prozkoumat jejich vztah k Wikipedii a Wikidatům, identifikovat současné problémy a navrhnout řešení ke zlepšení spolupráce mezi Wikimedií a tvůrci tradičních biografických slovníků.

V projektu jsou využívány a vyvíjeny nástroje strojového učení pro strojové čtení textů a strojového zpracování textů. Zveřejněná první verze modelu pro strojovou anotaci textů

Stránka projektu

Digitalizace židovských matrik (2024)

Pilotní projekt pro převod ručně psaných údajů ze skenů židovských matrik do relační databáze.

Pro získávání dat byly vyvinuty modely strojového učení pro rozpoznávání ručně psaných textů (HTR, handwritten text recognition) a transformaci textů (text-to-text). Zveřejněné první verze vyvinutých modelů: segmentace textů, rozpoznávání textů, transformace textů.

Prvotní dataset je uložen na Wikibase Cloud.