Top-Fragen
Zeitleiste
Chat
Kontext

Bielefeld Academic Search Engine

Wissenschaftliche Suchmaschine Aus Wikipedia, der freien Enzyklopädie

Bielefeld Academic Search Engine
Remove ads

BASE (Bielefeld Academic Search Engine) ist eine Suchmaschine für wissenschaftliche Dokumente. Sie wird von der Universitätsbibliothek Bielefeld mit der Suchmaschinentechnologie der Open-Source-Software Solr/Lucene betrieben.[1] BASE wird als strategisches Projekt fortlaufend weiterentwickelt.[2]

Schnelle Fakten Sprachen, Betreiber ...
Remove ads

Zielgruppe und Zielsetzung

Das Angebot von BASE richtet sich in erster Linie an Wissenschaftler in Universitäten und Forschungseinrichtungen und an Studierende. Mit der Entwicklung von BASE verfolgt die Universitätsbibliothek das Ziel, mit Hilfe der Suchmaschinentechnologie einen verlässlichen, qualitativ hochwertigen Suchdienst für Forschung und Lehre aufzubauen.[3]

BASE möchte Zugang geben zu den Inhalten wissenschaftlicher Dokumentenserver, die im Rahmen der Open-Access-Bewegung kostenfrei über OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting) zur Verfügung gestellt werden. Die Suchmaschine ist als offizieller OAI-Service-Provider[4] registriert und war am EU-Projekt DRIVER (Digital Repository Infrastructure Vision for European Research)[5] beteiligt, welches 2009 abgeschlossen wurde.

Aufgrund der intellektuellen Auswahl der Quellen hat BASE den Anspruch, fachlich qualifizierte Informationen in Verbindung mit umfangreichen und hochwertigen Metadaten zu liefern und sich dadurch von kommerziellen Suchmaschinen zu unterscheiden.[6]

Remove ads

Entwicklungsgeschichte

Chronologie

Weitere Informationen Datum, Ereignis ...
Remove ads

Inhalte

Zusammenfassung
Kontext

Wissenschaftliche Internetquellen

Die Inhalte von BASE sind multidisziplinär. Ausgewertet werden ausschließlich wissenschaftliche Quellen. BASE hat den Anspruch, „Internetquellen des 'Unsichtbaren Web', die in kommerziellen Suchmaschinen nicht indexiert werden oder in deren großen Treffermengen untergehen“[6] zu erschließen. BASE indexiert:

Auswahl der Quellen und Transparenz

Alle durchsuchten Quellen werden intellektuell ausgewählt und geprüft. Ein Quellenverzeichnis macht die Auswahl transparent.[44][45] Neben den indexierten Quellen wurden über 1.000 weitere Quellen mit über 30 Mio. Dokumenten geharvestet, die allerdings aus verschiedenen Gründen nicht für eine Indexierung geeignet sind.[46]

Aktualität und Umfang

Der Index wird täglich aktualisiert, die Inhalte einzelner Dokumentenserver werden wöchentlich ergänzt.[44]

Zurzeit sind 149.820.832 Dokumente aus 7.188 Quellen über BASE suchbar.[45] Die Anzahl der Dokumente und Quellen steigt seit Produktionsaufnahme stetig, und der Index wird weiter ausgebaut. So werden Repository-Betreiber, die nicht im Quellenverzeichnis aufgeführt sind, gebeten, sich mit dem BASE-Team in Verbindung zu setzen.[45]

Länderabdeckung und Sprachen

Quellen nach Ländern

Insgesamt befinden sich Quellen aus 132 Ländern im Index. Die Länder mit mehr als 100 indexierten Quellen (Repositories) sind:

Weitere Informationen Land, Quellen ...

Quellen nach Kontinenten

Die europäischen Länder sind am häufigsten vertreten, gefolgt von Asien, Nordamerika, Südamerika, Australien und Afrika.

Weitere Informationen Kontinent, Quellen ...

Alle Angaben: Stand 25. Juli 2019[47]

Dokumente nach Sprachen

Sortiert nach Sprachen,[48] ergibt sich folgendes Bild von den am meisten genutzten Sprachen mit mehr als 250.000 erfassten Dokumenten:

Weitere Informationen Sprache, Dokumente ...

Etwa 1/3 aller Quellen sind keiner Sprache zugeordnet.

Zugang zu den indexierten Dokumenten

BASE weist nicht ausschließlich Open-Access-Angebote nach.[49] BASE bietet die Möglichkeit an, eine Trefferliste auf eindeutig als Open Access klassifizierte Dokumente einzuschränken. Momentan können nur gut 45 % der indexieren Dokumente zweifelsfrei als Open Access von BASE gekennzeichnet werden, auch wenn die tatsächliche Quote der frei zugänglichen Dokumente bei ca. 60 % liegt. Die Kennzeichnung von Open-Access-Dokumenten auf Dokumentebene soll ausgebaut werden.[46] Seit Juli 2014 werden Open-Access-Dokumente im Relevanz-Ranking mit einem Boost-Faktor versehen, also tendenziell weiter vorn in der Ergebnisliste angezeigt. Diese neue Funktion ist abschaltbar.[32]

Remove ads

Funktionen

Zusammenfassung
Kontext

Benutzeroberfläche und Navigation

Die barrierefreie Benutzeroberfläche von BASE ist einfach und übersichtlich gestaltet. Die Rechercheoberfläche wird wahlweise chinesisch (vereinfachte Schrift), deutsch, englisch, französisch, griechisch, polnisch, spanisch (kastilisch) oder ukrainisch angeboten. Informationen über BASE sind deutsch und englisch verfügbar.

Die Startseite ermöglicht eine Suche im BASE-Index (Standardsuche). Von hier aus erfolgt auch der Übergang zu den weiteren Funktions- und Recherchebereichen von BASE: Erweiterte Suche, Hilfe, Browsing und Suchhistorie sowie zur mobilen Version. Die Optionen befinden sich in einer Überschriftleiste, die für alle Rechercheseiten einheitlich gestaltet ist, so dass problemlos zwischen den Funktionen gewechselt werden kann. Unterhalb der Suchmaske gelangt man u. a. auf die Seiten Über BASE (allgemeine Informationen über das Rechercheportal), das BASE-Blog und den Mastodonkanal.

Recherchefunktionalität

Standardsuche Bewusst am Erfolg von Google orientiert, präsentiert BASE dem Benutzer für den Sucheinstieg die Standardsuche mit nur einem einfachen Suchfeld, das standardmäßig für die Freitextsuche zur Verfügung steht. Mithilfe einer in der Hilfe erklärten Syntax ist es möglich, die Suche einzelner Begriffe auf einzelne Metadatenfelder zu beschränken. Bei der Eingabe der Suchbegriffe können Platzhalter für eine Rechtstrunkierung verwendet werden.

Zusätzlich bietet die Standardsuche die Option der automatischen Erweiterung der Suchbegriffe auf andere Wortformen (Lemmatisierung).

Erweiterte Suche Die Erweiterte Suche eröffnet standardmäßig die Möglichkeit, die Suchbegriffe spezifisch für die folgenden Metadatenfelder einzugeben: Gesamtes Dokument, Titel, Autor, Schlagwörter, DOI, (Teil der) URL und Verlag. Die Suche im gesamten Dokument entspricht der Standardsuche. Die einzelnen Metadatenfelder können miteinander kombiniert werden. Sie werden automatisch mit dem Booleschen Operator UND verknüpft. Innerhalb eines Suchfeldes können die Suchbegriffe durch verschiedene Boolesche Operatoren über eine spezielle, in der Hilfe dokumentierte Syntax kombiniert werden.

Daneben besteht die Option der Eingrenzung der Suche auf die Herkunft der Quellen (bestimmte Länder oder Kontinente), auf bestimmte Erscheinungsjahre oder -zeiträume, auf bestimmte Dokumentarten (z. B. Bücher, Artikel, Dissertationen, Videos) sowie auf Lizenzen zur Nachnutzung (Creative Commons, Public Domain, Softwarelizenzen wie GPL). Ebenso kann die Anzahl der in der Trefferliste angezeigten Titel begrenzt werden (10, 20, 30, 50 oder 100).

Ergebnisanzeige Die Suchergebnisse werden in einer Liste ausgegeben, die standardmäßig nach Relevanz sortiert wird. Die Ermittlung der Relevanz erfolgt nach verschiedenen Kriterien, z. B. spielt es eine Rolle, ob der Suchbegriff im Titel oder nur an anderer Stelle vorkommt. Das vorgegebene Ranking kann jedoch verändert und eine benutzerdefinierte Sortierung nach Autor, Titel oder Erscheinungsjahr gewählt werden, optional auf- oder absteigend.

Das einzelne Suchergebnis enthält – soweit vorhanden – umfangreiche, qualifizierte Metadaten (z. B. neben Titel und Autor auch Schlagwörter, Verlag, Quelle, Sprache, Abstract, URL). In die Trefferanzeige integriert ist der

  • Link zum Original-Dokument (Metadaten oder elektronischem Volltext),
  • Link zu einer neuen Suchanfrage nach dem Autor,
  • Link zum Datenlieferanten,
  • Link zu einer Suchanfrage in Google Scholar (durch die Suche nach dem Titel in Google Scholar können mit ihm verknüpfte Zitationen oder verschiedene Versionen des Werkes gefunden werden),
  • Link zum Export per E-Mail und in Literaturverwaltungsprogramme,
  • Link zum Hinzufügen als Favorit im persönlichen Profil (mit Login).

Ist die Treffermenge zu umfangreich, kann sie auf Autor, Schlagwort, Dewey-Dezimalklassifikation, Erscheinungsjahr, Quelle, Sprache, Dokumentart, Zugang (Open Access / unbekannt) oder Nachnutzung (Lizenz) eingegrenzt werden. Es kann jeweils nur eine Option aus den Auswahlmenüs ausgewählt werden.

Außerdem werden die Suchanfragen der aktuellen Sitzung in einer Suchhistorie angezeigt, die jeweils neu abgesetzt werden können. Mit einem persönlichen Login können Suchanfragen auch dauerhaft gespeichert werden. Des Weiteren können Suchanfragen als RSS- oder Atom-Web-Feed abonniert werden, die Suchergebnisse können per E-Mail verschickt oder gespeichert werden. Für diese Funktionen ist ebenfalls ein persönliches Login notwendig.[50]

Aus der Trefferliste heraus kann durch Änderung der aktuellen Suchfrage direkt eine neue Suche ausgelöst werden.

Browsing

Neben der Suche bietet BASE auch ein Browsing nach Dewey-Dezimalklassifikation (DDC), Dokumentart, Nachnutzung / Lizenz und Zugang an. Die DDC der Dokumente wird auf zwei verschiedene Arten ermittelt: Zum einen werden bereits von einigen Datenquellen DDC-Nummern vergeben, die direkt in das Browsing übernommen werden. Zum anderen werden auch Dokumente innerhalb von BASE automatisch nachklassifiziert. Die dafür verwendete Technik wurde im Rahmen des DFG-geförderten Projekts „Automatische Anreicherung von OAI-Metadaten“ entwickelt.[51]

Remove ads

Eingestellte Projekte

BASE DE

In einer eigenen Suchoberfläche konnte man gezielt in Quellen suchen, deren Dokumentenserver in Deutschland beheimatet sind. Damit sollte ein nationaler Nachweis von OAI-Metadaten ermöglicht werden.[52] Die sogenannte „Deutschland-Sicht“ umfasste ca. 6.300.000 Dokumente aus über 250 Quellen.

BASE Lab

BASE bot mit BASE Lab einen öffentlichen Testbereich an, in dem neue Funktionen erprobt werden konnten.[2] Folgende Funktionen erschienen zuerst dort:

  • Einsatz computerlinguistischer Verfahren zur automatischen Klassifikation von OAI-Metadaten im Rahmen des DFG-Projekts „Automatische Anreicherung von OAI-Metadaten mit Hilfe computerlinguistischer Verfahren und Entwicklung von Services für die inhaltsorientierte Vernetzung von Repositorien“.
  • Aufbau eines Dienstes zur Bereitstellung aggregierter und normalisierter OAI-Metadaten
  • Ausbau der Kennzeichnung von Open-Access-Dokumenten
  • Höhergewichtung von Open-Access-Dokumenten[32]
Remove ads

Technische Grundlagen

Zusammenfassung
Kontext

Suchmaschinentechnologie

Technische Basis ist die Suchmaschinentechnologie von Solr und VuFind.[1] Sie ermöglicht

  • den Einsatz von linguistischen Verfahren zur Optimierung von Suchanfragen (z. B. Lemmatisierung, Kompositazerlegung, Permutationen)
    Durch automatische Spracherkennung und Erzeugung von Wörterbüchern werden die Suchbegriffe auf weitere Wortformen (Plural, Genitiv) erweitert.
  • Relevanz-Ranking der Suchergebnisse
    Die Relevanz wird durch einen in der Software enthaltenen Algorithmus ermittelt
  • Nachträgliche Eingrenzung der Treffermenge nach bestimmten Kriterien (Autor, Schlagwort, Erscheinungsjahr, Quelle, Sprache und Dokumentart).

Integration der Datenquellen

Die Daten werden über unterschiedliche Schnittstellen in die Suchmaschine eingebunden, nämlich über[53]

  • im Regelfall: OAI-Harvesting
    Metadaten ausgewählter OAI-Dokumentenserver werden über das Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH) eingebunden.
  • in Sonderfällen: Web-Crawler
    Inhalte aus wissenschaftlichen Webseiten werden durch einen eigenen Webcrawler eingesammelt. Die hier ermittelten Volltextdaten werden auf enthaltene Metadaten hin analysiert.

Die überwiegend im Dublin-Core-Format eingesammelten Daten sind sehr heterogen und müssen deswegen vor dem Indexieren aufwändig normalisiert werden.[7]

Schnittstellen zu Fremdanbietern

BASE ermöglicht durch Links in den Trefferlisten die direkte Suche nach einzelnen Titeln in Google Scholar. Nutzt der Anwender BASE vor Ort in einer Bibliothek, können Links in den Google-Trefferlisten zum durch die Bibliothek angebotenen Volltext führen. Dies setzt die Konfiguration seitens der Bibliothek voraus.[54]

Schnittstellen zur Nachnutzung von BASE-Diensten und -Daten

BASE bietet mehrere Programmierschnittstellen an:[55]

  • Die Such- oder HTTP-Schnittstelle ist eine REST-API für die direkte Suche im BASE-Index via Solr. Die Nutzung ist kostenlos für nichtkommerzielle Vorhaben und setzt lediglich die Registrierung einer festen IP-Adresse voraus.
  • Die OAI-PMH-API bietet Projektpartnern und ausgewählten nichtkommerziellen Projekten die Möglichkeit, die normalisierten BASE-Daten (oder thematische Ausschnitte) aktuell zu beziehen.
  • Ohne Programmieraufwand realisierbar ist der Einbau eines HTML-Formulars als Suchbox zur Suche in BASE aus der eigenen Website heraus.
Remove ads

Nachnutzer

Zusammenfassung
Kontext

Einbindung in Fachportale

BASE ist in die Metasuche von mehreren deutschen Fachportalen eingebunden. Fachportal paedagogik.de, Germanistik im Netz, ilissAfrica, vifabio, Virtuelle Fachbibliothek medien buehne film und Livivo (ZB MED) binden entweder den vollständigen BASE-Index ein oder filtern die Suchanfrage nach einer Auswahl von Repositorien, die zum jeweiligen Fach passen. Da nicht nur klassische Hochschulschriftenserver, sondern auch Plattformen mit Digitalisaten von Fotos, Karten und anderen Quellenmaterialien geharvestet werden, öffnet BASE hier auch den Weg in Richtung Forschungsprimärdaten und virtuelle Forschungsumgebungen.

Nutzung durch Open-Access-Dienste

BASE ist eine Primärquelle des Webdienstes dissem.in, der Autoren dabei hilft, eigene Fachpublikationen zu entdecken, die (noch) hinter einer Paywall verborgen sind, obwohl die Autoren sie frei zum Download anbieten dürften.[56]

Auf ähnliche Weise nutzt der webbasierte Altmetrik-Dienst Impactstory BASE, um zu prüfen, ob es von einem Artikel eine frei verfügbare Version im Sinne des grünen Wegs zum Open Access gibt.[57]

Der alternative DOI-Resolver doai.io und oadoi.org nutzen BASE, um frei verfügbare Versionen (z. B. Preprints/Eprints) von Artikeln zu finden, die ansonsten nur gegen Bezahlung oder mit einer Campuslizenz verfügbar sind.[58]

Das Browser-Plugin Unpaywall nutzt BASE-Daten, um beim Aufruf akademischer Bezahlschranken einen Link zu einer legalen kostenlosen Fassung desselben Werks einzublenden (falls vorhanden).[59]

Nutzung durch Discovery Services

Seit Dezember 2015 bindet der EBSCO Discovery Service (EDS) die von BASE gesammelten und aufbereiteten Daten in seinen Dienst ein.[60]

Nutzung durch andere Suchmaschinen

BASE ist eine per Voreinstellung aktive Quelle der nicht-kommerziellen deutschen Metasuchmaschine MetaGer und (seit Mitte 2016) der Metasuchmaschinen etools.ch (optional)[61] und Searx (im Science-Tab).[62] Auch die bibliographische Metasuche Karlsruher Virtueller Katalog kann BASE durchsuchen.

Remove ads

Vergleichbare Angebote

Ein ähnliches Angebot wie BASE bieten das britische CORE (COnnecting REpositories)[63] und das ursprünglich von der University of Michigan entwickelte OAIster (heute Teil von OCLC). Beide sind vom Umfang her aber deutlich kleiner. Vergleichbare kommerzielle Suchmaschinen mit wissenschaftlichem Zuschnitt – aber geringerer Metadatenqualität – sind Google Scholar und Microsoft Academic Search.

Remove ads

Literatur

  • Dirk Pieper, Friedrich Summann: Bielefeld Academic Search Engine (BASE): An end-user oriented institutional repository search service. In: Library Hi Tech, Band 24, Nr. 4, 2006, S. 614–619; urn:nbn:de:0070-pub-16809798.
  • Dirk Pieper, Sebastian Wolf: BASE – Eine Suchmaschine für OAI-Quellen und wissenschaftliche Webseiten. In: Information, Wissenschaft & Praxis (IWP), Band 58, Nr. 3, 2007, S. 179–182; urn:nbn:de:0070-pub-17065454.
  • Weiterführende Literatur auf der BASE-Website Über BASE: Publikationen. Abgerufen am 27. August 2013.

Einzelnachweise

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads