Top-Fragen
Zeitleiste
Chat
Kontext
Open Web Index
Aus Wikipedia, der freien Enzyklopädie
Remove ads
Unter der Bezeichnung Open Web Index fasst man eine Reihe von Konzepten und Projekten zusammen, die allesamt das Ziel haben, die Inhalte des World Wide Web (WWW) nicht nur über die Datenbanken der globalen Suchmaschinen-Konzerne aufzufinden, sondern die diesen Zugang der Allgemeinheit zur Verfügung stellen. Auf dieser Datenbasis können dann Suchmaschinen jeglicher Art als Anwendung aufsetzen.
Begriffsdefinitionen
Ein Web-Index ist ein geordnetes Verzeichnis von Inhalten des WWW. Im einfachsten Falle ist es ein Verzeichnis von Wörtern, bei dem zu jedem Wort vermerkt ist, auf welchen Webseiten oder URLs es zu finden ist (vergleichbar dem Suchindex am Schluss eines Buches). Ein derartiger Index ist die Basis jeder Suchmaschine. Nur beim Vorliegen eines solchen geordneten Verzeichnisses können durch Wörter (oder andere eindeutige Zeichenketten) beschriebene Inhalte des World Wide Web aufgefunden werden.
Ein offener Web-Index ist ein solcher, der eine öffentlich zugängliche Schnittstelle mit einer öffentlich zugänglichen Beschreibung anbietet. Über diese kann dann prinzipiell jeder nach Inhalten suchen. Ein solcher Index wird von Softwaremodulen erzeugt, die Webcrawler genannt werden.
Im Gegensatz dazu ist ein proprietärer Index ein solcher, bei dem der Zugriff auf bestimmte Nutzer oder Gruppen – meist Unternehmen – beschränkt ist. Typische Beispiele sind die Datenbanken der globalen Suchmaschinen-Konzerne.
Remove ads
Hintergrund
Es gibt weltweit nur noch wenige Suchmaschinen, die auf einem eigenen umfassenden Web-Index beruhen: USA (Google, Bing), China (Baidu) und Russland (Yandex).[1][2] Gleichzeitig ist der Suchmaschinenanbieter Google in Deutschland und weltweit dominant, teilweise in Art einer Monopolstellung[3].[4] Das französisch-deutsche Projekt Quaero wurde 2013 für beendet erklärt.[5][6]
Aus dieser Erfahrung und der Analyse der vergangenen Entwicklung des Internets fordern die deutschen Initiatoren[7] die schrittweise Schaffung eines offenen Internet-Indexes, der möglichst große Teile der öffentlich zugänglichen Bereiche des World Wide Web erfassen soll.[8] Mittlerweile stellt die Internetsuche[9] und der dafür notwendige Index-Dienst eine Basisinfrastruktur dar.
Remove ads
Initiativen zur Umsetzung
Zusammenfassung
Kontext
Es gibt mehrere Initiativen, die das Ziel eines offenen Web-Index auf etwas unterschiedlichen Wegen verfolgen: Sie versuchen alle, zunächst einen solchen Index zu erzeugen und diesen dann öffentlich zugänglich anzubieten. Im Folgenden eine kurze Übersicht; ohne Anspruch auf Vollständigkeit.
- Der älteste und international wahrscheinlich bekannteste Ansatz stammt aus den Jahren um 2011, beheimatet in den USA: die Common Crawl Initiative.[10] Common Crawl erstellt allerdings keinen durchsuchbaren Index, sondern sammelt Daten aus dem Web und macht sie verfügbar.
- Seit ca. 2014 gibt es ein deutsches Projekt, welches von der Hochschule für Angewandte Wissenschaften Hamburg, Department Information, ausging und vom Suma e.V. aufgegriffen wurde; abgekürzter Eigenname OWI (für OPEN WEB INDEX), eine Initiative[11] bzw. ein Konzept[12] zur Schaffung eines unabhängigen Web-Index als Basis für Angebote im Internet, wie zum Beispiel Kartendienste, Suchmaschinen oder Vergleichsdienste.[12][13] Ziel ist eine Zusammenfassung der verteilten Daten des Web unter dem Dach einer zentralen Organisation, die idealerweise bei der EU angesiedelt sein könnte.
- Seit Januar 2019 gibt es in Deutschland eine weitere Organisation, die mit Suma e.V. zusammenarbeitet und das Ziel hat, die verteilten Daten des Web in einem dezentralen Verbundprojekt aus Rechenzentren, Organisationen der Zivilgesellschaft und Firmen zusammenzufassen und zugänglich zu machen: abgekürzter Eigenname OSF, für: Open Search Foundation e. V.[14]
Weblinks
- www.openwebindex.org: Webseite einer englischsprachigen „Open Web Index Initiative“
- Dirk Lewandowski: Perspektiven eines Open Web Index. (PDF) In: searchstudies.org. Hochschule für Angewandte Wissenschaften Hamburg, 2016, archiviert vom (nicht mehr online verfügbar) am 23. Dezember 2017 .
- Initiative für freien Web-Index, Dirk Lewandowski von der HAW Hamburg im Interview mit Christian Kunz vom 1. September 2014
- Website der Common Crawl Initiative
- Website der OpenSearchFoundation
Remove ads
Einzelnachweise
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads