Internet

Mehr Relevanz durch Ähnlichkeit

In der heutigen datengetriebenen Welt sind Relevanz und Personalisierung entscheidende Erfolgsfaktoren für digitale Anwendungen. Egal ob in E-Commerce, Medienportalen oder unternehmensinternen Wissensdatenbanken – Nutzer:innen erwarten Vorschläge, die wirklich passen. Genau hier kommt das Feature MoreLikeThis (MLT) von Apache Solr ins Spiel.

Was ist "MoreLikeThis"?

MoreLikeThis (kurz: MLT) ist eine leistungsstarke Funktion in Apache Solr, die es ermöglicht, dokumentenähnliche Inhalte anhand ihrer Textmerkmale zu finden. Dabei werden – ähnlich wie bei modernen Empfehlungssystemen – semantisch relevante Dokumente ermittelt, die inhaltlich dem Ausgangsdokument ähneln.

Die Idee:

MLT analysiert das Vorkommen und die Gewichtung bestimmter Terme (z. B. Wörter in Titel oder Beschreibung) und verwendet diese Informationen, um verwandte Inhalte zu identifizieren – ganz ohne explizite Tags oder strukturierte Metadaten.

Wie funktioniert MLT in Solr?

MLT basiert auf Termfrequenzanalyse und verwendet Metriken wie TF-IDF (Term Frequency – Inverse Document Frequency), um relevante Schlüsselbegriffe aus einem Referenzdokument zu extrahieren. Anschließend wird eine Abfrage aus diesen Begriffen generiert, um ähnliche Dokumente zu identifizieren.

Wichtige Parameter dabei sind:

  • mlt.fl – die Felder, auf denen die Ähnlichkeitsanalyse basiert (z. B. Titel, Beschreibung, Inhalt).
  • mlt.mindf – minimale Dokumentfrequenz eines Begriffs.
  • mlt.mintf – minimale Termfrequenz im Quelltext.
  • mlt.count – Anzahl der zurückgegebenen ähnlichen Dokumente.

Beispiel-Request:

/solr/collection/select?q=id:123&mlt=true&mlt.fl=title,description&mlt.count=5

Use Cases in der Praxis

1. Produktempfehlungen im E-Commerce Kund:innen sehen ein Produkt – Solr schlägt automatisch ähnliche Artikel vor, basierend auf Titel, Beschreibung und Kategorie.

2. Ähnliche Artikel in Newsportalen Unter jedem Artikel erscheinen relevante Beiträge, die thematisch nahe liegen, ohne dass Redaktionen manuell kuratieren müssen.

3. Kontextuelle Wissensvorschläge in Intranets Mitarbeiter:innen finden auf Basis eines angezeigten Dokuments ähnliche Inhalte, was die Navigation durch komplexe Wissensdatenbanken erleichtert.

4. Duplicate Detection & Clustering MLT kann auch verwendet werden, um Duplikate (Plagiate) oder stark überlappende Inhalte zu identifizieren.

Vorteile von MoreLikeThis

Vollständig integriert in Solr – kein externer Recommender notwendig

Flexibel konfigurierbar durch zahlreiche Parameter

Skalierbar für große Datenmengen

Sofort einsatzbereit mit bestehender Indexstruktur

Domänenunabhängig – funktioniert für Produkte, Artikel, Bücher, juristische Texte u.v.m.

Grenzen & Tipps

Obwohl MLT mächtig ist, gibt es auch Grenzen:

  • Es arbeitet statistisch, nicht semantisch – Begriffe müssen tatsächlich im Text vorkommen.
  • Mehrsprachigkeit kann problematisch sein, wenn nicht ausreichend normalisiert wurde.
  • Ergebnisse können verfälscht werden, wenn Felder zu „rauschig“ oder zu generisch sind.

Pro-Tipp: Eine Kombination mit Textanalyse, Stopword-Listen und Custom Tokenization kann die Qualität der Empfehlungen deutlich steigern.

Fazit

MoreLikeThis ist ein unterschätztes Juwel in Apache Solr. Es liefert wertvolle Ergebnisse mit minimalem Konfigurationsaufwand und lässt sich hervorragend in bestehende Suchlösungen integrieren. Für Unternehmen, die ihre Inhalte intelligenter verknüpfen und personalisieren wollen, ist MLT ein sofort einsetzbarer Hebel – ganz ohne den Aufbau komplexer Recommendation Engines.

Auch auf LinkedIn

Mehr Relevanz durch Ähnlichkeit

 

Über die SHI GmbH

Seit über 30 Jahren ist die SHI GmbH mit Sitz in Augsburg ein etabliertes IT-Beratungs- und Softwarehaus, das passgenaue Lösungen für unterschiedlichste Branchen entwickelt. Als langjähriger Partner führender Technologieanbieter wie Cloudera, Elastic, Lucidworks, Apache Solr und OpenSearch bieten wir umfassende Expertise in der Implementierung innovativer und skalierbarer Such- und Analyseplattformen sowie effizienter Datenverarbeitungslösungen.

Unser Leistungsspektrum reicht von der strategischen Beratung über Migration und Integration bis zur individuellen Anpassung und kontinuierlichen Optimierung. Im Bereich der Individualentwicklung realisieren wir flexible Web-Applikationen, Schnittstellen und E-Commerce-Lösungen mit Fokus auf Langlebigkeit. Für Fachverlage haben wir die modulare Publikationsplattform InfoPilot entwickelt, die auf Open-Source-Basis eine effiziente Online-Vermarktung von Fachinhalten ermöglicht. SHI steht für ganzheitliche Betreuung, langfristige Partnerschaften und Wissensaustausch durch Workshops und Schulungen. Mit unserem engagierten Team in Augsburg sind wir Ihr zuverlässiger Partner für die digitale Transformation.

Adresse: SHI GmbH, Konrad-Adenauer-Allee 15, 86150 Augsburg Deutschland
Telefon: +49 821 – 74 82 633 0
E-Mail: info@shi-gmbh.com
Websiten: https://www.shi-gmbh.com, https://shi-softwareentwicklung.de, https://infopilot.de

Firmenkontakt und Herausgeber der Meldung:

SHI GmbH
Konrad-Adenauer-Allee 15
86150 Augsburg
Telefon: +49 (821) 7482633-0
Telefax: +49 (821) 7482633-29
http://www.shi-gmbh.com

Ansprechpartner:
Dipl.-Ing.(FH) Michael Anger
Head of Sales
E-Mail: michael.anger@shi-gmbh.com
Für die oben stehende Story ist allein der jeweils angegebene Herausgeber (siehe Firmenkontakt oben) verantwortlich. Dieser ist in der Regel auch Urheber des Pressetextes, sowie der angehängten Bild-, Ton-, Video-, Medien- und Informationsmaterialien. Die United News Network GmbH übernimmt keine Haftung für die Korrektheit oder Vollständigkeit der dargestellten Meldung. Auch bei Übertragungsfehlern oder anderen Störungen haftet sie nur im Fall von Vorsatz oder grober Fahrlässigkeit. Die Nutzung von hier archivierten Informationen zur Eigeninformation und redaktionellen Weiterverarbeitung ist in der Regel kostenfrei. Bitte klären Sie vor einer Weiterverwendung urheberrechtliche Fragen mit dem angegebenen Herausgeber. Eine systematische Speicherung dieser Daten sowie die Verwendung auch von Teilen dieses Datenbankwerks sind nur mit schriftlicher Genehmigung durch die United News Network GmbH gestattet.

counterpixel