IdeaGraph e.V.

IdeaGraph gewährleistet die Konsistenz zwischen semantischer Suche, RAG-Pipelines (Retrieval-Augmented Generation) und externen Wissensquellen durch eine zentralisierte Wissensbasis und hochstrukturierte, KI-gesteuerte Prozesse.

Hier sind die Schlüsselmechanismen, die diese Konsistenz gewährleisten:

1. Zentralisierung aller Wissensquellen in Vektordatenbanken

Der grundlegendste Schritt zur Konsistenz ist die Speicherung und Vektorisierung aller relevanten Informationen in zentralen Wissensspeichern (Weaviate und ChromaDB).

KnowledgeObject Collection: IdeaGraph führt alle Artefakte – wie Items, Tasks, Dateien, Milestones, Konversationen und synchronisierte GitHub Issues – in einer globalen KnowledgeObject Collection in Weaviate zusammen. Dies stellt sicher, dass die semantische Suche über alle Objekttypen hinweg konsistent durchgeführt wird.
Synchronisation externer Daten: Externe Quellen werden aktiv in diese interne Wissensbasis überführt:
- GitHub-Dokumentation: Markdown-Dateien aus GitHub werden heruntergeladen, in SharePoint hochgeladen und anschließend als KnowledgeObject-Einträge in Weaviate registriert.
- GitHub Issues/PRs: Werden in einer separaten ChromaDB Collection (GitHubIssues) gespeichert, wobei Metadaten (Task ID, Item ID, Tags) beibehalten werden, um eine Rückverfolgbarkeit zur IdeaGraph-Struktur zu gewährleisten.
Analyse-Ergebnisse: Selbst KI-generierte Analysen (z. B. Support-Analysen) können als Markdown-Datei gespeichert und in Weaviate als KnowledgeObject (Typ: "SupportAnalysis") persistiert werden.

2. Strukturierte RAG-Pipelines für konsistenten Kontext

Die RAG-Pipelines (wie z. B. für die Chat-Funktion oder E-Mail-Antworten) verwenden einen mehrstufigen Ansatz, um sicherzustellen, dass die abgerufenen Informationen relevant und priorisiert sind.

Hybride Abfrage und Fusion: Die RAG-Pipeline führt eine duale Abrufstrategie durch, die semantische Suche (Vektor-Ähnlichkeit, Alpha 0.6) und Keyword-Suche (BM25, Alpha 0.7) kombiniert. Die Ergebnisse beider Suchen werden zusammengeführt und durch ein Reranking-System neu bewertet, das Faktoren wie Semantik-Score, BM25-Score, Tag-Übereinstimmung und die Zugehörigkeit zum selben Item berücksichtigt. Dies stellt sicher, dass der Retrieval-Schritt konsistent die besten Treffer liefert.
Mehrstufige Kontext-Assemblierung (A/B/C-Tiering): Der Kontext wird in streng definierten Schichten aufgebaut, was die Konsistenz in der Priorisierung des Wissens gewährleistet:
- Tier A: 2–3 Snippets vom selben Item mit hoher Relevanz (Score > 0,5).
- Tier B: 2–3 Snippets vom selben Item mit mittlerer Relevanz.
- Tier C: 1–2 Snippets aus dem globalen Kontext (andere Items, allgemeine Dokumente).
PII-Maskierung und Sicherheitsfilterung: Im Falle des E-Mail-Antwort-RAG-Dienstes wird PII-Maskierung (persönlich identifizierbare Informationen) und Snippet-Kürzung angewendet, bevor der Kontext an die KI gesendet wird. Dies sorgt für Sicherheitskonsistenz bei der Verarbeitung sensibler Daten.

3. KI-gesteuerte Normalisierung und kognitive Entlastung

KI-Agenten, die über das KIGate orchestriert werden, sorgen dafür, dass Inkonsistenzen, die durch menschliche Eingaben entstehen, reduziert werden.

Task-Strukturierung: Durch kontextbasierte Automatisierung (RAG, semantische Suche) übernimmt das System Organisation, Kontext und Priorisierung von Aufgaben. Dies führt zu einer messbar höheren Konsistenz in Task-Strukturen.
Inhaltsnormalisierung: Der Mail Processing Service nutzt beispielsweise KiGate-Agenten, um eingehende E-Mails zu analysieren und klare, verwertbare Task-Beschreibungen im Markdown-Format zu generieren. Dies normalisiert die externen E-Mail-Anfragen in das interne IdeaGraph-Format, was die nachfolgende semantische Suche und Verarbeitung konsistent hält.
Vermeidung von Medienbrüchen: Die KI-gesteuerte Strukturierung und Automatisierung eliminiert typische Reibungspunkte und Tool-Wechsel, was dazu beiträgt, dass der Entwicklungsfluss (Flow) konstant bleibt. Die Entwickler konzentrieren sich nur auf den Inhalt, während das System Organisation und Kontext übernimmt, was die mentale Belastung reduziert und die Präzision erhöht.

Zusammenfassend lässt sich sagen, dass IdeaGraph die Konsistenz durch die Vektorisierung aller Wissenssilos in Weaviate (für die semantische Suche) und die Anwendung definierter, mehrstufiger RAG-Logiken (die Retrieval und Kontextzusammenstellung steuern) gewährleistet, unterstützt durch KI-Agenten, die eingehende Informationen normalisieren und strukturieren.

Metapher: Man könnte IdeaGraph als einen zentralen Stadtplaner betrachten. Die semantische Suche ist das Straßennetz (Vektoren), das alle Gebäude (Wissensquellen) miteinander verbindet. Die RAG-Pipeline ist das Lieferkettenmanagement, das nicht chaotisch liefert, sondern strenge Regeln befolgt (A/B/C-Tiers), um sicherzustellen, dass die dringendsten Informationen (Tier A/B) aus den nächstgelegenen, relevantesten Gebäuden (demselben Item) zuerst ankommen, bevor globale Informationen (Tier C) hinzugezogen werden. Die KI-Agenten fungieren dabei als Übersetzer und Normierungsbüro, die sicherstellen, dass jede eingehende Nachricht (z. B. eine E-Mail oder ein Log-Eintrag) in das standardisierte Format des Stadtplans umgewandelt wird.

Wie gewährleistet IdeaGraph die Konsistenz zwischen semantischer Suche, RAG-Pipelines und externen Wissensquellen?

1. Zentralisierung aller Wissensquellen in Vektordatenbanken

2. Strukturierte RAG-Pipelines für konsistenten Kontext

3. KI-gesteuerte Normalisierung und kognitive Entlastung