Implementation Guide
ePA MHD Service
Version 1.0.1-b.1 - ballot

Indizierung

Auf dieser Seite werden Anforderungen an den XDS Document Service und MHD Service definiert, welche die Volltextsuche unterstützen.

Allgemein

Der MHD Service MUSS jedes Dokument aus dem XDS Document Service über die Schnittstelle Retrieve Document verfügbar machen, unabhängig davon, ob es indiziert werden muss oder nicht.

Das heißt, dass alle über den XDS Document Service abrufbaren Dokumente auch über den MHD Service abgerufen werden können, unabhängig davon, ob sie für eine Volltextindizierung relevant sind oder nicht.

Zu indizierende Dokumente

Unter Indizierung oder Indizieren wird im folgenden die Extraktion von Text aus Dokumenten verstanden, um sie für eine spätere Nutzung aufzubereiten. Im Kontext des MHD Service werden die extrahierten Daten für die Bereitstellung der Volltextsuche genutzt.

PDF/A

Der XDS Document Service MUSS jedes vorhandene und jedes neu eingestellte Dokumente im PDF/A-Format gemäß [gemSpec_Aktensystem_ePAfueralle#A_25233] in einem Dokumentenindex indizieren. Der XDS Document Service MUSS elektronische Arztbriefe im PDF/A-Format aus dem DischargeLetterContainer-Format gemäß [gemILF_PS_ePA#A_14244] des Implementierungsleitfadens [gemILF_PS_ePA#eAB] indizieren. Der XDS Document Service DARF diejenigen Textanteile in einem PDF/A-Dokument von der Indizierung ausschließen, bei denen alle folgenden Bedingungen erfüllt sind:

  • Die Textanteile sind nicht in den Kodierungen WinAnsi, MacRoman, PDFDocEncoding oder UnicodeEncoding hinterlegt.
  • Die Textanteile besitzen kein Unicode-Mapping (ToUnicode CMap) im Dokument.

Die PDF/A-Formate PDF/A-1a, PDF/A-2a und PDF/A-2u enthalten immer ein Unicode-Mapping, während PDF/A-1b und PDF/A-2b dieses nur optional bereitstellen. Falls keine Unicode-Mappings vorhanden sind, können andere Mittel verwendet werden (heuristische Verfahren, bekanntes Unicode-Mappings von Standardfonts, etc.). Die Verwendung solcher Mittel wird auch grundsätzlich (also auch bei anderen Formaten als PDF/A-1b und -2b) nicht ausgeschlossen, ist aber bei vorhandenem Mapping nicht zwangsläufig sinnvoll.

Textbasierte Formate

Der XDS Document Service MUSS Dokumente im den folgenden textbasierten Formaten (gemäß DocumentEntry.mimeType) indizieren:
  • "text/plain" (Reine Textdateien)
  • "application/xml" (XML-Dateien)
  • "application/json" (JSON-Dateien)
  • "application/fhir+xml" (FHIR-Dateien im FHIR XML-Format)
  • "application/fhir+json" (FHIR-Dateien im FHIR JSON-Format)
  • "application/hl7-v3" (HL7 CDA-Dokumente)
Der XDS Document Service MUSS Whitespace in zu indizierenden Textanteilen wie folgt behandeln: Führende und nachgestellte Whitespace-Zeichen (Leerzeichen, Tabulatoren, Zeilenumbrüche) müssen entfernt werden ("Trimming"). Innerhalb des zu indizierenden Textes (siehe oben) werden aufeinanderfolgende Whitespace-Zeichen durch ein einzelnes Leerzeichen ersetzt (Normalisierung).
Der XDS Document Service MUSS die folgenden Teile von Dokumenten mit dem mimeType "application/xml", application/fhir+xml" und "application/hl7-v3" indizieren (und keine weitergehenden Teile):
  • XML-Elementwerte: Textinhalte (Elementwerte), ausgenommen Text in Kommentaren, Processing Instructions oder DTDs.
  • XML-CDATA: Text in CDATA-Abschnitten.
  • Entity References: Diese sind so zu indizieren, wie sie nach Expansion im finalen Text erscheinen würden. Die UTF-8-Repräsentation ist zu verwenden; bei Mehrdeutigkeiten ist eine freie Wahl der UTF-Repräsentation zulässig.
Die Whitespace-Behandlung aus IG-MHD08799V16 findet Anwendung.

Hinweis: Aktuell liegen XML-Dokumente im XDS Document Service immer in UTF-8 oder in ISO-Latin-15 vor. Spätestens bei der Beantwortung von Suchanfragen der MHD Service dann in der Lage sein, ein “Matching” auf UTF-8-Text vorzunehmen.

Der XDS Document Service MUSS die folgenden Teile von Dokumenten mit dem mimeType "application/json" und "application/fhir+json" indizieren:
  • Werte: Alle Werte von Schlüsseln, sofern es sich um Zeichenketten ("Strings") handelt. Zahlen, boolesche Werte oder "null"-Werte werden nicht indiziert
Whitespace MUSS der XDS Document Service wie in IG-MHD08799V16 behandeln.

Hinweis: JSON-Dokumente werden im XDS Document Service zurzeit immer in UTF-8 gespeichert.

Zusätzliche Indizierungsanforderungen

Der XDS Document Service DARF ein Dokument durch das Indizieren NICHT verändern.

Eine Indizierung kann erfolglos sein, also den MHD-Dokumentenindex unverändert lassen. Mögliche Gründe sind ein fehlender Text im Dokument oder ein nicht zu verarbeitender Zeichensatz. Näheres ist in den folgenden Anforderungen beschrieben. Es werden keine Vorgaben gemacht, wie der gemeinsame Dokumentenindex aufzubauen oder zu speichern ist.

Von der Indizierung auszuschließen

Der XDS Document Service MUSS Dokumente von der Indizierung ausschließen, für die sie nicht explizit gefordert wird. Der XDS Document Service MUSS Dokumente von der Indizierung ausschließen, die im Ordner "technical" (Kennung f88dc706-d2df-4ca0-a850-491cfaab2d31) gespeichert sind. Der XDS Document Service DARF ein Dokument NICHT indizieren, das gemäß des Metadatenfelds DocumentEntry.languageCode nicht in deutscher Sprache verfasst ist, d.h. dessen languageCode nicht einem der folgenden Werte entspricht:

  • de-AT
  • de-DE
  • de-CH
  • de-LI
  • de-LU
Der XDS Document Service MUSS Stoppwörter [Stoppwort] gemäß der Liste [Stoppwortliste] von der Indizierung oder spätestens bei der Berechnung einer Trefferliste ausschließen; Stoppwörter MÜSSEN aber weiterhin als Teil mindestens solcher Phrasen, die nicht nur Stoppwörter enthalten, gefunden werden können.

Je nach Implementierung der Suche kann es sinnvoll sein, auf den Ausschluss der der Stoppwörter sofort bei der Indizierung zu verzichten oder dies erst “nachträglich” vorzunehmen.

Der XDS Document Service MUSS Dokumente aus dem Dokumentenindex entfernen, wenn ein Dokument gelöscht wird.

Optical Character Recognition (OCR)

Aktuell betrifft das Thema “OCR” nur die Indizierung von PDF/A-Dokumenten.

Der XDS Document Service MUSS alle zu indizierenden Dokumente auf Bilder prüfen und wenn diese mindestens die Größe einer viertel DIN A4-Seite besitzen, diese nach Text durchsuchen, um letzteren dann wie regulären Text im Dokument zu indizieren. Der XDS Document Service DARF Text aus Bildern indizieren, die weniger als eine viertel DIN A4-Seite einnehmen. Der XDS Document Service MUSS technische Mittel vorsehen, Seiten oder ganze Dokumente, die als Bild vorliegen und um rund 90 oder 180 Grad rotiert sind (bspw. aufgrund eines falsch gedrehten Scans) ebenfalls per OCR zu untersuchen.

Es kann unter Umständen technisch schwierig sein, ein gedrehtes Dokument in die richtige Position für eine OCR-Untersuchung zu bringen. Das gilt besonders dann, wenn nicht um 90 (270) oder 180 Grade gedreht wurde. Deshalb soll hier nach “best effort” gehandelt werden. Die Anforderung steht aber nicht der Verarbeitung von Seiten entgegen, die in einem ungewöhnlichen Rotationswinkel abgespeichert wurden. Regulärer PDF-Text (d.h. Text außerhalb von Bildern) kann unabhängig von der Seitenorientierung ausgelesen werden.

OCR spielt natürlich nur bei Formaten eine Rolle, die Bilder enthalten können. Entsprechende Anforderungen finden dann natürlich keine Anwendung.

Zeitvorgaben

Der XDS Document Service MUSS Dokumente sobald wie möglich anstoßen und sie im Hintergrund durchführen können.

Der XDS Document Service kann die VAU für einen Aktenkontozugriff nicht selbständig öffnen. Die initiale Indizierung nach Aktivierung der Volltextsuche im Aktensystem kann deshalb nur starten bzw. fortgesetzt werden, wenn das Aktenkonto durch einen Zugriffsberechtigten (z. B. Leistungserbringer) geöffnet wird. Die Indizierung muss nicht synchron durchgeführt werden (d.h. das einstellende System kann ein Einstellbestätigung erhalten, ohne dass das Dokument fertig indiziert wurde).