Implementation Guide
ePA MHD Service
Version 1.0.0 - release

Indizierung

Auf dieser Seite werden Anforderungen an den XDS Document Service und MHD Service definiert, welche die Volltextsuche unterstützen.

Allgemein

Der MHD Service MUSS jedes Dokument aus dem XDS Document Service über die Schnittstelle Retrieve Document verfügbar machen, unabhängig davon, ob es indiziert werden muss oder nicht.

Das heißt, dass alle über den XDS Document Service abrufbaren Dokumente auch über den MHD Service abgerufen werden können, unabhängig davon, ob sie für eine Volltextindizierung relevant sind oder nicht. Aktuell werden nur PDF/A-Dokumente für die Volltextsuche indiziert; andere Dokumententypen wie Zahnbonusheft oder andere Medizinische Informationsobjekte (MIOs) werden dennoch über den MHD Service bereitgestellt.

Zu indizierende Dokumente

Unter Indizierung oder Indizieren wird im folgenden die Extraktion von Text aus Dokumenten verstanden, um sie für eine spätere Nutzung aufzubereiten. Im Kontext des MHD Service werden die extrahierten Daten für die Bereitstellung der Volltextsuche genutzt.

Der XDS Document Service MUSS jedes vorhandene und jedes neu eingestellte Dokumente im PDF/A-Format gemäß [gemSpec_Aktensystem_ePAfueralle#A_25233] in einem Dokumentenindex indizieren. Der XDS Document Service MUSS elektronische Arztbriefe im PDF/A-Format aus dem DischargeLetterContainer-Format gemäß [gemILF_PS_ePA#A_14244] des Implementierungsleitfadens [gemILF_PS_ePA#eAB] indizieren. Der XDS Document Service MUSS Dokumente im Textformat (DocumentEntry.mimeType="text/plain") indizieren. Der XDS Document Service DARF ein Dokument durch das Indizieren NICHT verändern.

Eine Indizierung kann erfolglos sein, also den MHD-Dokumentenindex unverändert lassen. Mögliche Gründe sind ein fehlender Text im Dokument oder ein nicht zu verarbeitender Zeichensatz. Näheres ist in den folgenden Anforderungen beschrieben. Es werden keine Vorgaben gemacht, wie der gemeinsame Dokumentenindex aufzubauen oder zu speichern ist.

Von der Indizierung auszuschließen

Der XDS Document Service MUSS Dokumente von der Indizierung ausschließen, für die sie nicht explizit gefordert wird. Der XDS Document Service MUSS Dokumente von der Indizierung ausschließen, die im Ordner "technical" (Kennung f88dc706-d2df-4ca0-a850-491cfaab2d31) gespeichert sind. Der XDS Document Service DARF ein Dokument NICHT indizieren, das gemäß des Metadatenfelds DocumentEntry.languageCode nicht in deutscher Sprache verfasst ist, d.h. dessen languageCode nicht einem der folgenden Werte entspricht:

  • de-AT
  • de-DE
  • de-CH
  • de-LI
  • de-LU
Der XDS Document Service MUSS Stoppwörter [Stoppwort] gemäß der Liste [Stoppwortliste] von der Indizierung oder spätestens bei der Berechnung einer Trefferliste ausschließen; Stoppwörter MÜSSEN aber weiterhin als Teil mindestens solcher Phrasen, die nicht nur Stoppwörter enthalten, gefunden werden können.

Je nach Implementierung der Suche kann es sinnvoll sein, auf den Ausschluss der der Stoppwörter sofort bei der Indizierung zu verzichten oder dies erst “nachträglich” vorzunehmen.

Der XDS Document Service MUSS Dokumente aus dem Dokumentenindex entfernen, wenn ein Dokument gelöscht wird.

Zeichenkodierung

Der XDS Document Service DARF diejenigen Textanteile in einem PDF/A-Dokument von der Indizierung ausschließen, bei denen alle folgenden Bedingungen erfüllt sind:

  • Die Textanteile sind nicht in den Kodierungen WinAnsi, MacRoman, PDFDocEncoding oder UnicodeEncoding hinterlegt.
  • Die Textanteile besitzen kein Unicode-Mapping (ToUnicode CMap) im Dokument.

Die PDF/A-Formate PDF/A-1a, PDF/A-2a und PDF/A-2u enthalten immer ein Unicode-Mapping, während PDF/A-1b und PDF/A-2b dieses nur optional bereitstellen. Falls keine Unicode-Mappings vorhanden sind, können andere Mittel verwendet werden (heuristische Verfahren, bekanntes Unicode-Mappings von Standardfonts, etc.). Die Verwendung solcher Mittel wird auch grundsätzlich (also auch bei anderen Formaten als PDF/A-1b und -2b) nicht ausgeschlossen, ist aber bei vorhandenem Mapping nicht zwangsläufig sinnvoll.

Optical Character Recognition

Der XDS Document Service MUSS alle zu indizierenden Dokumente auf Bilder prüfen und wenn diese mindestens die Größe einer viertel DIN A4-Seite besitzen, diese nach Text durchsuchen, um letzteren dann wie regulären Text im Dokument zu indizieren. Der XDS Document Service DARF Text aus Bildern indizieren, die weniger als eine viertel DIN A4-Seite einnehmen. Der XDS Document Service MUSS technische Mittel vorsehen, Seiten oder ganze Dokumente, die als Bild vorliegen und um rund 90 oder 180 Grad rotiert sind (bspw. aufgrund eines falsch gedrehten Scans) ebenfalls per OCR zu untersuchen.

Es kann unter Umständen technisch schwierig sein, ein gedrehtes Dokument in die richtige Position für eine OCR-Untersuchung zu bringen. Das gilt besonders dann, wenn nicht um 90 (270) oder 180 Grade gedreht wurde. Deshalb soll hier nach “best effort” gehandelt werden. Die Anforderung steht aber nicht der Verarbeitung von Seiten entgegen, die in einem ungewöhnlichen Rotationswinkel abgespeichert wurden. Regulärer PDF-Text (d.h. Text außerhalb von Bildern) kann unabhängig von der Seitenorientierung ausgelesen werden.

OCR spielt natürlich nur bei Formaten eine Rolle, die Bilder enthalten können. Entsprechende Anforderungen finden dann natürlich keine Anwendung.

Zeitvorgaben

Der XDS Document Service MUSS Dokumente sobald wie möglich anstoßen und sie im Hintergrund durchführen können.

Der XDS Document Service kann die VAU für einen Aktenkontozugriff nicht selbständig öffnen. Die initiale Indizierung nach Aktivierung der Volltextsuche im Aktensystem kann deshalb nur starten bzw. fortgesetzt werden, wenn das Aktenkonto durch einen Zugriffsberechtigten (z. B. Leistungserbringer) geöffnet wird. Die Indizierung muss nicht synchron durchgeführt werden (d.h. das einstellende System kann ein Einstellbestätigung erhalten, ohne dass das Dokument fertig indiziert wurde).