Please use this identifier to cite or link to this item:
doi:10.22028/D291-47991 | Title: | Discourse-grounded text generation |
| Author(s): | Liu, Dongqi |
| Language: | English |
| Year of Publication: | 2026 |
| DDC notations: | 004 Computer science, internet |
| Publikation type: | Dissertation |
| Abstract: | This dissertation investigates discourse-level challenges in text generation tasks where the input is lengthy, evidence is structurally fragmented, or relevant information needs to be retrieved from external sources. While mainstream neural generation systems tend to produce fluent outputs at the sentence level, they frequently encounter difficulties in maintaining balanced content selection, preserving inter-paragraph coherence, and sustaining a logical argumentative flow across longer spans. To address these limitations, this dissertation conceptualizes discourse structure as a source of prior knowledge that can be explicitly modeled and effectively utilized. This dissertation explores a progressive trajectory that spans the development of structural representations and their integration methods, the transition from full fine-tuning to parameter-efficient adaptation, the shift from purely textual input to multimodal evidence, the extension from expert-written summaries to layperson-accessible explanations, and the application of discourse modeling to retrieval-augmented generation where retrieved evidence lacks explicit rhetorical connections. This trajectory aims to enhance the operability and controllability of discourse signals across summarization and retrieval-augmented generation systems. In long-document summarization settings, the dissertation adopts Rhetorical Structure Theory (RST) as the principal discourse framework, emphasizing the importance of two key aspects: relation types and structural uncertainty. On the one hand, different discourse relations imply distinct preferences regarding what to retain or omit; relying solely on nucleus–satellite centrality while ignoring relation types fails to capture the semantic rationale behind inter-sentential connections. On the other hand, automatic discourse parsing is prone to errors in out-of-domain settings, and injecting a single parse tree as a hard constraint can amplify these errors during training and entrench them in the model’s generation behavior. To mitigate this, the dissertation proposes distributed representations that preserve parsing uncertainty by transforming discrete tree structures into probabilistic tensors or matrices aligned with neural computation. These soft signals are then injected into attention mechanisms or parameter update paths as flexible guidance. As the form of evidence expands from text to multimodal inputs, end-to-end generation becomes incapable of reproducing the characteristic discourse organization of target summary genres. To address this issue, this dissertation constructs and releases a large-scale aligned dataset for scientific presentation videos and benchmarks multiple multimodal large models under varying fine-tuning settings. This dissertation further introduces planning as an explicit intermediate variable, representing the latent structure of summaries through ordered sequences of questions. In the context of layperson-oriented summarization, this dissertation incorporates explanatory content as a controllable objective. This dissertation identifies explanatory units and their targets via discourse parsing and transforms implicit questions into explicit plans to guide the emergence and functional placement of explanations. To address the evaluation challenge posed by helpful external additions being misclassified as hallucinations, this dissertation proposes an improved consistency metric based on external knowledge verification, complemented by human evaluation. Beyond the summarization settings explored above, this dissertation extends discourse structure modeling to retrieval-augmented generation (RAG). The proposed framework constructs local RST trees within each retrieved chunk to capture intra-chunk discourse hierarchy and infers a directed rhetorical graph across chunks to model inter-chunk relations such as support, contrast, and elaboration. A discourse-driven planning module then synthesizes these structural signals into an ordered blueprint that guides the final generation. In summary, this dissertation presents a coherent path from distributed discourse signals to plan-based intermediate structures, and extends these principles to the organization of retrieved evidence in retrieval-augmented generation. Under various constraints, including long inputs, limited fine-tuning capacity, multimodal evidence, and structurally disconnected retrieved passages, explicit modeling of organizational decisions consistently enhances controllability and factual reliability. This work contributes reusable data resources, modeling strategies, and evaluation frameworks that support future research on discourse-guided text generation. Keywords: Long Input Summarization; Retrieval-Augmented Generation; Rhetorical Structure Theory; Question under Discussion. Diese Doktorarbeit untersucht diskursbezogene Herausforderungen in Textgenerierungsaufgaben, bei denen die Eingabe sehr lang ist, die Evidenz strukturell fragmentiert vorliegt oder relevante Informationen zunächst aus externen Quellen abgerufen werden müssen. Während gängige neuronale Generierungssysteme auf Satzebene meist flüssige Ausgaben erzeugen, haben sie häufig Schwierigkeiten, eine ausgewogene Inhaltsauswahl sicherzustellen, die Kohärenz zwischen Absätzen zu bewahren und über längere Textspannen hinweg einen logisch konsistenten argumentativen Textverlauf aufrechtzuerhalten. Um diesen Einschränkungen zu begegnen, konzeptualisiert diese Doktorarbeit Diskursstruktur als eine Quelle von Vorwissen, die explizit modelliert und gezielt nutzbar gemacht werden kann. Sie zeichnet eine Entwicklung nach, die vom Aufbau struktureller Repräsentationen und ihrer Integration in Modelle über den Übergang vom vollständigen Fine-Tuning zur parametereffizienten Anpassung, den Wechsel von rein textbasierten zu multimodalen Eingaben sowie die Erweiterung von expert:innenverfassten Zusammenfassungen hin zu für Laien zugänglichen Erklärungen bis zur Anwendung der Diskursmodellierung auf Retrieval-gestützte Generierung reicht, bei der identifizierte Quellen keine expliziten rhetorischen Verknüpfungen aufweist. Diese Entwicklung zielt darauf ab, die Operationalisierbarkeit und Kontrollierbarkeit von Diskurssignalen in Zusammenfassungs- und Retrieval-gestützten Generierungssystemen zu verbessern. Im Kontext der Zusammenfassung langer Dokumente verwendet die Doktorarbeit die “Rhetorical Structure Theory” (RST) als zentralen diskurstheoretischen Ansatz und betont die Bedeutung zweier Kernaspekte: der Relationstypen und der strukturellen Unsicherheit. Zum einen implizieren unterschiedliche Diskursrelationen unterschiedliche Präferenzen dafür, was in einer Zusammenfassung beibehalten oder weggelassen werden sollte; eine ausschließliche Orientierung an der Zentralität von “nucleus”- und “satellite”- Einheiten unter Ausblendung der Relationstypen erfasst die semantische Motivation intersentenzieller Verknüpfungen nicht hinreichend. Zum anderen ist die automatische Diskursanalyse in fachfremden Anwendungsbereichen fehleranfällig, und das Einbringen eines einzelnen Analysebaums als harte Vorgabe kann diese Fehler während des Trainings verstärken und sie im Generationsverhalten des Modells verfestigen. Um dem entgegenzuwirken, schlägt die Doktorarbeit verteilte Repräsentationen vor, die die Unsicherheit der Diskursanalyse bewahren, indem diskrete Baumstrukturen in probabilistische Tensoren oder Matrizen überführt werden, die auf neuronale Berechnung abgestimmt sind. Diese weichen Signale werden anschließend als flexible Leitinformationen in Aufmerksamkeitsmechanismen oder in Pfade der Parameteraktualisierung eingebracht. Mit der Ausweitung der zugrundeliegenden Daten von Text auf multimodale Eingaben sind end-to-end Generierungsansätze nicht mehr in der Lage, die charakteristische Diskursorganisation der Zielgattungen von Zusammenfassungen zuverlässig zu reproduzieren. Um dieses Problem zu adressieren, erstellt und veröffentlicht diese Doktorarbeit einen groß angelegten, zeitlich alignierten Datensatz für wissenschaftliche Vortragsvideos und vergleicht mehrere multimodale große Modelle unter unterschiedlichen Fine-Tuning-Einstellungen systematisch miteinander. Darüber hinaus führt die Doktorarbeit Planung als explizite Zwischenvariable ein, die die latente Struktur von Zusammenfassungen durch geordnete Folgen von Fragen repräsentiert. Im Kontext laienorientierter Zusammenfassungen integriert diese Doktorarbeit erklärende Inhalte als steuerbares Ziel. Sie identifiziert Erklärungseinheiten und ihre Zielobjekte mittels Diskursanalyse und überführt implizite Fragen in explizite Pläne, um das Entstehen und die funktionale Platzierung von Erklärungen gezielt zu steuern. Um die Evaluationsherausforderung zu adressieren, dass hilfreiche externe Ergänzungen fälschlich als Halluzinationen klassifiziert werden, schlägt diese Doktorarbeit eine verbesserte Konsistenzmetrik vor, die auf externer Wissensüberprüfung basiert und durch menschliche Evaluation ergänzt wird. Über die oben untersuchten Zusammenfassungsszenarien hinaus erweitert diese Doktorarbeit die Diskursstrukturmodellierung auf die Retrieval-gestützte Generierung (RAG). Der vorgeschlagene Ansatz konstruiert innerhalb jedes abgerufenen Textabschnitts lokale RST-Bäume zur Erfassung der intrachunkalen Diskurshierarchie und leitet über alle Textabschnitte hinweg einen gerichteten rhetorischen Graphen ab, der Inter-Chunk-Relationen wie Unterstützung, Kontrast und Elaboration modelliert. Ein diskursgesteuertes Planungsmodul verdichtet diese strukturellen Signale anschließend zu einem geordneten Bauplan, der die abschließende Generierung steuert. Zusammenfassend präsentiert diese Doktorarbeit einen kohärenten Entwicklungspfad von verteilten Diskurssignalen hin zu planbasierten Zwischenstrukturen und erweitert diese Prinzipien auf die Organisation abgerufener Evidenz in der Retrieval-gestützten Generierung. Unter verschiedenen Einschränkungen, darunter lange Eingaben, begrenzte Fine-Tuning-Kapazitäten, multimodale Evidenz und strukturell unverbundene abgerufene Passagen, erhöht die explizite Modellierung organisatorischer Entscheidungen durchgängig die Kontrollierbarkeit und die faktische Verlässlichkeit generierter Texte. Diese Arbeit leistet Beiträge in Form wiederverwendbarer Datenressourcen, Modellierungsstrategien und Evaluationsrahmen, die zukünftige Forschung zur diskursgeleiteten Textgenerierung unterstützen. Schlüsselwörter: Zusammenfassung langer Eingaben; Retrieval-gestützte Generierung; Rhetorical Structure Theory; Question under Discussion. |
| Link to this record: | urn:nbn:de:bsz:291--ds-479911 hdl:20.500.11880/42004 http://dx.doi.org/10.22028/D291-47991 |
| Advisor: | Demberg, Vera |
| Date of oral examination: | 29-May-2026 |
| Date of registration: | 11-Jun-2026 |
| EU-Projectnumber: | info:eu-repo/grantAgreement/EC/ERC/948878/EU//IDDISC |
| Faculty: | MI - Fakultät für Mathematik und Informatik P - Philosophische Fakultät |
| Department: | P - Sprachwissenschaft und Sprachtechnologie |
| Professorship: | MI - Prof. Dr. Vera Demberg |
| Collections: | SciDok - Der Wissenschaftsserver der Universität des Saarlandes |
Files for this record:
| File | Description | Size | Format | |
|---|---|---|---|---|
| Dongqi_PhD_Thesis.pdf | 15,63 MB | Adobe PDF | View/Open |
Items in SciDok are protected by copyright, with all rights reserved, unless otherwise indicated.

