On this page:
8.1 Wieso?
8.2 Kontextfreie Grammatiken
8.2.1 Beispiel einer kontextfreien Grammatik
8.2.2 Syntax von EBNF in EBNF
8.2.3 Konstruktion von Ableitungsbäumen
8.3 Syntax von BSL
8.4 Die BSL Kernsprache
8.5 Werte und Umgebungen
8.6 Auswertungspositionen und die Kongruenzregel
8.7 Nichtterminale und Metavariablen - Keine Panik!
8.8 Bedeutung von Programmen
8.9 Bedeutung von Ausdrücken
8.9.1 Bedeutung von Funktionsaufrufen
8.9.2 Bedeutung von Konstanten
8.9.3 Bedeutung konditionaler Ausdrücke
8.9.4 Bedeutung von Strukturkonstruktoren und Selektoren
8.10 Reduktion am Beispiel
8.11 Bedeutung von Daten und Datendefinitionen
8.12 Refactoring von Ausdrücken und Schliessen durch Gleichungen

8 Bedeutung von BSL

In diesem Kapitel werden wir die Bedeutung (fast) aller Sprachkonstrukte von BSL zusammenfassen und formal definieren.

Dies geschieht in zwei Schritten: Wir werden zunächst die Syntax der Sprache definieren. Die Syntax definiert, welche Texte BSL-Programme sind. Die Syntax wird in Form einer Grammatik definiert. Die Grammatik sagt nicht nur, welche Texte BSL-Programme sind, sondern zerlegt ein BSL-Programm in seine Teile, genauso wie eine Grammatik für natürliche Sprachen einen Satz in Teile wie Subjekt, Prädikat und Objekt zerlegt.

Im zweiten Schritt definieren wir für die grammatikalisch korrekten BSL-Programme, was diese bedeuten. Die Bedeutung legen wir durch die Definition von Reduktionsschritten fest, mit denen BSL Programme zu Werten ausgewertet werden können (sofern kein Fehler auftritt und sie terminieren).

Wir haben bereits in den Abschnitten Bedeutung von BSL Ausdrücken, Bedeutung von Funktionsdefinitionen, Bedeutung konditionaler Ausdrücke und Bedeutung von Funktions- und Konstantendefinitionen diese Reduktionsschritte für die meisten Sprachkonstrukte definiert. Wir werden hier diese Reduktionsschritte anhand der formalen Syntaxdefinition nochmal präzisieren. Außerdem werden wir nun auch definieren, welche Bedeutung Strukturen haben.

Es gibt verschiedene Möglichkeiten, die Bedeutung einer Programmiersprache zu definieren; die, die wir benutzen, nennt man Reduktionssemantik oder strukturelle operationelle Semantik oder Plotkin Semantik (nach Gordon Plotkin). Für die Formalisierung der Auswertungspositionen, von denen wir in den vorherigen Kapiteln gesprochen haben, verwenden wir sogenannte Auswertungskontexte, die 1989 von Matthias Felleisen und Robert Hieb vorgeschlagen wurde. Das alles hört sich für einen Programmieranfänger vielleicht angsteinflößend an, aber Sie werden sehen, dass es nicht so kompliziert ist wie es sich anhört :-)

8.1 Wieso?

Die meisten Programmierer dieser Welt programmieren, ohne dass sie jeweils eine formale Definition der Bedeutung ihrer Programmiersprache gesehen haben. Insofern ist die Frage berechtigt, wieso wir uns dies "antun".

Hierzu ist zu sagen, dass viele Programmierer die Programmiersprache, die sie verwenden, nicht wirklich verstehen. Dies führt zu einer Methodik, in der statt systematischem Programmentwurf einfach so lange am Programm "herumgedoktort" wird, bis es "läuft". Ein Programm durch Ausführen und Tests zu validieren ist zwar sinnvoll, aber dennoch kann dies nicht den gedanklichen Prozess ersetzen, wie ein Programm ablaufen muss, damit zu jeder Eingabe die korrekte Ausgabe produziert wird. Dazu ist es unumgänglich, dass Sie genau verstehen, was der Code bedeutet, den Sie gerade programmiert haben.

Wir möchten, dass Sie prinzipiell in der Lage sind, Ihre Programme auf einem Blatt Papier auszuführen und exakt vorherzusagen, was ihr Code bewirkt. Auch wenn Ihnen der Umgang mit den eher theoretischen Konzepten dieses Kapitels vielleicht am Anfang schwerfällt, glauben wir, dass Ihnen dieses Kapitel helfen kann, ein besserer und effektiverer Programmierer zu werden.

Davon abgesehen werden Sie sehen, dass die theoretischen Konzepte, die Sie in diesem Kapitel kennenlernen, eine Eleganz haben, die es allein aus diesem Grund wert macht, sie zu studieren.

8.2 Kontextfreie Grammatiken

Bisher haben wir nur informell beschrieben, wie BSL Programme aussehen. Mit Hilfe einer Grammatik kann man diese informelle Beschreibung präzise und prägnant darstellen. Es gibt viele unterschiedliche Arten von Grammatiken. Im Bereich der Programmiersprachen verwendet man meistens sogenannte kontextfreie Grammatiken. Diese und andere Grammatikformalismen werden in der Vorlesung "Theoretische Informatik" im Detail behandelt; wir werden Grammatiken hier nur soweit besprechen, wie es zum Verständnis der Definitionen erforderlich ist.

Es gibt unterschiedliche Notationen für kontextfreie Grammatiken. Wir verwenden die sogenannte EBNF — die Erweiterte Backus Naur Form.

8.2.1 Beispiel einer kontextfreien Grammatik

Hier direkt ein Beispiel einer Grammatik für Zahlen:

 

Zahl

 ::= 

PositiveZahl

 

  |  

-PositiveZahl

 

PositiveZahl

 ::= 

GanzeZahl

 

  |  

KommaZahl

 

GanzeZahl

 ::= 

ZifferNichtNull Ziffer*

 

  |  

0

 

Kommazahl

 ::= 

GanzeZahl . Ziffer+

 

ZifferNichtNull

 ::= 

1  |  2  |  3  |  4  |  5  |  6  |  7  |  8  |  9

 

Ziffer

 ::= 

0  |  ZifferNichtNull

Beispiele für Texte, die der Zahl Definition dieser Grammatik entsprechen, sind: 0, 420, -87, 3.1416, -2.09900.

Beispiele für Texte, die nicht der Zahl Definition dieser Grammatik entsprechen, sind: 007, -.65, 13., zwölf, 111Nonsense222.

Die mit spitzen Klammern markierten Bezeichner wie Zahl heißen Nichtterminale; die farblich markierten Symbole wie 3 oder . heißen Terminalsymbole. Eine Klausel wie die ersten beiden Zeilen der obigen Grammatik heißt Produktion. Eine Produktion besteht aus einem Nichtterminal auf der linken Seite der Definition und auf der rechten Seite aus einer Menge von Alternativen, die durch das Symbol | voneinander getrennt werden. Zu jedem Nichtterminal gibt es genau eine Produktion.

Zu jedem Nichtterminal kann man eine Menge von Ableitungsbäumen bilden. Ein Ableitungsbaum entsteht durch das Ersetzen der Nichtterminale in einer der Alternativen der dazugehörigen Produktion durch Ableitungsbäume für diese Nichtterminale. Die Konstruktion der Ableitungsbäume ist also ein rekursiver Prozess. Der Prozess stoppt dort, wo man eine Alternative wählt, die nur aus Terminalsymbolen bestehen. Falls ein Nichtterminal durch ein Sternchen oder ein Pluszeichen markiert wird, so wie Ziffer* oder Ziffer+ oben, so bedeutet dies 0 oder mehr Wiederholungen (für *) bzw. 1 oder mehr Wiederholungen (für +) des Nichtterminals.

Jeder Ableitungsbaum steht für einen Text (häufig Wort oder Satz genannt), nämlich die Sequenz der Terminalsymbole, die in dem Baum vorkommen, von links nach rechts im Baum abgelesen. Die durch eine Grammatik definierte Sprache ist die Menge aller Worte, für die man Ableitungsbäume bilden kann.

Hier einige Beispiele für Ableitungsbäume des Nichtterminals Zahl und die Worte, die sie repräsentieren.

Klicken Sie auf die gelben Kästen, um den Ableitungsbaum für 0 und -3,14 nach und nach auszuklappen:

{ "production": "<Zahl>", "code": "|0|", "holes": [ { "production": "<PositiveZahl>", "code": "|0|", "holes": [{ "production": "<GanzeZahl>", "code": "0" }] } ], "grammar": { "<Zahl>": ["<PositiveZahl>", "-<PositiveZahl>"], "<PositiveZahl>": ["<GanzeZahl>", "<KommaZahl>"], "<GanzeZahl>": ["<ZifferNichtNull><Ziffer>*", "0"], "<KommaZahl>": ["<GanzeZahl>.<Ziffer>+"], "<ZifferNichtNull>": ["1", "2", "3", "4", "5", "6", "7", "8", "9"], "<Ziffer>": ["0", "<ZifferNichtNull>"] } }

{ "production": "<Zahl>", "code": "-|3,14|", "holes": [ { "production": "<PositiveZahl>", "code": "|3,14|", "holes": [{ "production": "<KommaZahl>", "code": "|3|,|1||4|", "holes": [ { "production": "<GanzeZahl>", "code": "|3|", "holes":[{ "production": "<ZifferNichtNull>", "code": "3" }] }, { "production": "<Ziffer>", "code": "|1|", "holes":[{ "production": "<ZifferNichtNull>", "code": "1" }] }, { "production": "<Ziffer>", "code": "|4|", "holes":[{ "production": "<ZifferNichtNull>", "code": "4" }] } ] }] } ], "grammar": { "<Zahl>": ["<PositiveZahl>", "-<PositiveZahl>"], "<PositiveZahl>": ["<GanzeZahl>", "<KommaZahl>"], "<GanzeZahl>": ["<ZifferNichtNull><Ziffer>*", "0"], "<KommaZahl>": ["<GanzeZahl>.<Ziffer>+"], "<ZifferNichtNull>": ["1", "2", "3", "4", "5", "6", "7", "8", "9"], "<Ziffer>": ["0", "<ZifferNichtNull>"] } }

Hier können Sie selbst testen, ob Sie den Ableitungsbaum für 420 bilden können: Wählen Sie die richtige Produktion und markieren Sie die Nichtterminale jeweils einzeln, um die nächste Ebene auszuklappen!

{ "production": "<Zahl>", "code": "|420|", "holes": [ { "production": "<PositiveZahl>", "code": "|420|", "holes": [{ "production": "<GanzeZahl>", "code": "|4||2||0|", "holes": [ { "production": "<ZifferNichtNull>", "code": "4" }, { "production": "<Ziffer>", "code": "|2|", "holes": [{ "production": "<ZifferNichtNull>", "code": "2" }] }, { "production": "<Ziffer>", "code": "0" } ] }] } ], "grammar": { "<Zahl>": ["<PositiveZahl>", "-<PositiveZahl>"], "<PositiveZahl>": ["<GanzeZahl>", "<KommaZahl>"], "<GanzeZahl>": ["<ZifferNichtNull><Ziffer>*", "0"], "<KommaZahl>": ["<GanzeZahl>.<Ziffer>+"], "<ZifferNichtNull>": ["1", "2", "3", "4", "5", "6", "7", "8", "9"], "<Ziffer>": ["0", "<ZifferNichtNull>"] } }

8.2.2 Syntax von EBNF in EBNF

In diesem Abschnitt wollen wir genau definieren, wie Grammatikdefinitionen in EBNF aussehen. Zu diesem Zweck verwenden wir EBNF um EBNF zu beschreiben. Diese Form der Selbstanwendung ist sehr typisch in vielen Bereichen der Programmiersprachentechnik. Wichtig ist, bei dieser Selbstanwendung zwischen Metaebene (die Grammatik der EBNF Grammatiken, auch genannt Metagrammatik) und Objektebene (eine beliebige EBNF Grammatik, die durch die Metagrammatik beschrieben wird) zu unterscheiden. So wird beispielsweise in der Metagrammatik ::= als Terminalsymbol verwendet; dies ist zu unterscheiden von der Verwendung des gleichen Symbols als Trenner zwischen linker und rechter Seite von Produktionen.

Wir definieren die folgenden Nonterminale: G für Grammatik, P für Produktion, S für Sequenz, E Expression I für Item, V für Nichtterminalsymbole (nicht explizit definiert) und T für Terminalsymbole (nicht explizit definiert).

 

G

 ::= 

P*

 

P

 ::= 

< V > ::= {S |}* S

 

S

 ::= 

E+

 

E

 ::= 

I  |  I *  |  I +

 

I

 ::= 

< V >  |  T  |  { S }

Tipp: Nehmen Sie als Übung eine kleine EBNF Grammatik und zeichnen den Ableitungsbaum für diese Grammatik bzgl. der Metagrammatik.

8.2.3 Konstruktion von Ableitungsbäumen

Mit Hilfe der Metagrammatik können wir nun genau definieren, wie Ableitungsbäume erzeugt werden können. Um auch mit den + und * Operatoren umgehen zu können, ist es nötig, von Sequenzen von Ableitungsbäumen (SALB) zu sprechen. Eine SALB ist einfach eine geordnete Menge an Ableitungsbäumen. Bei Nichtterminalen wird diese Sequenz immer die Länge 1 haben, also es kommt am Ende wieder genau ein Ableitungsbaum heraus.

Im folgenden stehe S für eine beliebige Sequenz S, E für eine beliebige Expression E, I für eine beliebiges Item I, V für eine beliebiges Nonterminal V, T für eine beliebige Terminal T, Z für einen beliebigen Ableitungsbaum und B für eine beliebige SALB. Wenn wir mehr dieser Platzhalter (auch genannt "Metavariablen", s.u.) benötigen, verwenden wir Indizes wie B-1. Für SALB B-1 bis B-n verwenden wir die Schreibweise B-1,...,B-n zur Konkatenation der Sequenzen zu einer neuen SALB.

Für S, E und I können wir nun die Konstruktion einer SALB wie folgt definieren:

8.3 Syntax von BSL

Nach diesen Vorarbeiten können wir nun präzise die Syntax von BSL durch eine kontextfreie Grammatik definieren. Diese Syntax ist vollständig bis auf folgende Sprachfeatures, die wir noch nicht behandelt haben: Definition von Funktionen durch lambda-Ausdrücke, Quoting, Zeichendaten, Bibliotheksimporte. Außerdem werden in der Grammatik Aspekte, die für die Bedeutung der Sprache irrelevant sind, außer Acht gelassen, zum Beispiel Kommentare, Zeilenumbrüche und Leerzeichen. Aus diesem Grund bezeichnet man Grammatiken wie die folgende für BSL häufig als die abstrakte Syntax einer Programmiersprache, im Unterschied zur konkreten Syntax, die auch Aspekte wie Kommentare und Zeilenumbrüche umfasst. Analog dazu werden Ableitungsbäume, wie sie oben beschrieben wurden, im Kontext abstrakter Syntax häufig als abstrakte Syntaxbäume (abstract syntax trees (AST)) bezeichnet.

 

program

 ::= 

def-or-expr*

 

def-or-expr

 ::= 

definition  |  e

 

definition

 ::= 

( define ( name name+ ) e )

 

  |  

( define name e )

 

  |  

( define-struct name ( name* ) )

 

e

 ::= 

( name e* )

 

  |  

( cond {[ e e ]}+ )

 

  |  

( cond {[ e e ]}* [ else e ] )

 

  |  

( if e e e )

 

  |  

( and e e+ )

 

  |  

( or e e+ )

 

  |  

name

 

  |  

v

 

v

 ::= 

< make-name v* >

 

  |  

number

 

  |  

boolean

 

  |  

string

 

  |  

image

Das Nichtterminal program steht für die Syntax ganzer Programme; def-or-expr für Definitionen oder Ausdrücke, definition für Funktions-/Konstanten-/Strukturdefinitionen, e für Ausdrücke und v für Werte.

Die geschweiften Klammern um Teilsequenzen wie in {[ e e ]}+ dienen dazu, um den * oder + Operator auf eine ganze Sequenz von Terminalsymbolen und Nichtterminalen anzuwenden und nicht nur auf ein einzelens Nichtterminal. In diesem Beispiel bedeutet es, dass 1 oder mehr Vorkommen von [ e e ] erwartet werden.

Die Produktionen für einige Nichtterminale, deren genaue Form nicht interessant ist, wurden in der Grammatik ausgelassen: name steht für die zugelassenen Bezeichner für Funktionen, Strukturen und Konstanten. number steht für die zugelassenen Zahlen. boolean steht für #true oder #false. string steht für alle Strings wie "asdf". Das Nichtterminal image steht für Bilder im Programmtext (Bildliterale) wie image.

Die Werte der Form < make-name v* > dienen dazu, Instanzen von Strukturen zu repräsentieren. Sie dürfen in BSL nicht direkt im Original-Programmtext vorkommen, aber sie werden während der Reduktion erzeugt und in das Programm eingefügt.

8.4 Die BSL Kernsprache

Wenn man die Bedeutung einer Sprache definiert, möchte man normalerweise, dass diese Definition so kurz wie möglich ist, denn nur dann kann ein Benutzer sie leicht verstehen und Schlussfolgerungen ziehen.

Aus diesem Grund identifizieren wir eine Untersprache der BSL, die bereits ausreichend ist, um alle Programme zu schreiben, die man auch in BSL schreiben kann. Der einzige Unterschied ist, dass man an einigen Stellen vielleicht etwas Umständlicheres schreiben muss.

Wir haben bereits ein intellektuelles Werkzeug kennengelernt, um Kernsprachenelemente von eher unwichtigem Beiwerk zu unterscheiden, nämlich den syntaktischen Zucker. Im Abschnitt Bedeutung konditionaler Ausdrücke haben wir gesehen, dass es nicht notwendig ist, if Ausdrücke und innerhalb von cond Ausdrücken den else Operator zu unterstützen, weil man diese Sprachfeatures leicht mit dem einfachen cond Ausdruck simulieren kann. Die in Bedeutung konditionaler Ausdrücke angegebenen Transformationen betrachten wir daher als die Definition dieser Sprachfeatures und betrachten daher im folgenden nur noch die Kernsprache, in die diese Transformationen abbilden.

Recherchieren Sie, was die de Morgan’schen Regeln sind, falls ihnen die Transformation nicht klar ist.

Die Syntax oben enthält auch spezielle Syntax für die logischen Funktionen and und or, weil deren Argumente anders ausgewertet werden als die Argumente normaler Funktionen. Allerdings ist es in unserer Kernsprache nicht nötig, die Funktionen zu betrachten, da or und and durch cond ausgedrückt werden kann.

Man könnte versuchen, and direkt durch einen cond Ausdruck zu ersetzen: (and e-1 e-2) wird transformiert zu (cond [e-1 e-2] [else #false]). Zwar simuliert dies korrekt die Auswertungsreihenfolge, aber diese Transformation ist nicht adäquat für das in DrRacket implementierte Verhalten, wie folgendes Beispiel illustriert:

> (and #true 42)

and: question result is not true or false: 42

> (cond [#true 42] [else #false])

42

Allerdings können wir auch dieses Verhalten kodieren indem wir die Kodierung leicht ändern: (and e-1 e-2) wird transformiert zu (cond [e-1 (cond [e-2 #true] [#true #false])] [#true #false]). Mehr als zwei Parameter von and und or kodieren wir durch verschachtelte Aufrufe der zweistelligen Varianten, z.B. (and e-1 e-2 e-3) als (and e-1 (and e-2 e-3)).

Damit sieht die Grammatik unserer Kernsprache wie folgt aus. Die Grammatik für Werte v bleibt unverändert.

 

program

 ::= 

def-or-expr*

 

def-or-expr

 ::= 

definition  |  e

 

definition

 ::= 

( define ( name name+ ) e )

 

  |  

( define name e )

 

  |  

( define-struct name ( name* ) )

 

e

 ::= 

( name e* )

 

  |  

( cond {[ e e ]}+ )

 

  |  

name

 

  |  

v

Wie oben können Sie hier ein paar Ableitungsbäume für BSL erkunden: Klicken Sie wieder auf Nichtterminale, um weiter auszuklappen. Wissen Sie schon vor dem Klicken, was kommen wird?

420 (define (f x) (+ x 42)) (define-struct tree (roots trunk leaves))

Für Fortgeschrittene hier auch wieder ein Programm als Quiz:
(cond [e1 #t] [else (asBool e2)])

Unter https://se-tuebingen.github.io/bsl-tools/generator.html können Sie auch selbst BSL-Programme eingeben und Ableitungsbäume dazu generieren.

8.5 Werte und Umgebungen

Was bedeuten nun Programme in der Sprache, deren Syntax oben definiert wurde? Die Bedeutung eines Ausdrucks wollen wir modellieren als Sequenz von Reduktionsschritten, die am Ende zu einem Wert führt (oder mit einem Fehler abbricht oder nicht terminiert).

Werte haben wir bereits oben durch die Grammatik definiert. Alle Konstanten wie #true, 42 oder "xyz" sind also Werte. Außerdem sind Instanzen von Strukturen Werte; die Werte aller Felder der Struktur müssen ebenfalls Werte sein. Also ist beispielsweise <make-posn 3 4> ein Wert. Wir modellieren Strukturen so, dass Ausdrücke wie (make-posn 3 (+ 2 2)) zu diesem Wert ausgewertet werden — hier ist also der Ausdruck der make-posn aufruft (mit runden Klammern) von dem Wert <make-posn 3 4> (mit spitzen Klammern) zu unterscheiden.

Sofern in Ausdrücken Funktionen, Konstanten, oder Strukturen benutzt werden, kann die Auswertung eines Ausdrucks nicht im "luftleeren" Raum stattfinden, sondern man muss die Umgebung (Environment, im folgenden als env abgekürzt) kennen, in dem der Ausdruck ausgewertet wird, um Zugriff auf die dazugehörigen Definitionen zu haben. Vom Prinzip her ist die Umgebung einfach der Teil des Programms bis zu dem Ausdruck, der gerade ausgewertet wird. Allerdings werden Konstantenfinitionen ja auch ausgewertet (siehe Bedeutung von Funktions- und Konstantendefinitionen). Dies bringen wir durch folgende Definition zum Ausdruck. Beachten Sie, dass im Unterschied zur Grammatik von BSL Konstantendefinitionen die Form ( define name v ) und nicht ( define name e ) haben.

 

env

 ::= 

env-element*

 

env-element

 ::= 

( define ( name name+ ) e )

 

  |  

( define name v )

 

  |  

( define-struct name ( name* ) )

Ein Umgebung besteht also aus einer Sequenz von Funktions-, Konstanten- oder Strukturdefinitionen, wobei der Ausdruck in Konstantendefinitionen bereits zu einem Wert ausgewertet wurde.

8.6 Auswertungspositionen und die Kongruenzregel

Im Abschnitt Bedeutung von BSL Ausdrücken haben wir das erste Mal über Auswertungspositionen und die Kongruenzregel gesprochen. Die Auswertungspositionen markieren, welcher Teil eines Programms als nächstes ausgewertet werden soll. Die Kongruenzregel sagt, dass man Unterausdrücke in Auswertungspositionen auswerten und das Ergebnis der Auswertung wieder in den ganzen Ausdruck einbauen darf.

Betrachten wir als Beispiel den Ausdruck (* (+ 1 2) (+ 3 4)). Der Unterausdruck (+ 1 2) befindet sich in Auswertungsposition und kann zu 3 ausgewertet werden. Gemäß der Kongruenzregel kann ich den Gesamtausdruck also zu (* 3 (+ 3 4)) reduzieren.

Wir werden Auswertungspositionen und die Kongruenzregel durch einen Auswertungskontext formalisieren. Ein Auswertungskontext ist eine Grammatik für Programme, die ein "Loch", [], enthalten. In Bezug auf den DrRacket Stepper kann man den Auswertungskontext als den während einer Reduktion nicht farblich markierten Teil des Ausdrucks verstehen. Die Grammatik ist so strukturiert, dass jedes Element der definierten Sprache genau ein "Loch" enthält.

 

E

 ::= 

[]

 

  |  

( name v* E e* )

 

  |  

( cond [ E e ] {[ e e ]}* )

Hier einige Beispiele für Auswertungskontexte:

(* [] (+ 3 4))

(posn-x (make-posn 14 []))

Dies sind alles keine Auswertungskontexte:

(* (+ 3 4) [])

(posn-x (make-posn 14 17))

Das "Loch" in diesen Ausdrücken steht genau für die Unterausdrücke in einem Programm, die in Auswertungsposition sind. Wir verwenden die Definition für Werte, v, von oben, um zu steuern, dass die Auswertung der Argumente in Funktionsaufrufen von links nach rechts erfolgt.

Bisher (in Abschnitt Bedeutung von BSL Ausdrücken und Bedeutung von Funktionsdefinitionen) hatten wir die Auswertungspositionen so definiert, dass man bei Funktionsaufrufen die Argumente in beliebiger Reihenfolge auswerten kann. Die Auswertungskontexte wie oben definiert legen diese Reihenfolge fest, nämlich von links nach rechts. Wir werden später mehr zu diesem Unterschied sagen.

Sei E ein Auswertungskontext. Wir verwenden die Schreibweise E[e], um das "Loch" in dem Auswertungskontext durch einen Ausdruck e zu ersetzen.

Beispiel: Wenn E = (* [] (+ 3 4)), dann ist E[(+ 1 2)] = (* (+ 1 2) (+ 3 4)).

Mit Hilfe dieser Schreibweise können wir nun die Kongruenzregel so definieren:

(KONG): Falls e-1e-2, dann E[e-1]E[e-2].

Wir schreiben die Auswertungsregeln generell so auf, dass wir jeder Regel einen Namen geben. Diese Regel heißt (KONG).

Beispiel: Betrachten wir den Ausdruck e = (* (+ 1 2) (+ 3 4)). Diesen können wir zerlegen in einen Auswertungskontext E = (* [] (+ 3 4)) und einen Ausdruck e-1 = (+ 1 2), so dass e = E[e-1]. Da wir e-1 reduzieren können, (+ 1 2)3, können wir auch dank (KONG) e reduzieren zu E[3] = (* 3 (+ 3 4)).

8.7 Nichtterminale und Metavariablen - Keine Panik!

In der Kongruenzregel von oben stehen Namen wie e-1 und e-2 für beliebige Ausdrücke und E für einen beliebigen Auswertungskontext.

Im Allgemeinen verwenden wir die Konvention, dass der Name x und Varianten wie x-1 und x-2 für beliebige Worte des Nichtterminals x steht (zum Beispiel für x = e oder x = v). Derart verwendete Bezeichner wie v-1 oder e-2 nennt man auch Metavariablen, weil sie nicht Variablen von BSL sind, sondern Variablen sind, die für Teile von BSL Programmen stehen.

Wenn wir Nonterminale als Mengen interpretieren (nämlich die Menge der Worte für die es Ableitungsbäume gibt), so könnten wir die Regel von oben auch so aufschreiben:

Für alle e-1e und alle e-2e und alle EE : Falls e-1e-2, dann E[e-1]E[e-2].

Da dies die Regeln aber viel länger macht, verwenden wir die hier beschriebene Konvention.

8.8 Bedeutung von Programmen

Gemäß unserer Grammatik besteht ein Programm aus einer Sequenz von Definitionen und Ausdrücken. Die Auswertungsregel für Programme nennen wir (PROG):

(PROG): Ein Programm wird von links nach rechts ausgeführt und startet mit der leeren Umgebung. Ist das nächste Programmelement eine Funktions- oder Strukturdefinition, so wird diese Definition in die Umgebung aufgenommen und die Ausführung mit dem nächsten Programmelement in der erweiterten Umgebung fortgesetzt. Ist das nächste Programmelement ein Ausdruck, so wird dieser gemäß der unten stehenden Regeln in der aktuellen Umgebung zu einem Wert ausgewert. Ist das nächste Programmelement eine Konstantendefinition (define x e), so wird in der aktuellen Umgebung zunächst e zu einem Wert v ausgewertet und dann (define x v) zur aktuellen Umgebung hinzugefügt.

Beispiel: Das Programm ist:

(define (f x) (+ x 1))
(define c (f 5))
(+ c 3)

Im ersten Schritt wird (define (f x) (+ x 1)) zur (leeren) Umgebung hinzugefügt. Die Konstantendefinition wird in der Umgebung (define (f x) (+ x 1)) ausgewertet zu (define c 6) und dann dem Kontext hinzugefügt. Der Ausdruck (+ c 3) wird schliesslich in der Umgebung
(define (f x) (+ x 1))
(define c 6)
ausgewertet.

Hier können Sie das Ganze auch nochmal im interaktiven Stepper sehen (einige der angezeigten Regeln werden wir später noch einführen):
(define (f x) (+ x 1)) (define c (f 5)) (+ c 3)

8.9 Bedeutung von Ausdrücken

Jeder Ausdruck wird in einer Umgebung env ausgewertet, wie sie im vorherigen Abschnitt definiert wurde. Um die Notation nicht zu überladen, werden wir env nicht explizit zu jeder Reduktionsregel dazuschreiben sondern als implizit gegeben annehmen. Die Auswertung wird, wie aus Abschnitt Bedeutung von BSL Ausdrücken bekannt, in Form von Reduktionsregeln der Form e-1e-2 definiert. Ein Ausdruck e wird ausgewertet, indem er solange reduziert wird, bis ein Wert herauskommt: ee-1 → ... → v.

Ein Fehler während der Auswertung äußert sich darin, dass die Reduktion "steckenbleibt", also wir bei einem Ausdruck ankommen, der kein Wert ist und der nicht weiter reduziert werden kann.

8.9.1 Bedeutung von Funktionsaufrufen

Funktionen werden unterschiedlich ausgeführt je nachdem ob der Funktionsname eine primitive Funktion oder eine in der Umgebung definierte Funktion ist. Im ersten Fall wird die primitive Funktion auf den Argumenten ausgewertet. Ist dies erfolgreich, so kann auf das Result reduziert werden. Ist dies nicht erfolgreich, so kann der Ausdruck nicht reduziert werden.

Ist die Funktion hingegen in der Umgebung definiert, so wird der Aufruf zum Body der Funktionsdefintion reduziert, wobei vorher alle Parameternamen durch die aktuellen Parameterwerte ersetzt werden. Dies ist die Bedeutung der Notation e[name-1 := v-1 ... name-n := v-n].

Die Reduktionsregeln sind also:

(FUN): Falls ( define ( name name-1 ... name-n ) e ) in der Umgebung,
dann ( name v-1 ... v-n )e[name-1 := v-1 ... name-n := v-n]

(PRIM): Falls name eine primitive Funktion f ist und f(v-1,...,v-n)=v,
dann ( name v-1 ... v-n )v.

Das sieht dann z.B. so aus:
(* 2 21) (define (double x) (+ x x)) (double 21)

8.9.2 Bedeutung von Konstanten

Konstanten werden ausgewertet, indem sie in der Umgebung nachgeschlagen werden:

(CONST): Falls ( define name v ) in der Umgebung, dann namev.

Hier ein Beispiel dazu - man sieht auch das Verhalten, dass im Fehlerfall gestoppt wird, wie oben beschrieben:

(define x 3) (+ 1 (- x y))
8.9.3 Bedeutung konditionaler Ausdrücke

Konditionale Ausdrücke werden ausgewertet, wie schon in Bedeutung konditionaler Ausdrücke beschrieben. Gemäß der Definition des Auswertungskontextes wird stets nur der erste Bedingungsausdruck ausgewertet. Je nachdem ob dieser #true oder #false ergibt, wird auf den Ergebnisausdruck oder den um die fehlgeschlagene Bedingung gekürzten cond Ausdruck reduziert:

(COND-True): ( cond [ #true e ] ... )e

(COND-False): ( cond [ #false e-1 ] [ e-2 e-3 ] ... )( cond [ e-2 e-3 ] ... )

(cond [#f "No"] [(< 2 2) "No"] [#t "42"] [#t 42])
8.9.4 Bedeutung von Strukturkonstruktoren und Selektoren

Strukturdefinitionen definieren drei Arten von Funktionen: Konstruktoren wie make-posn, Selektoren wie posn-x und Prädikate wie posn?. Zu jeder dieser drei Arten benötigen wir eine Reduktionsregel.

Konstruktoren erzeugen Instanzen einer Struktur. Dies gelingt, wenn eine Struktur des gleichen Namens in der Umgebung zu finden ist, und diese so viele Felder wie der Konstruktor Parameter hat. Dies bringt uns zu folgender Regel:

(STRUCT-make): Falls ( define-struct name ( name-1 ... name-n ) ) in der Umgebung, dann ( make-name v-1 ... v-n )< make-name v-1 ... v-n >.

Selektoraufrufe werden reduziert, indem in der Umgebung die Strukturdefinition nachgeschlagen wird, um den Namen des Feldes auf die Argumentposition des Konstruktoraufrufs abzubilden. Dann wird der entsprechende Wert des Feldes zurückgegeben:

(STRUCT-select): Falls ( define-struct name ( name-1 ... name-n ) ) in der Umgebung, dann ( name-name-i < make-name v-1 ... v-n > )v-i

Bei Prädikaten wird geschaut, ob es sich beim Argument des Prädikats um eine Strukturinstanz der in Frage stehenden Struktur handelt oder nicht, und je nachdem #true bzw. #false zurückgegeben:

(STRUCT-predtrue): ( name? < make-name ... > )true

(STRUCT-predfalse): Falls v nicht < make-name ... >, dann ( name? v )#false

(define-struct posn (x y)) (define p (make-posn 1 2)) (posn? 32) (posn? p) (posn-x p)

8.10 Reduktion am Beispiel

Betrachten Sie folgendes Programm, dessen Bedeutung wir Schritt für Schritt mit Hilfe der Auswertungsregeln ermitteln werden:

(define-struct s (x y))
(define (f x) (cond [(< x 1) (/ x 0)]
                    [#true (+ x 1)]
                    [#true x]))
(define c (make-s 5 (+ (* 2 3) 4)))
(f (s-x c))

Hier nochmal in interaktiv - klicken Sie auf das Info-i rechts, wenn Sie den Text einer Regel nochmal sehen möchten:
(define-struct s (x y)) (define (f x) (cond [(< x 1) (/ x 0)] [#t (+ x 1)] [#t x])) (define c (make-s 5 (+ (* 2 3) 4))) (f (s-x c))

Unter https://se-tuebingen.github.io/bsl-tools/generator.html können Sie auch selbst BSL-Programme eingeben und Stepper dazu generieren.

8.11 Bedeutung von Daten und Datendefinitionen

Datendefinitionen haben auf das Programmverhalten keinen Einfluss, da sie in Form eines Kommentars definiert werden. Dennoch können wir ihnen eine präzise Bedeutung geben, die hilft, ihre Rolle zu verstehen.

Hierzu ist es wichtig, das Datenuniversum eines Programms zu verstehen. Das Datenuniversum umfasst alle Daten, die in einem gegebenen Programm potentiell vorkommen können. Welche Werte das sind, wird durch unsere Grammatik für Werte, v, oben beschrieben. Allerdings können nicht alle Werte, die durch v beschrieben werden, in einem Programm vorkommen, sondern nur diese, für die die benutzen Strukturen auch wirklich im Programm definiert sind.

Beispiel: Ein Programm enthält die Strukturdefinitionen

(define-struct circle (center radius))
(define-struct rectangle (corner-ul corner-dr))

Das Datenuniversum für dieses Programm umfasst alle Werte der Basistypen, aber auch alle Strukturinstanzen, die sich auf Basis dieser Strukturdefinitionen bilden lassen, also zum Beispiel <make-circle 5 6> aber auch:

<make-circle <make-circle <make-rectangle 5 <make-rectangle #true "asdf">> 77> 88>

Das Datenuniversum sind also alle Werte, die sich durch die Grammatik von v bilden lassen, eingeschränkt auf die Strukturen, die in dem Programm definiert sind.

Eine Strukturdefinition erweitert also das Datenuniversum um neue Werte, nämlich alle Werte, in denen mindestens einmal diese Struktur verwendet wird.

Eine Datendefinition, auf der anderen Seite, erweitert nicht das Datenuniversum. Eine Datendefinition definiert eine Teilmenge des Datenuniversums.

Beispiel:

; a Posn is a structure: (make-posn Number Number)

<make-posn 3 4 > ist ein Element der definierten Teilmenge, aber <make-posn #true "x" > oder <make-posn <make-posn 3 4> 5> sind es nicht.

Eine Datendefinition beschreibt im Allgemeinen eine kohärente Teilmenge des Datenuniversums. Funktionen können durch ihre Signatur deutlich machen, welche Werte des Datenuniversums sie als Argumente akzeptieren und welche Ergebnisse sie produzieren.

8.12 Refactoring von Ausdrücken und Schliessen durch Gleichungen

Wir hatten in Abschnitt Bedeutung von BSL Ausdrücken vorgestellt, wie man auf Basis der Reduktionsregeln eine Äquivalenzrelation auf Ausdrücken definieren kann. Diese Äquivalenzen können zum Refactoring von Programmen verwendet werden - also Programmänderungen, die nicht die Bedeutung verändern aber die Struktur des Programms verbessern. Außerdem können sie verwendet werden, um Eigenschaften eines Programmes herzuleiten, zum Beispiel dass die Funktion overlaps-circle aus dem vorherigen Kapitel kommutativ ist, also (overlaps-circle c1 c2)(overlaps-circle c2 c1).

Die Äquivalenzrelation aus Abschnitt Bedeutung von BSL Ausdrücken war allerdings zu klein für viele praktische Zwecke, denn sie erfordert beispielsweise, dass wir Funktionsaufrufe nur dann auflösen können, wenn alle Argumente Werte sind.

BSL hat jedoch eine bemerkenswerte Eigenschaft, die es uns erlaubt, eine viel mächtigere Äquivalenzrelation zu definieren: Es ist für das Ergebnis eines Programms nicht von Bedeutung, in welcher Reihenfolge Ausdrücke ausgewertet werden. Insbesondere ist es nicht notwendig, vor einem Funktionsaufruf die Argumente auszuwerten; man kann auch einfach die Argumentausdrücke verwenden.

Die Idee wird durch folgenden, allgemeineren Auswertungskontext ausgedrückt:

 

E

 ::= 

[]

 

  |  

( name e* E e* )

 

  |  

( cond {[ e e ]}* [ E e ] {[ e e ]}* )

 

  |  

( cond {[ e e ]}* [ e E ] {[ e e ]}* )

 

  |  

( and e* E e* )

Zusammen mit der folgenden Kongruenzregel für unsere Äquivalenzrelation, drückt dieser Auswertungskontext aus, dass überall "gleiches mit gleichem" ersetzt werden darf:

(EKONG): Falls e-1e-2, dann E[e-1]E[e-2].

Eine Äquivalenzsrelation sollte möglichst groß sein, damit wir so viele Äquivalenzen wie möglich zeigen können. Gleichzeitig sollte sie korrekt sein. Dies bedeutet, dass äquivalente Programme das gleiche Verhalten haben, also insbesondere – sofern sie terminieren – bei Auswertung den gleichen Wert ergeben.

Wir definieren nun nach und nach die Regeln, die für die Äquivalenzrelation gelten sollen. Zunächst einmal sollte es tatsächlich eine Äquivalenzrelation — also reflexiv, symmetrisch und transitiv — sein:

(EREFL): ee.

(ESYM): Falls e1e2, dann e2e1.

(ETRANS): Falls e-1e-2 und e-2e-3, dann e-1e-3.

Die Verknüpfung zur Auswertungsrelation wird durch diese Regel geschaffen: Reduktion erhält Äquivalenz.

(ERED): Falls e-1e-2 dann e-1e-2.

Damit wir auch "symbolisch" Funktionen auswerten können, erweitern wir die Regel für Funktionsaufrufe, so dass es für die Bestimmung von Äquivalenzen nicht notwendig ist, die Argumente auszuwerten.

(EFUN): Falls ( define ( name name-1 ... name-n ) e ) in der Umgebung,
dann ( name e-1 ... e-n )e[name-1 := e-1 ... name-n := e-n]

Bei der Konjunktion wissen wir, dass der Gesamtausdruck zu #false auswertet (oder nicht terminiert), wenn mindestens eines der Argumente äquivalent zu #false ist.

(EAND): ( and ... #false ... )#false

Außerdem können wir Wissen, das wir über die eingebauten Funktionen haben, beim Schliessen mit Äquivalenzen nutzen. Beispielsweise wissen wir, dass (+ a b)(+ b a). Wir fassen die Menge der Äquivalenzen, die für die eingebauten Funktionen gelten unter dem Namen (EPRIM) zusammen.

Einen kleinen Hakenfuss gibt es allerdings doch noch. Man würde sich von einer Äquivalenzrelation für Programme wünschen, dass folgende Eigenschaft gilt: Falls e-1e-2 und e-1* v, dann auch e-2* v. Diese Eigenschaft gilt jedoch nicht, weil es sein kann, dass e-1 terminiert aber e-2 nicht.

Beispiel: Betrachten Sie folgendes Programm:

(define (f x) (f x))
(define (g x) 42)
(g (f 1))

Da (f 1)(f 1), terminiert die Berechnung des Arguments für g nicht, und gemäß der Kongruenzregel gilt damit (g (f 1))(g (f 1)), daher terminiert die Berechnung des Ausdrucks (g (f 1))(g (f 1)) nicht. Auf der anderen Seite gilt jedoch gemäß (EFUN) (g (f 1)) ≡ 42. Man muss daher bei der Verwendung der Äquivalenzregeln berücksichtigen, dass die Äquivalenz nur unter der Voraussetzung gilt, dass die Terme auf beiden Seiten terminieren.

Es gilt jedoch folgende etwas schwächere Eigenschaft, die wir ohne Beweis aufführen:

Falls e-1e-2 und e-1* v-1 und e-2* v-2, dann v1 = v2.

Wenn also e-1 und e-2 gleich sind und beide terminieren, dann ist der Wert, der herauskommt, gleich.

Was definiert, welche Texte BSL-Programme sind?

Die Semantik

Die Syntax

Was macht eine Grammatik?

Definiert, welche Texte gültige Programme sind

Legt fest, welche Reduktionsregeln gelten

Für die Bedeutung eines Programms ist die Grammatik nicht zuständig.

Zerlegt ein Programm in seine Teilausdrücke

Wie auch eine natürliche Grammatik z.B. einen Satz in Subjekt, Objekt und Prädikat aufteilt.

Wofür steht EBNF?

Europäisches Bank Noten Format

Elektronisches Befehls Namen Format

Erweiterte Backus Naur Form

Eine Notation zum Aufschreiben von Grammatiken

Gegeben die Folgende Grammatik:

 

LieblingsZahl

 ::= 

RundeZahl  |  Mystery

 

RundeZahl

 ::= 

0  |  3  |  6  |  8  |  9

 

Mystery

 ::= 

Paar+ 7

 

Paar

 ::= 

RundeZahl RundeZahl

Welche der folgenden Zahlen sind Lieblingszahlen?

7

Das plus bedeutet, dass der Ausdruck mindestens einmal vorkommen muss. Somit ist 7 kein Mystery.

33

In der LieblingsZahl-Produktion steht nur eine einzelne Zahl oder eine Mystery, die auf 7 endet.

907

Lässt sich aus der Produktion Mystery ableiten.

68087

Lässt sich aus der Produktion Mystery ableiten

0007

Hier haben wir eine ungerade Anzahl an RundeZahl vor der 7

3

Ganz oben in der Produktion

Welche der folgenden Ausdrücke kann in einer Auswertungsumgebung vorkommen?

(define x (+ 40 2))

Konstantendefinitionen in der Auswertungsumgebung haben die Form ( define name v ), da die Ausdrücke ausgewertet werden, bevor sie in die Umgebung aufgenommen werden.

(define (f x) (+ x 2))

(define x 42)

(+ 40 2)

Nur Definitionen sind teil der Auswertungsumgebung.

42

Nur Definitionen sind teil der Auswertungsumgebung.

Wählen Sie alle gültigen Auswertungskontexte!

(* [] (+ 3 4))

(* (+ 3 4) [])

Wir werten die Ausdrücke immer von links nach rechts aus. Links steht aber noch ein unausgewerteter Ausdruck.

(posn-x (make-posn 14 []))

(posn-x (make-posn 14 17))

Hier fehlt ein Loch, in das wir das Ergebnis der Auswertung einfügen können.

In der Auswertungsumgebung steht

(define-struct posn (x y))

.

Die Auswertung welcher Ausdrücke führt

nicht

zu einem Fehler?

(is-posn? (make-posn 2 2))

make-posn

ist in Ordnung, aber

is-posn?

wurde nicht definiert - das Prädikat heißt

posn?

.

(posn-x myposn)

Wir haben in der Auswertungsumgebung nirgendwo

myposn

definiert.

(posn? 42)

Das Prädikat können wir auf beliebige Werte anwenden - der obige

Ausdruck wertet zu

#f

aus.

(posn-y (make-posn 0 "42"))