CL-Blog

Computerlinguistik & Politik

Du durchsuchst gerade das Archiv der Kategorie ‘Fortgeschrittene Sprachmodellierung’.

Kategorie: Fortgeschrittene Sprachmodellierung

2017 17 Feb

Fortgeschrittene Sprachmodellierung: Projekte

Abgelegt unter: Fortgeschrittene Sprachmodellierung | RSS 2.0 | TB | Kommentare geschlossen

Der Abgabetermin für Ihre Projekte ist der 9.4. Bitte als einzelne ZIP-Datei an mich. Es gelten die üblichen Richtlinien für Programmierprojekte. Bei Wahl eines Hausarbeitsthemas bitte mind. 15 Seiten (ohne Literatur und Titelei)

2017 10 Feb

Sprachmodellierung: Semesterferienprojekte

Abgelegt unter: Fortgeschrittene Sprachmodellierung | RSS 2.0 | TB | Kommentare geschlossen

Bitte teilen Sie mir baldmöglichst Ihr ausgewähltes Thema mit.

Potentielle Themen sind:

  • Viterbi-Algorithmus: Parallelisierung (GPU, Multikern)
  • Iterativer Viterbi Algorithmus (ein wirklich interessantes Implementierungsthema)
  • k-best-Viterbi- Algorithmus (Huang & Chiang, 2005)
  • EM-Training von HMMs
  • Hausarbeit: Ansätze zur Behandlung unbekannter Wörter beim prob. Parsing und Tagging
  • Hausarbeit: Regularisierung von CRFs

2017 10 Feb

Sprachmodellierung, 9.2.

Abgelegt unter: Fortgeschrittene Sprachmodellierung | RSS 2.0 | TB | Kommentare geschlossen

2016 9 Dez

Fortgeschrittene Sprachmodellierung, 8.12.

Abgelegt unter: Fortgeschrittene Sprachmodellierung | RSS 2.0 | TB | Kommentare geschlossen

2016 25 Nov

Fortgeschrittene Sprachmodellierung, 24.11.

Abgelegt unter: Fortgeschrittene Sprachmodellierung | RSS 2.0 | TB | Kommentare geschlossen

2016 27 Okt

Sprachmodellierung: Interpolationsmodelle

Abgelegt unter: Fortgeschrittene Sprachmodellierung | RSS 2.0 | TB | Kommentare geschlossen

Vervollständigen Sie das in der Übungs begonnene Python-Programm und schicken Sie mir die Ergebnisse bis nächsten Donnerstag Mittag.

Hier finden Sie Korpus und Programm, hier den Algorithmus:

brants

 

 

2016 3 Feb

Sprachmodellierung, 3.2.

Abgelegt unter: Fortgeschrittene Sprachmodellierung | RSS 2.0 | TB | Kommentare geschlossen

Themen:

  • Gradienten-Training von CRFs

CRF-Software

Literatur

  • Iterative Viterbi decoding und Staggered Decoding
    Nach meinen Erfahrungen ist der iterative Viterbi-Decoder gegenüber dem herkömmlichen bei großen Ausgabelabelmengen (> 500) 4 bis 5 mal schneller. Ungelöst ist aber, wenn man den iterativen Decoder mit dem Perceptron-Trainingsalgorithmus effizient zusammenbringt, da sich die Theta-Parameter nach jedem Korpuspaar dynamisch ändern und der iterative Decoder laufend neue “residual groups” berechnen muss.
  • HMM scaling

 

 

 

2016 27 Jan

Fortgeschrittene Sprachmodellierung, 27.1.

Abgelegt unter: Fortgeschrittene Sprachmodellierung | RSS 2.0 | TB | Kommentare geschlossen

Themen:

Folien:

Hausaufgabe:

Semesterprojekte

Bitte überlegen Sie sich, was Sie als Semesterferienprojekt machen wollen. Grob gibt es zwei Arten von Themen: Irgendetwas implementieren (HMM mit SIMD, Viterbi für CRFs, usw.) oder einen Korpus nehmen und mit vorhandener Software ein Modell trainieren und evaluieren.

 

2016 15 Jan

Sprachmodellierung, 13.1.

Abgelegt unter: Fortgeschrittene Sprachmodellierung | RSS 2.0 | TB | Kommentare geschlossen

Hausaufgabe:

  • Bitte machen Sie sich bis nächste Woche mit der Differentialrechung (wieder) vertraut.

2015 9 Dez

Fortgeschrittene Sprachmodellierung, 9.12.

Abgelegt unter: Fortgeschrittene Sprachmodellierung | RSS 2.0 | TB | Kommentare geschlossen

Themen:

Materialien:

2015 26 Nov

Sprachmodellierung, 25.11.

Abgelegt unter: Fortgeschrittene Sprachmodellierung | RSS 2.0 | TB | Kommentare geschlossen

Hausaufgabe

  • Lesen Sie Seiten 8-10 im Rabiner-Tutorial.
  • Lesen Sie Kapitel 6.5 in Jurafsky & Martin.

2015 18 Nov

Fortgeschrittene Sprachmodellierung, 18.11.

Abgelegt unter: Fortgeschrittene Sprachmodellierung | RSS 2.0 | TB | Kommentare geschlossen

Themen:

  • HMM, Präfixwahrscheinlichkeit

Foliensatz Mathematische Preliminarien

Hausaufgaben (zum Selbststudium)

  • Machen Sie sich vertraut mit elementarer Wahrscheinlichkeitstheorie (z.B. durch Lesen der Wikipedia-Artikel oder J&M) [bis nächste Woche]
  • Machen Sie sich vertraut mit dem Rechnen mit Logarithmen und Exponentialrechnung [bis in 2 Wochen. Sie könnten z.B. alle log-Rechenregeln von den Präliminarienfolien beweisen]
  • Lesen Sie die Seiten 1-7 im HMM-Tutorial von L. Rabiner [bis nächste Woche]

 

2015 5 Nov

Sprachmodellierung, Woche 4

Abgelegt unter: Fortgeschrittene Sprachmodellierung | RSS 2.0 | TB | Kommentare geschlossen

Themen:

  • Backoff-Modelle
  • Glättungsverfahren: Witten-Bell

Folien:

2015 21 Okt

Fortgeschrittene Sprachmodellierung, Woche 2

Abgelegt unter: Fortgeschrittene Sprachmodellierung | RSS 2.0 | TB | Kommentare geschlossen

Folien:

Hausaufgabe (bis in 2 Wochen, Teil 2 per Email an mich)

  1. Lesen Sie Kapitel 4 (bis einschl. 4.9) in J&M fertig
  2. Programmieren Sie Brants’ Algorithmus zum Training der einfachen Lambda-Koeffizienten (hier ist der Latex-Code für den Algorithmus). Sie können auch einmal einen Blick in Brants’ Aufsatz werfen.
    Hinweis: programmieren Sie auch eine Variante, wo Sie 1 statt der N-Gramm-Frequenz auf \lambda_{\hat{n}} draufaddieren (dies wäre sozusagen die Type- statt der Token-Version). Wie ändern sich die lambdas für Ihr gewähltes Trainingskorpus? Wie ist dies zu interpretieren?

Material

  • Ich hatte vor längerer Zeit einmal die Tag-Sequenzen aus dem TiGer-Korpus extrahiert. Die Liste befindet sich hier. Sie enthält bereits 3-1 Grenzsymbole zu Satzbeginn und eines am Ende, um auch Trigramme am Satzanfang markieren zu können. Das letzte Token in jeder Zeile ist die Häufigkeit jeder Sequenz (sollte eigentlich eine ganze Zahl sein, ist aber mit leichten Rundungsfehlern versehen)
  • Fixed vs. growth mindset

2015 14 Okt

Fortgeschrittene Sprachmodellierung

Abgelegt unter: Fortgeschrittene Sprachmodellierung | RSS 2.0 | TB | Kommentare geschlossen

Hier zwei Hausaufgaben zum Warmwerden:

  1. Beweisen Sie das Bayessche Theorem! (und schicken Sie mir Ihren Beweis per Email)
    Hinweis: versuchen Sie es selbst, im WWW findet man das natürlich.
  2. Lesen Sie Kapitel 4 (bis einschließlich 4.5) in Jurafsky&Martin!

 


CL-Blog läuft unter Wordpress 3.5.1
Anpassung und Design: Gabis Wordpress-Templates
19 Verweise - 0,229 Sekunden.