Mathias Bank hat mich angemailt und gebeten, ihm zu helfen, einen deutschsprachigen Blog-Corpus im Rahmen seiner Doktorarbeit auf die Beine zu stellen. Was das ist und wozu das dient, könnt Ihr der Mail von Mathias entnehmen:

Hallo Robert,
ich schreibe derzeit meine Doktor-Arbeit in Bezug auf Internet-Analysen. Zielsetzung ist die automatische Analyse relevanter Themen auf Community-Seiten, eben auch Blogs und Foren.

Ein wesentlicher Punkt bei solchen Analysen ist es, dass man weiß, welcher Benutzertyp die Artikel schreibt. Hier ist von besonderem das Geschlecht sowie das Alter interessant. Nun gibt es in der Literatur hierzu einige Verfahren, die aber alle auf englischen Datensätzen trainiert und angepasst wurden. Hierzu wird in der Regel der Corpus von Professor Moshe Koppel verwendet. Während den ersten Jahren in meiner Diss hab ich aber vermehrt feststellen müssen, dass für englisch entwickelte Verfahren auf deutschen Texten nicht wirklich funktionieren. Leider ist es aufgrund eines fehlenden Vergleichscorpus nicht möglich, dies zu evaluieren.

Mathias hat mittlerweile ein eigenes Formular zum Erfassen der Blog-Texte auf die Beine gestellt: Deutscher Blog-Corpus. Dort wird auch erklärt, was mit Deinen Blog-Texten passiert (wiss. Weiterverwertung etcpp).