Deutscher Blog-Corpus

15.12.2009 / Kommentieren

Mathias Bank hat mich angemailt und gebeten, ihm zu helfen, einen deutschsprachigen Blog-Corpus im Rahmen seiner Doktorarbeit auf die Beine zu stellen. Was das ist und wozu das dient, könnt Ihr der Mail von Mathias entnehmen:

Hallo Robert,
ich schreibe derzeit meine Doktor-Arbeit in Bezug auf Internet-Analysen. Zielsetzung ist die automatische Analyse relevanter Themen auf Community-Seiten, eben auch Blogs und Foren.

Ein wesentlicher Punkt bei solchen Analysen ist es, dass man weiß, welcher Benutzertyp die Artikel schreibt. Hier ist von besonderem das Geschlecht sowie das Alter interessant. Nun gibt es in der Literatur hierzu einige Verfahren, die aber alle auf englischen Datensätzen trainiert und angepasst wurden. Hierzu wird in der Regel der Corpus von Professor Moshe Koppel verwendet. Während den ersten Jahren in meiner Diss hab ich aber vermehrt feststellen müssen, dass für englisch entwickelte Verfahren auf deutschen Texten nicht wirklich funktionieren. Leider ist es aufgrund eines fehlenden Vergleichscorpus nicht möglich, dies zu evaluieren.

Mathias hat mittlerweile ein eigenes Formular zum Erfassen der Blog-Texte auf die Beine gestellt: Deutscher Blog-Corpus. Dort wird auch erklärt, was mit Deinen Blog-Texten passiert (wiss. Weiterverwertung etcpp).

Send to Facebook:
Statistik:
· read: 1234 · today: 2

zu den weiteren Artikeln:

13 Responses to “Deutscher Blog-Corpus”

Comments

  1. Kannst bei mir nen Haken dran machen ;)

  2. “Während den ersten Jahren in meiner Diss”

    :)

    Gute Sache denke ich, aber ich würde mit ungern wissenschaftlich bestätigen lassen, dass mein Blog mangelhaft ist. Denn in irgendeiner Hinsicht wird es das mindestens sein.

  3. @Thomas: ich bezweifle, dass ein Algorithmus wirklich mal in der Lage sein sollte, objektiv die Qualität eines Blogs zu bewerten. Sicher, die Relevanz auf eine bestimmte Fragestellung kann man mit unterschiedlichen Faktoren bewerten (z.B. Blog-Frequenz, Verlinkung), aber einen wirklich absoluten und objektiven Qualitätswert? Von der Seite würde ich mir da keine Sorgen machen ;)

    Für meine Seite ist das zumindest überhaupt nicht die Fragestellung. Eher: was zeichnet die Sprache eines 20-30-Jährigen aus. Wie unterscheidet er sich von 40-50-Jährigen. Verwenden Frauen mehr Adjektive? Wessen Sätze sind länger? Kann man auf die Berufsgruppe anhand des Schreibstils schließen? Das sind die Fragestellungen, die mich besonders interessieren und bei denen im englischsprachigen Raum bereits viel getan wurde.

  4. Habe mich eingetragen.

    (Trotzdem: @yeahyeahyens hat recht: es heißt das Corpus, wenn eine Textsammlung gemeint ist.)

  5. @Mathias Bank:

    Danke für die näheren Erläuterungen.

  6. interessanter “wissenschaftlicher” Ansatz – bin auf die Ergebnis gespannt

  7. Mark

    Was sind das für Amateure. Es heißt “das Korpus” (sächlich!).

    http://de.wikipedia.org/wiki/Corpus

  8. hatte schon lange keine Profi-Sprachpolizisten mehr, herzlich verabschiedend:)

  9. möchte höfliche auf das netzwerk “literarische weblogs deutscher sprache” ( litblogs.net ) hinweisen , welches 14 autorenblogs und zwei foren aggregiert ,-)

  10. Das wichtigste ist halt immer noch der Content und wer ihn schreibt. Das macht einen Blog aus und keine Statistiken. :-)

Pingbacks and Trackbacks

Reply