Deutscher Blog-Corpus

Mathias Bank hat mich angemailt und gebeten, ihm zu helfen, einen deutschsprachigen Blog-Corpus im Rahmen seiner Doktorarbeit auf die Beine zu stellen. Was das ist und wozu das dient, könnt Ihr der Mail von Mathias entnehmen:

Hallo Robert,
ich schreibe derzeit meine Doktor-Arbeit in Bezug auf Internet-Analysen. Zielsetzung ist die automatische Analyse relevanter Themen auf Community-Seiten, eben auch Blogs und Foren.

Ein wesentlicher Punkt bei solchen Analysen ist es, dass man weiß, welcher Benutzertyp die Artikel schreibt. Hier ist von besonderem das Geschlecht sowie das Alter interessant. Nun gibt es in der Literatur hierzu einige Verfahren, die aber alle auf englischen Datensätzen trainiert und angepasst wurden. Hierzu wird in der Regel der Corpus von Professor Moshe Koppel verwendet. Während den ersten Jahren in meiner Diss hab ich aber vermehrt feststellen müssen, dass für englisch entwickelte Verfahren auf deutschen Texten nicht wirklich funktionieren. Leider ist es aufgrund eines fehlenden Vergleichscorpus nicht möglich, dies zu evaluieren.

Mathias hat mittlerweile ein eigenes Formular zum Erfassen der Blog-Texte auf die Beine gestellt: Deutscher Blog-Corpus. Dort wird auch erklärt, was mit Deinen Blog-Texten passiert (wiss. Weiterverwertung etcpp).

11 Kommentare

caschy
15.12.2009 um 17:01 Uhr

Kannst bei mir nen Haken dran machen ;)
Robert Basic
15.12.2009 um 19:33 Uhr

danke:)
Thomas Television
16.12.2009 um 00:06 Uhr

„Während den ersten Jahren in meiner Diss“

:)

Gute Sache denke ich, aber ich würde mit ungern wissenschaftlich bestätigen lassen, dass mein Blog mangelhaft ist. Denn in irgendeiner Hinsicht wird es das mindestens sein.
Mathias Bank
16.12.2009 um 08:40 Uhr

@Thomas: ich bezweifle, dass ein Algorithmus wirklich mal in der Lage sein sollte, objektiv die Qualität eines Blogs zu bewerten. Sicher, die Relevanz auf eine bestimmte Fragestellung kann man mit unterschiedlichen Faktoren bewerten (z.B. Blog-Frequenz, Verlinkung), aber einen wirklich absoluten und objektiven Qualitätswert? Von der Seite würde ich mir da keine Sorgen machen ;)

Für meine Seite ist das zumindest überhaupt nicht die Fragestellung. Eher: was zeichnet die Sprache eines 20-30-Jährigen aus. Wie unterscheidet er sich von 40-50-Jährigen. Verwenden Frauen mehr Adjektive? Wessen Sätze sind länger? Kann man auf die Berufsgruppe anhand des Schreibstils schließen? Das sind die Fragestellungen, die mich besonders interessieren und bei denen im englischsprachigen Raum bereits viel getan wurde.
Dentaku
16.12.2009 um 11:31 Uhr

Habe mich eingetragen.

(Trotzdem: @yeahyeahyens hat recht: es heißt das Corpus, wenn eine Textsammlung gemeint ist.)
Thomas Television
17.12.2009 um 03:59 Uhr

@Mathias Bank:

Danke für die näheren Erläuterungen.
oliver Preikschat
17.12.2009 um 10:43 Uhr

interessanter „wissenschaftlicher“ Ansatz – bin auf die Ergebnis gespannt
Mark
20.12.2009 um 23:11 Uhr

Was sind das für Amateure. Es heißt „das Korpus“ (sächlich!).

http://de.wikipedia.org/wiki/Corpus
Robert Basic
21.12.2009 um 04:19 Uhr

hatte schon lange keine Profi-Sprachpolizisten mehr, herzlich verabschiedend:)
czz
26.12.2009 um 08:35 Uhr

möchte höfliche auf das netzwerk „literarische weblogs deutscher sprache“ ( litblogs.net ) hinweisen , welches 14 autorenblogs und zwei foren aggregiert ,-)
Robert
07.01.2010 um 06:35 Uhr

Das wichtigste ist halt immer noch der Content und wer ihn schreibt. Das macht einen Blog aus und keine Statistiken. :-)

Spinnen, Denken, Lachen

Deutscher Blog-Corpus

Robert Basic

11 Kommentare

2 Pingbacks

Suche

Neue Beiträge

About