Data Type: Text Text Type: Journalistic (newswire services) Domain: International news Languages: French, German General Description: The Associated Press Worldstream newswire service provides articles in six languages, interleaved on a single data stream. The data is collected via an Associated Press installed telephone line at the Linguistic Data Consortium, University of Pennsylvania. AP Worldstream is a compilation of AP news reports produced in 86 bureaus in 68 countries. Worldstream contains English language copy and copy in German, Dutch, French, Swedish and Spanish. The language used in each article is identified by code strings in the article header; the processing done by the LDC to convert from newswire transmission format to SGML/Latin1 format uses these code strings to separate the articles according to language. Availability: CD-ROM References: Contact for questions or to report errors: Related corpora: Spanish News Text Collection Institution of Origin: Press Association, Inc., New York City Publisher & Place of Publication: Linguistic Data Consortium, University of Pennsylvania. Collection Time Span: 1993-1996 Description of File Organization: all articles for a given month are presented in the order in which they are received, divided into one-megabyte (uncompressed) chunks. These are numbered 1,2,...9,a,b,... For example, apg961_c.Z contains the 12th segment of German material from January 1996. Number of files: 189 French, 265 German Total size (compressed): 90MB French, 125MB German Tagging Description: The SGML markup for APWS has been designed to preserve information from the article header structure of the newswire transmission format, even where the meaning or function of particular header fields may not have been clear from initial inspection. Fields that may be useful for categorizing article content include: - the "cat=" attribute of the tag (this encodes the "topic category" of the article: "f" for financial, "p" for political, etc.) - the tag, which contains a keyword string relating to the article's content - the tag, which repeats the content of together with some additional newswire code strings The SGML markup applied to the APWS data lacks some of the attention to detail that will be found in the Le Monde and AFP materials. In particular, the other sources provide attribute values in opening tags to indicate, where appropriate, the language used within the tagged units (e.g. ""); the AP material does not supply these attribute values, and it must be assumed that text content is in the language that is associated with the directory containing a given file. Also, each data file in the other source collections contains additional SGML material at the beginning and end of the file (external to news articles) to provide direct support for true SGML-based processing, in terms of referencing DTD's and so on. This level of SGML support is not provided in the AP data -- each file is simply a stream of article units bounded by "" tags, as illustrated below. The following sample articles indicate the typical arrangement of SGML markup and article content. -------------------- sample of AP French ------------------- apwsF9503_001.0002 w1255 &D3; &D1; USACIAAGENTLIBYEN
03-01 0276

Un ancien agent libyen de la CIA demande cinq millions de dollars pour bons et loyaux services

GREENSBORO (AP) -- Un ancien diplomate libyen a annoncé mardi qu'il exigeait de la CIA la somme de cinq millions de dollars (environ 25,5 millions de FF) pour les périlleux services rendus à la centrale américaine du renseignement depuis 16 ans.

Mohammed Abdallah El-Hosck, qui tenait une conférence de presse à Greensboro (Caroline du Nord), a montré aux journalistes la lettre qu'il a adressée en ce sens au président Bill Clinton et à la commission sénatoriale chargée des affaires de renseignement.

Mark Mansfield, porte-parole de la CIA à McLean (Virginie), a déclaré connaître la requête de M. El-Hosck, mais il s'est refusé à la commenter.

L'ancien diplomate a précisé qu'il avait été recruté par la CIA en 1979, alors qu'il était le numéro deux de l'ambassade de Libye au Nigeria. Il aurait alors fourni à l'agence américaine des documents et des codes permettant de décrypter les communications diplomatiques libyennes.

Il a également fait valoir qu'il avait contribué à révéler le rôle de Moammar Kadhafi dans le terrorisme international.

Naturalisé américain après s'être enfui aux Etats-Unis en 1981, il a depuis déménagé quatre fois pour raisons de sécurité et n'a longtemps été rémunéré qu'en ``cadeaux''. Ses plaintes, a-t-il expliqué, lui ont valu en 1992 d'obtenir 50.000 dollars et un emploi de traducteur au salaire annuel de 25.000 dollars.

Son contrat s'achève en mai et Mohammed Abdallah El-Hosck veut plus, bien plus, au titre des dangers encourus depuis ses premiers services d'espionnage. AP

tl/v33 AP-NY-03-01-95 0047EST ------------------ sample of AP German ----------------------- apwsG9501_001.0002 w2865 &D3; &D1; Bosnien/Waffenstillstand

01-01 0201
WS SL:Bosnien/Waffenstillstand; CT:pl; OPT:; REG:DEUT; 150

Waffenstillstand für Bosnien tritt um 12.00 Uhr in Kraft &QC;

Sarajevo (AP) Der am Silvesterabend unterzeichnete Waffenstillstand für Bosnien tritt am Neujahrstag um 12.00 Uhr in Kraft. UN-Generalsekretär begrüáte die Vereinbarung in einer in New York veröffentlichten Erklärung als «ein wundervolles Neujahrsgeschenk für die Einwohner dieses vom Krieg zerrissenen Landes». Der Sonderbeauftragte der Vereinten Nationen für das ehemalige Jugoslawien, Yasushi Akashi, sagte nach der Unterzeichnung des Abkommens durch die bosnische Regierung und die Führung der bosnischen Serben, jetzt könnten auch die diplomatischen Verhandlungen mit dem Ziel einer abschlieáenden Friedensregelung wiederaufgenommen werden. Serbenführer Radovan Karadzic erklärte sich zu Verhandlungen über «eine stabile politische Lösung» bereit und sagte: «Jeder Krieg muá einmal enden, und heute ist der Tag, an dem das Ende des Krieges beginnt.» Zurückhaltender äuáerte sich der bosnische Vizepräsident Ejup Ganic. Alle Waffenstillstandsvereinbarungen im Bosnienkrieg seit April 1992 sind bisher gebrochen worden. Im ganzen Land kamen seitdem rund 200.000 Menschen ums Leben oder gelten als vermiát.


AP/9/z AP-NY-01-01-95 0133EST