un proiect realizat de aspi


sustinuti de anis
 
Business Software
(85 stagii / 267 pozitii)
New Media & Web Development
(21 stagii / 58 pozitii)

Entertainment Software & Graphics
(19 stagii / 112 pozitii)
Embedded & Security Software
(15 stagii / 49 pozitii)
Hardware
(6 stagii / 20 pozitii)
Networking & Communication
(8 stagii / 34 pozitii)
Mobile Application Development
(25 stagii / 73 pozitii)
Quality Assurance & Technical Support
(18 stagii / 55 pozitii)


Analiza factorilor ce influenteaza repetitiile (stilul individual al autorilor, natura textelor si limba in care sunt scrise)



Stiinta Calculatoarelor



Locul de desfasurare al stagiului: Bucuresti
Numarul de pozitii disponibile: 3 pozitii
Departament/echipa: Natural Language Processing
Perioada de desfasurare a stagiului: 05.07.2010 - 30.09.2010
(Minim) 1 luna in intervalul mentionat anterior
Salariu: 0 RON
Recomandari:
Cunostinte minime :

- Cunostinte bune de programare si structuri de date (C / C++ / Java / Python / PHP);

- Notiuni de algoritmi de baza

- Gandire logica

- Dorinta de a studia si invata lucruri algoritmi si tehnici mai dificile

Cunostinte ce vor fi dobandite

- Notiuni de algoritmi avansati pentru prelucrarea limbajului natural (PLN)

- Utilizarea de biblioteci open source pentru dezvoltarea de aplicatii de PLN

- Studiul unor lucrari si concepte mai dificile

- Colaborarea cu membrii echipei de CSCL / PLN din facultate

Activitati desfasurate in timpul stagiului

Trei activitati diferite pentru fiecare stagiar:

a. Limba:
i. Descriere varianta 1: se considera un corpus bi/multi – lingual si se evalueazÄ� repetiÈ�iile in fiecare corpus pentru a vedea daca se repeta aceleaÈ�i lucruri (ca parte de vorbire, conÈ�inut, samd), cu aceleaÈ�i frecvente, samd.
ii. Descriere varianta 2: toate cuvintele din lexiconul a doua sau mai multe limbi sunt cÄ�utate pe Google pentru a determina frecventa lor de apariÈ�ie pe Web si apoi rezultatele sunt comparate pentru a vedea daca exista corelaÈ�ii in ceea ce priveÈ�te cele mai frecvente lucruri repetate (repetiÈ�ie de conÈ�inut, de structuri samd).

b. Stilul/Genul textului:
i. Descriere: se compara doua corpusuri diferite de  texte din punctul de vedere al repetiÈ�iei – primul corpus fiind alcÄ�tuit din poezii si altul conÈ�inând comentarii literare ale poeziilor din primul corpus (cele doua corpusuri trebuie construite).

c. Stilul individual:
i. Descriere: Se porneÈ�te de la un corpus cu texte scrise de diverÈ�i autori. AplicaÈ�ia trebuie sa înveÈ�e caracteristicile fiecÄ�rui autor pentru ca la final sa fie capabila sa recunoascÄ� stilul fiecÄ�rui autor in parte (se dau texte noi si trebuie sa se identifice autorul). Caracteristici ce pot fi utilizate: repetiÈ�ii, paronimie, lanÈ�uri semantice, „popularitatea” unor cuvinte –frecventa lor de apariÈ�ie intr-un corpus- precum si distribuÈ�iile lor in textele din corpus.

Indrumator:
- Costin Chiru

Continuarea colaborarii

Lucrare de diploma, publicare de lucrari, participare in proiecte de cercetare.

Restrictii:
Alte observatii:

Vor fi organizate intalniri bisaptamanale in laboratoarele din facultate in lunile iulie si septembrie. Prezenta nu va fi obligatorie la toate aceste intalniri si puteti sa lucrati si de acasa. Scopul principal este realizarea obiectivului final asociat fiecarui stagiu in parte.

Cazare: Nu se ofera posibilitatea cazarii pentru studentii din alte orase.

Intoarcere           Recomanda stagiul unui prieten





Comentarii



Adauga un comentariu:

Nume: *
Email: *
Subiect:
Comentariu: *

Cod anti-spam: Cod de verificare
Daca codul nu este lizibil, click aici pentru incarcarea unui nou cod.







 

Parteneri principali
Bitdefender