Gensim: Care este diferența dintre word2vec și doc2vec? (Programare, Nlp, Gensim)

utilizator3595632 a intrebat.

Sunt un fel de începător și nu sunt nativ englez, așa că am ceva probleme de înțelegere Gensim‘s word2vec și doc2vec.

Cred că ambele îmi dau câteva cuvinte cele mai asemănătoare cu cuvântul de interogare pe care îl cer, prin most_similar()(după antrenament).

Cum se poate spune care caz trebuie să folosesc word2vec sau doc2vec?

Cineva ar putea explica diferența în cuvinte scurte, vă rog?

Mulțumesc.

Comentarii

  • Din punct de vedere al modelării, nu este cu adevărat nimic diferit. Cu excepția unei celule de intrare suplimentare care conține informații despre paragraful, documentul etc. din care a fost selectată secvența de intrare. Citiți lucrarea actuală care propune acest lucru: cs.stanford.edu/~quocle/paragraph_vector.pdf –  > Por user3639557.
  • doc2vec captează similitudinile dintre documente. wikimark este un proiect de-al meu care încearcă să calculeze similitudinea unui document față de articolele vitale de pe wikipedia. Este un alt exemplu de utilizare a doc2vec (pentru că în acest caz vectorii doc2vec sunt introduși în regresia scikit learn). –  > Por amirouche.
1 răspunsuri
pembeci

În word2vec, te antrenezi pentru a găsi vectori de cuvinte și apoi rulezi interogări de similaritate între cuvinte. În doc2vec, etichetezi textul și obții și vectori de etichete. De exemplu, aveți documente diferite de la autori diferiți și folosiți autorii ca etichete pe documente. Apoi, după formarea doc2vec, puteți utiliza aceeași aritmetică vectorială pentru a efectua interogări de similaritate pe etichete de autor: de exemplu, care sunt autorii cei mai asemănători cu AUTHOR_X? Dacă doi autori folosesc în general aceleași cuvinte, atunci vectorul lor va fi mai apropiat. AUTHOR_X nu este un cuvânt real care face parte din corpus, ci doar ceva ce ați determinat. Așadar, nu trebuie să îl aveți sau să îl introduceți manual în text. Gensim vă permite să antrenați doc2vec cu sau fără vectori de cuvinte (de exemplu, dacă vă interesează doar similitudinile dintre etichete).

Iată un exemplu prezentare bună despre elementele de bază ale word2vec și despre modul în care se utilizează doc2vec într-un mod inovator pentru recomandările de produse (articol de blog conex).

Dacă îmi spuneți despre ce problemă încercați să rezolvați, poate vă pot sugera ce metodă va fi mai potrivită.

Comentarii

  • pentru clasificarea textului, adică clasificarea sentimentelor, este o diferență între a utiliza word2vec sau Doc2Vec? În ambele cazuri, va fi vorba de input. –  > Por utilizator697911.
  • @user697911 puteți vedea aici whitepaper-ul Doc2Vec: cs.stanford.edu/~quocle/paragraph_vector.pdf În secțiunea de experimente, se vorbește despre analiza sentimentală. Din moment ce clasificați documentele ca fiind pozitive sau negative, Doc2Vec este abordarea preferată, deoarece vectorizează și documentele, nu doar cuvintele. –  > Por vasia.
  • @pembeci ce îmi recomanzi pentru clasificarea autorilor, doc2vec sau word2vec? Este suportată doar pentru limba engleză pe modelele gensim pre-antrenate? –  > Por Daniel Vilas-Boas.
  • @DanielVilas-Boas, doc2vec va fi mai bun, deoarece va agrega documentele pentru un anumit autor și le va rezuma într-un vector. Pentru un document necunoscut, puteți testa direct similaritatea dintre vectorul acelui document și vectorii autorului sau puteți utiliza vectorii ca caracteristici pentru alți algoritmi ML. A doua întrebare: nu, puteți să le antrenați pe propriul corpus. –  > Por pembeci.
  • @pembeci mulțumesc pentru sugestia dvs. Folosesc deja doc2vec, dar o altă întrebare care mi-a venit în minte a fost numărul de caracteristici pe care vreau să fie antrenat. Am început cu un număr aleatoriu de 10, dar ce sugestii ai? Setul meu de date este foarte mic (70 de documente pentru 11 autori) –  > Por Daniel Vilas-Boas.

Tags:,