Register  Login  Active Topics  Maps  

Experimenting with French word frequency

 Language Learning Forum : Specific Languages Post Reply
55 messages over 7 pages: 13 4 5 6 7  Next >>
rdearman
Senior Member
United Kingdom
rdearman.orgRegistered users can see my Skype Name
Joined 5035 days ago

881 posts - 1812 votes 
Speaks: English*
Studies: Italian, French, Mandarin

 
 Message 9 of 55
04 September 2014 at 3:51pm | IP Logged 
emk wrote:

The Wiktionary list is junk. It lists Belgique as the 93rd most common word in French.


Same problem I had with the English word list someone gave, which showed "Federal" was more frequent than "Thanks", which is probably true in the USA. So it might be Belgique is more frequent in the sources where they got the list, perhaps even Belgium. I'm actually interested now to see where Belgique falls in the Université de Savoie dataset, since in theory is well and truly French-French.


1 person has voted this message useful





emk
Diglot
Moderator
United States
Joined 5331 days ago

2615 posts - 8806 votes 
Speaks: English*, FrenchB2
Studies: Spanish, Ancient Egyptian
Personal Language Map

 
 Message 10 of 55
04 September 2014 at 4:20pm | IP Logged 
rdearman wrote:
Same problem I had with the English word list someone gave, which showed "Federal" was more frequent than "Thanks", which is probably true in the USA. So it might be Belgique is more frequent in the sources where they got the list, perhaps even Belgium. I'm actually interested now to see where Belgique falls in the Université de Savoie dataset, since in theory is well and truly French-French.

Well, let's take a look:

Code:
sqlite> select * from lemme_freq where lemme = 'belgique';
lemme       freqfilms2 freqlivres orthos    
---------- ---------- ---------- ----------
belgique    0.02         0.27        belgique

sqlite> select count(*) from lemme_freq where freqfilms2 > 0.02;
31363

sqlite> select count(*) from lemme_freq where freqlivres > 0.27;
26375

So there are about 31,000 lemmas (out of 46,947) which are more common than Belgique in the movie corpus, and 26,000 words which are more common in the book corpus. The word belge does much better, with only 5,582 and 4,182 words ahead of it, respectively.

The Rutledge frequency dictionary uses a lot more newspaper articles (relative to books), and it places belge at only 2,795. This shows one of the central problems with frequency lists: you really need to specify what corpus you're using.

Unfortunately, it's hard to get a corpus of spoken French. They exist, but I think a lot of them are proprietary. This seems to be why the Université de Savoie went with movie subtitles: they might overemphasize crime and drama, but they're still pretty much natural speech.

Oh, and to answer your earlier question: All the numbers and lists I give in this thread use the freqfilms2 data set, unless specified otherwise. I've already played around with lists based on written corpora, so they're not all new and shiny. But if somebody would like me to re-run any particular numbers with the freqlivres data set, please let me know.

2 persons have voted this message useful



s_allard
Triglot
Senior Member
Canada
Joined 5229 days ago

2704 posts - 5425 votes 
Speaks: French*, English, Spanish
Studies: Polish

 
 Message 11 of 55
04 September 2014 at 5:50pm | IP Logged 
I really think people are making this more complicated than it needs to be. My long-standing position --and I'm
not sure it's the subject of this thread -- is that 300 words is all you need to get started speaking French. That
question has been often reframed as: What can you do with only 300 words? For many people, you can't do much
besides have very simple conversations. The proof is that if you take the 300 hundred most common words in
French, you can't ask how to go to the bathroom because the word for bathroom is not on the list.

Let's look at this from a different and very simple perspective. Why not look at some real conversations of native
speakers and see how many words they use? I've taken an entire sample conversation from that great site France
Bievenue. The conversation is at the end of this post. The total number of graphic units is around 600 units. By
my reckoning, in the conversation there are 145 different words, broken down into the following categories:

Verbs: 34 e.g.: avoir, parler, faire, dire, falloir, etc.
Nouns: 41 e.g.: jour, matin, lentilles, année, etc.
Adjectives: 17 e.g.: autre, astigmate, gênant, etc.
Adverbs: 21 e.g. vraiment, tout, aussi, ben, moins, etc.,
Pronouns: 10, e.g.: ce, ça, je, les, vous, elle, en, moi, me, on
Connecting words: 23 e.g.: que, à, sur, ah, des, et, pas, quand, comme, etc.

I should say that I had difficulty categorizing some words.

I don't want to make this post too long, so I won't include the lists of all the words in each of these categories.
But I want to just point out that the Pronouns list above contains all the pronouns in this conversation. There are
of course many more pronouns in French. It so happens that this conversation only uses these 10. The native
speakers certainly know all the other pronouns. That's not the issue. They are using the ones here.

If you look at the verbs, we see that only 34 out of the approximately 13,000 French verbs are in use here. We
can think of many common verbs that are not used here. So what? I'm interested in the ones used here.

The most common objection to this sort of reality-based approach is that if we change the subject, we'll need
different words. Of course. The speakers are not talking about going to the bathroom, they are talking about
Philippe wearing contact lenses. We're are not looking at all the possible conversations that native speakers can
have, Neither are we talking about the words in a two-hour conversation. I'm talking about what two people have
said with 145 words.

I don't have proof of this, but I suspect that if we were to look at all the conversations on the France Bienvenue
site, we probably wouldn't see a much higher figure for the number of different words used in each individual
conversation because the conversation are of approximately the same length. If you sum the number of all the
different words in the database, you will obviously get a much larger figure.

What I find quite interesting in these conversations is how people are able to get by with such low numbers.
Some people here at HTLAL might think that this is A2-level French. I would love to here an A2-level speaker
having this conversation.

So, let's look at that basic question, Can you have a fluent conversation in French with 300 different words?
Certainly. Now, another question, Can you have a fluent conversation in French on any subject under the sun
with 300 different words? No.

A: Bon, Philippe, vous nous avez parlé l’autre jour, là, de ce que vous faisiez le matin et vous avez dit entre
autres (1) que le matin, il fallait mettre ses lentilles ! Donc vous portez des lentilles.

P: C’est ça, je les porte depuis cette année.

A: Oui. C’est tout récent, alors ?

P: C’est tout récent parce que j’arrivais pas* à les mettre dès l’année dernière (2).

A: C’est-à-dire les mettre, les en[...], les… les poser sur les yeux, quoi ?

P: Oui, et donc c’est parce que (3) en fait, je les… je porte des lunettes depuis le CP (4).

A: Ah oui ! Pourquoi ? Vous êtes quoi ? Vous êtes myope ? Vous êtes… ?

P: Je suis myope. Myope. Et…

A: Donc vous voyez pas* au loin.

P: C’est ça. Et je suis un peu astigmate aussi. Donc du coup, du CP jusqu’à… jusqu’à l’année dernière, je portais
des lunettes.

A: Oui.

P: Et…

A: Vous en avez eu marre (5)!

P: Bah… Ma… ma vue, elle s’est aggravée en fait. Je… Au début, c’était des lunettes de repos et au fur et à
mesure des années, ben ma vue, elle s’est aggravée donc j’ai préféré porter des lentilles. Comme ça, c’est moins
gênant.

A: Oui.

P: Quand je suis dans la rue, comme ça je porte pas* des… des lunettes, j’ai tout de suite les lentilles et…

A: Oui, puis ça corrige bien, les lentilles. On voit vraiment très bien.

P: Surtout que là, avec ces lentilles, je… je suis à 12 sur 10. Donc c’est parfait !

A: Œil de lynx !

P: Voilà.

A: Et alors, donc vous aviez envie de les porter pour voir peut-être mieux et puis parce que c’est plus pratique
mais…

P: C’est plus pratique pour… surtout pour le sport.

A: Oui, on risque pas (6) de se faire… de les faire tomber ou…

P: Si jamais (7)…

A: Ouais.

P: …c’est un sport physique ou quoi.

A: Oui oui. Oui, les montures de lunettes, ça peut blesser si on prend un coup ou quelque chose, par exemple.

P: Voilà. Donc c’est plus pratique de porter des lu… des lentilles.

A: Ça veut dire un petit entretien tous les jours ? Enfin, comment vous faites ? Vous les mettez dans… dans un
produit, c’est ça ?

P: Dans un produit. Il y a un produit spécial pour les lentilles et…

A: Ouais.

P: Je les trempe dedans et après je… je les mets directement sur… sur mes yeux.

A: Ça coûte combien, tout ça ? C’est cher ou pas, par rapport à… je sais pas… des lunettes ? C’est un budget
pour vous ?

P: Euh…

A: C’est pas* vous qui payez !

P: Non, c’est pas* moi. C’est… c’est ma mère.

A: D’accord, puis c’est un peu remboursé par la Sécurité Sociale aussi, non ?

P: Oui, mais… Ouais… Je connais pas* exactement le prix mais ça revient cher (8) quand même.

A: Donc vous avez quand même des lunettes… chez vous ?

P: Des lunettes de repos qui sont chez moi.

A: Oui. Et vous les mettez plus jamais*.

P: Si, pour l’ordi (9), la télé. Parce que quand je rentre chez moi, j’enlève les lentilles parce que sinon (10), ça… ça
m’irrite les yeux, après.

A: Ah ! A force (11), oui.

P: J’ai les yeux sensibles.

A: Vous pouvez pas* les garder toute la journée ?

P: Non, j’ai les yeux sensibles.

A: En tout cas, ça change la vie, non ? De mettre des lentilles.

P: C’est sûr.

A: Vous préférez ?

P: Ah oui, c’est mieux !

A: Ouais ? Physiquement tout ça, enfin esthétiquement, ça vous plaît plus ?

P: Ah oui ! Parce que ça me va pas* (12), les lunettes !

A: Ah bon ?

P: Non. Non.

A: Bon, bah, écoutez, je sais pas*… Je me souviens pas*, moi, vous avoir vu avec des lunettes ou pas et je me
suis pas* dit « Oh ! Il est moche (13) avec ses lunettes » !

P: Je les avais.

A: C’est vrai ? Les lunettes, c’est juste pour la maison maintenant et…

P: …Voilà.

A: Plus jamais dans la rue.

P: C’est exactement ça.



Edited by s_allard on 04 September 2014 at 5:52pm

1 person has voted this message useful



s_allard
Triglot
Senior Member
Canada
Joined 5229 days ago

2704 posts - 5425 votes 
Speaks: French*, English, Spanish
Studies: Polish

 
 Message 12 of 55
04 September 2014 at 7:03pm | IP Logged 
Out of curiosity, I decided to have a look at a very different conversation from that France Bievenue data base of
conversations. Un lycée par comme les autres is a conversation about attending a military lycée. The entire
conversation is at the end of the post. I didn't have time to do all the statistics but two items caught my
attention.

Verbs: 33 e.g. aller, apporter, bouger, choquer, commencer, etc.
Pronouns: 10 e.g. ça, ce, eux, il, ils, je, me nous, on, vous

When I get more time I'll look at the adjectives, nouns and connecting words. I suspect that the number of
different words will be somewhat higher than in the other conversation.

What I found somewhat remarkable, but not surprising, was that the numbers of different verbs and pronouns
are nearly exactly the same. Here are the numbers for the previous conversation, Pour ses beaux yeux.

Verbs: 34 e.g.: avoir, parler, faire, dire, falloir, etc.
Pronouns: 10, e.g.: ce, ça, je, les, vous, elle, en, moi, me, on

We see that the contents of the two lists of pronouns are nearly identical. The really interesting list is the verbs.
Although the numbers are nearly identical, the actual verbs used are quite different. Here are the two lists of
verbs in alphabetical order. (I hope the column formatting works on your screen).

Lycéé          Beaux yeux
    aller     & nbsp;& nbsp;    aller
apporter       arriver
asseoir          avoir
    avoir     & nbsp;& nbsp;  blesser
bouger          changer
choquer         connaî tre
commencer     corriger
comparer       coûter
conduire        dire
correspond     écouter
cotoyer          enlever
développer     être
dire         &n bsp;    faire
écouter        falloir
    faire     & nbsp;& nbsp;    garder
     finir    & nbsp; & nbsp;     irriter
   orienter     &nbs p;  mettre
parler           parler
partir           payer
passer        plaire
penser        porter
plaire          poser
    pleurer      ;  ;  préférer
pouvoir        prendre
rentrer         rentrer
respecter     revenir
retrouver     risquer
réviser         aggraver
savoir          savoir
taper          souvenir
travailer        tomber
trouver         tremper
vouloir         voir
                            vouloir

There is obviously some overlap with the very common verbs like être, avoir, vouloir, faire, savoir, parler, écouter,
aller, rentrer. Now if we subtract these shared verbs and sum the different verbs, we can say that with 59
different verbs one can converse on these two subjects. Need I insist on the fact that you only need 33 verbs in
one text and 34 in the other?

When I have time, I'll get around to the other statistics, but I think we can see a pattern developing. In this kind of
conversations, the pronouns will be relatively constant. The number of verbs will probably be similar but the
actual verbs will vary. On the other hand, if the we look at what I call the aggregate word effect, as we look at the
verbs of each new text, the number of totally new verbs will decline rapidly. My guess is that after around 100
different verbs we will see the number of new verbs taper off quickly. I may be wrong though.

The connecting words should be relatively constant because of their very nature. I suspect that the adverbs will
behave like the verbs. I'm not sure about adjectives.

The biggest difference will be in the nouns obviously. By their very nature, the nouns will change considerably
with the subject matter.

A : Bonjour Anthony.
An : Bonjour.
A : Donc vous nous avez parlé de vos études au Lycée Militaire mais bon, un lycée militaire, c’est quand même
pas quelque chose de très fréquent, quoi, pour nous, ici.
An: Non.
A : Alors, pourquoi vous êtes allé là ?
An : Alors en fait, je suis allé là parce que en 3è, (1) niveau scolaire, ça allait pas très fort (2). Et j’avais envie de
m’orienter vers l’Armée, parce que c’est… c’est ce qui me correspond le plus à mon tempérament (3). Et du coup,
j’ai passé les concours et je me suis retrouvé admis au Lycée Militaire d’Aix en Provence.
A : Ah oui, parce que c’est ça, il faut passer des examens, quoi…
An : Un concours (4).
An: Oui.
A : Un concours. Et alors, c’était quoi, ce… ces épreuves ?
An : Alors, il y avait une épreuve de français, d’anglais, de mathématiques. Et après, le reste, c’était par rapport
aux appréciations qu’on avait eues dans les classe antérieures.
A : Et alors, vous aviez un bon dossier ? Vous étiez sage au collège ?
An : Au niveau des notes, c’était peut-être pas trop ça (5) mais au niveau des appréciations, ça a toujours été…
A : Un bon comportement et tout ça.
An : Un bon comportement, investissement (6), volonté.
A : Ouais, d’accord. Parce qu’ils veulent pas de… d’élèves…
An : Non.
A : … qui soient casse-pieds (7)…
An : Non, non.
A : Indisciplinés et tout ça.
An : Il y en avait aucun là-bas.
A : Alors justement, donc… donc vous êtes allé à partir de l’âge de quoi ? Quinze ans à peu près ? Quatorze ans ?
An : Oui, seize ans, seize ans, vu que j’avais un an de plus.
A : Seize ans ?
An : Donc…
A : Donc vous pouvez comparer avec avant, alors.
An : Avec le civil, oui. Il y a… Il y a beaucoup à comparer. Déjà, au niveau de la mentalité des élèves. Les élèves,
ils ne font pas de bruit en cours, ils écoutent parce que les professeurs, ils sont tellement captivants ! Ils sont
tellement captivants que il y a pas un bruit (8), c’est… c’est discipliné. C’est… On est tous en uniforme.
A : Ah oui !
An : Puis si jamais… On sait que derrière, on se fait taper sur les doigts (9) par les militaires si jamais on part
trop en déconnade (10).
A : D’accord. Et si on… ça veut dire quoi « se faire taper sur les doigts » ? Vous êtes punis ? Vous êtes…
An : Etre privé de sortie le mercredi, le weekend.
A : D’accord. C’est sévère.
An : C’est sévère la première année. Après, c’est vrai que au fur et à mesure, quand on commence à côtoyer le
personnel militaire, parce qu’ on est 24 heures sur 24 et sept jours sur sept pour la plupart avec eux, forcément,
on développe des liens et ainsi de suite.
A : Oui, oui. Et après il y a une espèce de confiance et tout…
An : Voilà, c’est ça.
An : Et tout le monde respecte tout le monde.
An : Oui, il y a jamais eu d’incident quelconque.
A : D’accord. Oui, parce que c’est ça, vous étiez en internat (11)
An : Oui.
A : C’est un internat. Donc vous rentriez chez vous que le weekend.
An : Que le weekend, oui.
A : Et le fait qu’il y ait beaucoup de discipline, ça… ça vous plaît, ça, puisque vous dites que vous aimez l’armée.
An : Après, je pense pas qu’il y avait plus de discipline qu’ailleurs. C’est juste la normalité des choses, selon moi.
Et… Et oui, j’ai toujours été à l’aise avec la discipline, j’ai jamais eu de problème quelconque.
A : Mais le fait justement maintenant par exemple d’être à l’IUT… Bon, c’est pas du tout militaire…
An : Non.
A : Je sais pas, qu’est-ce que vous pensez du comportement de certains étudiants, ou… je sais pas… ou de
l’attitude entre les étudiants et les profs ?
An : Bah je pense que, honnêtement, il y aurait pas mal d’élèves qui seraient partis du lycée militaire en pleurant,
comme j’en ai vu le premier jour, d’ailleurs.
A : Oui ?
An : Oui. Et par rapport aux professeurs, disons que la pédagogie n’est pas la même.
A : Qu’est-ce qui était mieux alors au lycée militaire ?
An : Disons que au lycée militaire, on était dans les temps (12). On finissait toujours le programme super en
avance (13), donc on avait beaucoup de temps pour réviser. Puis en plus, les professeurs, ils apportaient
beaucoup d’eux-mêmes par rapport à la culture et tout ça. Puis comme le soir, on était obligé de travailler
jusqu’à 21 heures 30, il me semble…
A : Oui ? Il y avait étude surveillée, quoi.
An : Etude surveillée.
A : Oui. Donc du coup, les élèves travaillent beaucoup plus.
An : Voilà.
A : Et le niveau est plus… plus élevé.
An : 100 % de réussite au bac.
A : Et… Mais vous trouvez ça dur ici à l’IUT, au niveau de l’ambiance ?
An : Au niveau… En fait, ce qui est dur à l’IUT, c’est surtout le contexte, le contexte parce que c’est vrai que il y a
la route à faire (14), ce qu’il n’y avait pas là-bas, vu qu’on était directement sur place.
A : Ah oui, c’est une perte de temps et c’est de la fatigue.
An : Voilà, c’est… c’est de la fatigue de conduire. On arrive, on n’est pas forcément motivé. Le fait que aussi, ce
qui choque c’est le manque d’activités sportives.
A : Ah bah oui, oui, c’est ça, dans un lycée militaire, il y a beaucoup de…
An : Bah on avait minimum une heure de sport par jour, quoi, alors que là on se retrouve à…
A : Rien !
An : A rien.
A : Assis sur une chaise.
An : Voilà, c’est ça.
A : Donc c’est un peu dur quand on a eu l’habitude…
An : Ouais.
A : … de se bouger (15) tous les jours.
An : Oui.
A : Et vous faisiez quoi comme sport ? C’était des activités différentes selon les jours ?
An : On avait le choix. On avait un peu de tout : grimpé à la corde, entraînement musculaire, rugby, football,
basketball, handball, etc, etc…
A : Oui, oui, oui. Donc très varié.
An : Oui.
A : Et il y a des filles ?
An : Oui, il y avait des filles, oui.
A : C’est mixte.
An : Oui, c’est mixte.
A : Bon.
An : Enfin, internats séparés, mais c’est… c’est mixte.
A : Il y a plus de filles que de garçons… enfin, c’est pareil ou… ? Une majorité de garçons ?
An : Non, il y a plus de garçons que de femmes.
A : Mais vous voulez dire dans les profs ou dans les élèves ?
An : Dans les élèves.
A : D’accord.
An : Après, dans les profs, c’était assez aléatoire.
A : Et alors, l’histoire de l’uniforme ?
An : Bah l’uniforme, on a…
A : C’est quoi ?
An : En fait, on avait une tenue.
A : Oui.
An : Une tenue d’été, une tenue d’hiver, une tenue de cérémonie. On avait une tenue extérieure aussi et une
tenue de sport, enfin, on a des tenues spécifiques.
A : Donc ça fait… Tout est bien organisé, quoi.
An : Tout est bien organisé, tout est droit, tout est carré (16).
A : Bon, bah écoutez, bon courage ailleurs !
An : Merci.
A : Et puis, bah il faudrait nous montrer vos uniformes un jour !
An : Sur les photos peut-être.
A : Oui, voilà. Merci.





Edited by s_allard on 04 September 2014 at 7:51pm

1 person has voted this message useful



s_allard
Triglot
Senior Member
Canada
Joined 5229 days ago

2704 posts - 5425 votes 
Speaks: French*, English, Spanish
Studies: Polish

 
 Message 13 of 55
04 September 2014 at 7:47pm | IP Logged 
One of the interesting aspects of those France Bienvenue conversations is the fact that the interviewer is learning
vocabulary from the other person. The person doesn't come to the conversation know all the words they are
about to hear. For example in the Lycée militaire conversation there is this exchange:

A : Et alors, l’histoire de l’uniforme ?
An : Bah l’uniforme, on a…
A : C’est quoi ?
An : En fait, on avait une tenue.
A : Oui.
An : Une tenue d’été, une tenue d’hiver, une tenue de cérémonie. On avait une tenue extérieure aussi et une
tenue de sport, enfin, on a des tenues spécifiques.

Interviewer A doesn't know anything about military school life and uses the word "uniforme" and is quickly told
that there is a series of "tenue" for different occasions. In essence, A is learning the vocabulary as the
conversation goes on.

This is important because when we think about what a 300-word starting vocabulary would look like, we should
think of it as a closed list of words but more like an open set with devices for expanding this set.

Using what we have seen so far, what would a 300-word vocabulary look like. I suggest it would be something
along these lines.

Verbs: 80
Nouns: 130
Adjectives: 20
Adverbs: 30
Pronouns: 15
Connecting words: 25

Now the question of course is what to put in those categories, especially verbs and nouns. For the verbs, the 59
verbs we say here and 20 others of one's choosing should be a great start. Throw in "manger, boire, laver,
dormir, coucher, etc." Some useful one will be missing. Maybe pleuvoir, geler, glisser won't on list. Big deal, we're
just starting out. But if you master the intricacies of using 80 verbs, you will be way ahead of the pack of people
who have been studying French for years

For the nouns, I certainly wouldn't suggest using the specialized words in the conversations here. I would think
that a good strategy would be to start with words related to basic actions, the body, common objects, places
(including the bathroom), etc. For heaven's sake, please don't tell me that you won't be able to talk about all
kinds of technical topics with 130 nouns. I know that.

A key element of this strategy is learning how to ask for words. If you walk into a bakery you won't certainly know
the fancy names for all those pastries and breads. Most native speaker don't know either. But they know how to
ask. If you can say "Qu'est-ce c'est?" properly, a whole world of words will open up to you.

Now, I'm not suggesting that you put 300-words on Anki and claim that you'll be speaking French after two
months. It's definitely not that easy. But you don't have to know 2,000 words to begin speaking French.

1 person has voted this message useful



s_allard
Triglot
Senior Member
Canada
Joined 5229 days ago

2704 posts - 5425 votes 
Speaks: French*, English, Spanish
Studies: Polish

 
 Message 14 of 55
04 September 2014 at 8:14pm | IP Logged 
If can be the devil's advocate against my own position, the real objection to this idea of a 300-word vocabulary in
French is that to use a small vocabulary like the users in the conversations here, you have to be an excellent speaker
of French. After all, these are native speakers. In other words, only native speakers can really have a 145-word
conversation. A beginner with only 300 words will be stumbling all the time.

This is not entirely true. That 300-word figure is what I, like most teachers of French, call a threshold. It's the point
where you have basically all the tools to be able to have real conversations. That said, if you are beginning French
and learn just 300 words according to my idea, you will not sound like the people in these conversations. I don't
even believe in counting words at all. I'm simply saying that in reality the spoken language is not as complicated as
it looks. it is extremely repetitive and redundant. If you concentrate on the core features and decent pronunciation,
you can be up and running quickly.
1 person has voted this message useful





emk
Diglot
Moderator
United States
Joined 5331 days ago

2615 posts - 8806 votes 
Speaks: English*, FrenchB2
Studies: Spanish, Ancient Egyptian
Personal Language Map

 
 Message 15 of 55
04 September 2014 at 8:44pm | IP Logged 
s_allard wrote:
Verbs: 34 e.g.: avoir, parler, faire, dire, falloir, etc.
Nouns: 41 e.g.: jour, matin, lentilles, année, etc.
Adjectives: 17 e.g.: autre, astigmate, gênant, etc.
Adverbs: 21 e.g. vraiment, tout, aussi, ben, moins, etc.,
Pronouns: 10, e.g.: ce, ça, je, les, vous, elle, en, moi, me, on
Connecting words: 23 e.g.: que, à, sur, ah, des, et, pas, quand, comme, etc.

I should say that I had difficulty categorizing some words.

Yeah, it's really hard to draw clear lines. Are je and moi separate words? If tout is an adverb, why does it agree in gender? Should we count aller, va and ira as the same word?

One way to deal with this is to accept that all categorizations are approximate, and all counts only accurate the nearest 10% to 20%. This leaves us room to be a bit sloppy.

s_allard wrote:
The number of verbs will probably be similar and the
actual verbs will vary. On the other hand, if the we look at what I call the aggregate word effect, as we look at the
verbs of each new text, the number of totally new verbs will decline rapidly. My guess is that after around 100
different verbs we will see the number of new verbs taper off quickly. I may be wrong though.

Well, let's find out.

Code:
create temporary table temp as select lemme,sum(freqfilms2) as freqfilms2,sum(freqlivres) as freqlivres from lexique where cgram = 'VER' or cgram = 'AUX' group by lemme;

select lemme from temp order by freqfilms2 desc limit 300;

This gives us the 300 most common French verbs:

Quote:
être avoir aller faire dire pouvoir vouloir savoir voir devoir venir suivre parler prendre croire aimer falloir passer penser attendre trouver laisser arriver donner regarder appeler partir mettre rester arrêter connaître tuer mourir demander comprendre sortir entendre chercher aider essayer revenir plaire jouer finir perdre sentir rentrer vivre rendre tenir oublier travailler écouter manger entrer devenir commencer payer tirer ouvrir changer tomber foutre excuser dormir occuper marcher envoyer apprendre boire garder montrer asseoir porter souvenir prier servir écrire espérer désoler retrouver gagner acheter rappeler lire monter quitter emmener toucher continuer importer manquer raconter répondre sauver retourner rencontrer voler fermer valoir descendre suffire sembler compter marier poser inquiéter bouger apporter décider vendre cacher tourner expliquer battre agir imaginer adorer recevoir jeter pleurer amener promettre mentir utiliser coucher préférer offrir réveiller préparer permettre ramener enlever lâcher choisir conduire calmer chanter disparaître lever présenter accepter revoir casser frapper ignorer couper taire tromper ressembler jurer courir remettre refuser terminer amuser intéresser reconnaître rire pardonner embrasser danser exister réussir protéger prévenir habiter déranger reprendre détruire pousser découvrir sauter rêver détester paraître empêcher maintenir supposer épouser approcher craindre crier inviter réfléchir arranger naître souffrir remercier baiser attraper dépêcher abandonner vérifier brûler assurer traiter blesser dégager filer risquer mener attaquer fumer répéter signer ficher mériter rejoindre discuter avancer reposer échapper charger obliger accompagner oser regretter prouver couvrir obtenir éviter plaisanter virer supporter régler souhaiter créer surveiller recommencer coûter parier appartenir remarquer rater retirer tenter dîner partager ressentir défendre fatiguer prévoir douter apprécier fuir bosser respirer récupérer libérer lancer durer laver sonner deviner ravir traverser retenir remonter réaliser moquer étudier installer proposer emporter engager cesser signifier réparer construire chier profiter pleuvoir séparer désirer traîner respecter enfuir diriger crever poursuivre forcer grandir interdire enterrer causer baisser survivre commander ennuyer prêter nettoyer atteindre rouler débarrasser avouer plaindre remplir contrôler taper

This is a nice corpus, actually: I like seeing words like rater and bosser (and yes, even taire and foutre) nice and high in the list, because they're actually quite common in spoken in spoken French. Honestly, there's not a single one of those verbs that I'd like to try to live without for very long.

But let's see how the frequencies drop off:

Code:
select lemme,freqfilms2 from temp order by freqfilms2 desc limit 50;

Exported and loaded into a spreadsheet, we get:



Basically, the top 10 verbs are everywhere, and the next 10 do a lot of the work. By the time we reach 50, we've got a lot, flat tail. But that tail just keeps going. For example, here are verbs 901 through 1000:

Quote:
situer critiquer revivre tracasser diffuser encaisser photographier renforcer graver cultiver compromettre manifester protester diviser décharger patienter débuter désigner explorer infecter récompenser financer baptiser progresser insinuer capter pécher détecter gueuler soupirer baver aviser liquider heurter projeter refiler repenser endurer contaminer poster regagner repentir interpréter émettre émouvoir exploiter stopper polir négliger redonner blaguer blâmer surfer combler fasciner convertir présumer expulser surmonter tousser préciser remporter avérer gémir coter apprêter prédire égorger réconcilier forger rougir écouler constituer rafraîchir clocher redresser coudre connecter lover souper dévoiler verrouiller faciliter gronder raisonner naviguer prescrire imprimer dissimuler dédier expédier bousculer débattre encercler redire accéder extraire contempler décorer éclaircir

There's a lot of B1 and B2 level vocabulary here, certainly, and we're starting to see lots of written-register verbs even in the subtitle dataset. But it's still pretty useful stuff.

Let's take that graph, and convert it to a cumulative graph. First we need the total of the freqfilms2 column over our verb data set:

Code:
sqlite> select sum(freqfilms2) from temp;
225024.19

And then we can add a few formulas to Google Docs and get:



At the right hand edge of the graph, we know 1,000 verbs, and if we see a verb in a movie subtitle, there's a 97.64% chance that it's on our list. (We're counting text coverage here.) That's not bad, but I actually hoped that 1,000 verbs would give us better text coverage.

Interestingly, knowing 290 verbs will allow us to identify 9 out of every 10 verbs we encounter in movie subtitles. That's low enough to be pretty annoying, actually.
4 persons have voted this message useful



s_allard
Triglot
Senior Member
Canada
Joined 5229 days ago

2704 posts - 5425 votes 
Speaks: French*, English, Spanish
Studies: Polish

 
 Message 16 of 55
04 September 2014 at 9:54pm | IP Logged 
emk wrote:
s_allard wrote:
Verbs: 34 e.g.: avoir, parler, faire, dire, falloir, etc.
Nouns: 41 e.g.: jour, matin, lentilles, année, etc.
Adjectives: 17 e.g.: autre, astigmate, gênant, etc.
Adverbs: 21 e.g. vraiment, tout, aussi, ben, moins, etc.,
Pronouns: 10, e.g.: ce, ça, je, les, vous, elle, en, moi, me, on
Connecting words: 23 e.g.: que, à, sur, ah, des, et, pas, quand, comme, etc.

I should say that I had difficulty categorizing some words.

Yeah, it's really hard to draw clear lines. Are je and moi separate words? If tout is an adverb, why
does it agree in gender? Should we count aller, va and ira as the same word?

One way to deal with this is to accept that all categorizations are approximate, and all counts only accurate the
nearest 10% to 20%. This leaves us room to be a bit sloppy.

...

The reason it's hard to draw clear lines is that the same word can be in different categories. Counting the verbs
inflections was not a problem because I used the infinitive form. A bigger was problem was for example tout
which can be an invariable adverb in tout content and tout près or an adjective in toute seule. It can also be a
noun in du tout. Je and moi could be counted as separate words because they occupy different functional slots,
like the English I and me.

I don't think there are any mistakes as such. I think it's more a question of a word being in multiple categories.
For example, is motivé in j'étais motivé a verb or an adjective? It all depends on the analysis. In this sort of case, I
simply said it was an adjective. What is pas du tout? Is it three words or a compound? In a case like this,
I would arbitrarily put that under a one-word or one unit adverb.

Edited by s_allard on 04 September 2014 at 10:01pm



1 person has voted this message useful



This discussion contains 55 messages over 7 pages: << Prev 13 4 5 6 7  Next >>


Post ReplyPost New Topic Printable version Printable version

You cannot post new topics in this forum - You cannot reply to topics in this forum - You cannot delete your posts in this forum
You cannot edit your posts in this forum - You cannot create polls in this forum - You cannot vote in polls in this forum


This page was generated in 1.1875 seconds.


DHTML Menu By Milonic JavaScript
Copyright 2024 FX Micheloud - All rights reserved
No part of this website may be copied by any means without my written authorization.