Python を使用してファイル内の最も頻繁に使用される単語をカウントする

テキスト内で最も頻繁に使用される単語を数えるのは、自然言語処理 (NLP) における一般的なタスクです。これは、テキストの主要なトピックを特定したり、そのスタイルを分析したり、要約を生成したりするために使用できます。テキスト内で最も頻繁に使用される単語を数える方法はいくつかあります。このチュートリアルでは、ファイル内で最も頻繁に使用される単語を数える Python プログラムの作成方法を学びます。

ファイル内で最も頻繁に使用される単語を数える Python プログラムを作成する方法は次のとおりです。

words = []
with open("aman.txt", "r") as f:
    for line in f:
        words.extend(line.split())

from collections import Counter
counts = Counter(words)
top5 = counts.most_common(5)
print(top5)

出力：

[('the', 5), ('you', 5), ('Python', 4), ('is', 4), ('of', 3)]

上記のコードでは、まずコンピュータからテキストファイルを読み取り、次にすべての単語を分割して Python リストに保存しています。次に、Python のコレクションモジュールの Counter メソッドを使用して、リスト内のすべての単語の頻度を数えます。最終的に、ファイル内で最も頻繁に使用される単語の上位 5 つを出力します。

これは、任意のファイルから最も頻繁に使用される単語をカウントするプログラムを作成する方法です。