FXニュースセンチメントAIを自作する方法【Pythonで実装するNLP分析】

FXトレードにニュースセンチメント分析を取り入れるために、私はPythonでゼロから自作ツールを構築した。最初は「機械学習は難しい」と思っていたが、HuggingFaceのFinBERTモデルとNewsAPIを組み合わせると、意外にシンプルな実装で動くものができた。この記事では、その手順を再現可能な形でまとめる。

ニュースセンチメント分析とは何か

ニュースセンチメント分析の概念図：ポジティブ・ネガティブ・ニュートラルの3分類 Photo by Maxim Hopman on Unsplash

ニュースセンチメント分析とは、テキストデータ（ニュース記事・SNS・中央銀行声明など）を自然言語処理（NLP）で解析し、ポジティブ／ネガティブ／ニュートラルの3段階に分類する手法だ。

FX市場では、米雇用統計の発表文が「予想を上回った」と解釈されれば米ドル買いの圧力が強まる傾向がある。この「解釈」を自動化するのがセンチメント分析の役割だ。

主な分析対象となるデータソースを整理する。

| データソース | 特徴 | 反応速度 | |---|---|---| | 経済指標ニュース | 数値と評価が混在 | 発表直後 | | 中央銀行声明 | 政策転換ヒントが含まれる | 数分以内 | | 地政学リスクニュース | 不規則・急騰急落を誘発 | リアルタイム | | SNS（X/旧Twitter） | ノイズが多い | 極めて高速 |

センチメント分析の精度は手法によって大きく異なる。単純なルールベース（VADER）と、金融特化の大規模言語モデル（FinBERT）では、金融テキストにおける正答率が10〜20ポイント異なるという報告がある。

必要なライブラリとAPIの準備

Pythonの仮想環境構築とライブラリインストール画面 Photo by Igor Omilaev on Unsplash

まずPython環境（3.9以上を推奨）を用意し、以下のライブラリをインストールする。

pip install transformers torch newsapi-python pandas requests vaderSentiment

主要ライブラリの役割:

transformers (HuggingFace) — FinBERTモデルのロードと推論
torch — PyTorchバックエンド（FinBERT実行に必要）
newsapi-python — NewsAPIクライアント
vaderSentiment — 軽量ルールベース分析（高速処理に使用）
pandas — センチメントスコアの時系列管理

ニュースAPIの選択:

無料枠で使えるNewsAPI（newsapi.org）が入門に最適だ。月100リクエストまで無料で、/v2/everythingエンドポイントでキーワード検索ができる。本格運用にはBloomberg API・Refinitiv Ekstraも選択肢に入るが、コストが跳ね上がる。

NewsAPIのAPIキーを取得したら、環境変数に設定しておく。

import os
NEWS_API_KEY = os.environ.get("NEWS_API_KEY")

Pythonでセンチメント分析を実装する手順

ここではFinBERTを使った実装例を示す。ProsusAI/finbertはHuggingFaceで公開されている金融テキスト特化モデルで、英語の金融ニュースに対して高い精度を持つ。

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
import torch.nn.functional as F
from newsapi import NewsApiClient

# FinBERTのロード
MODEL_NAME = "ProsusAI/finbert"
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModelForSequenceClassification.from_pretrained(MODEL_NAME)
model.eval()

def analyze_sentiment(text: str) -> dict:
    """テキストのセンチメントスコアを返す"""
    inputs = tokenizer(text, return_tensors="pt", truncation=True, max_length=512)
    with torch.no_grad():
        outputs = model(**inputs)
    scores = F.softmax(outputs.logits, dim=-1).squeeze()
    labels = ["positive", "negative", "neutral"]
    return {label: float(score) for label, score in zip(labels, scores)}

# NewsAPIでFX関連ニュースを取得
newsapi = NewsApiClient(api_key=NEWS_API_KEY)

def fetch_fx_news(query: str = "USD JPY Federal Reserve", page_size: int = 20) -> list:
    response = newsapi.get_everything(
        q=query,
        language="en",
        sort_by="publishedAt",
        page_size=page_size
    )
    return response.get("articles", [])

# センチメントスコアを計算
articles = fetch_fx_news()
results = []
for article in articles:
    title = article.get("title", "")
    sentiment = analyze_sentiment(title)
    results.append({
        "publishedAt": article["publishedAt"],
        "title": title,
        **sentiment
    })

FinBERTはpositive・negative・neutralの3クラスそれぞれに確率スコアを返す。たとえば「Fed raises rates by 75bps, signals further hikes」に対してはnegative: 0.82程度のスコアが出る傾向がある（実際のスコアはモデルバージョンや文脈により変動する）。

FXシグナルへの変換ロジック

センチメントスコアをそのままFXシグナルにするのは難しい。ここではシンプルなセンチメントスコア集計の例を示す。

import pandas as pd

def calculate_composite_score(results: list, window_minutes: int = 60) -> float:
    """直近N分のニュースから複合センチメントスコアを計算"""
    df = pd.DataFrame(results)
    df["publishedAt"] = pd.to_datetime(df["publishedAt"])
    df = df.sort_values("publishedAt")

    # 直近window分を抽出
    cutoff = df["publishedAt"].max() - pd.Timedelta(minutes=window_minutes)
    recent = df[df["publishedAt"] >= cutoff]

    if recent.empty:
        return 0.0

    # ポジティブ - ネガティブ の加重平均
    composite = (recent["positive"] - recent["negative"]).mean()
    return composite

def generate_signal(score: float, threshold: float = 0.2) -> str:
    """スコアをBUY/SELL/HOLDシグナルに変換"""
    if score > threshold:
        return "BUY"
    elif score < -threshold:
        return "SELL"
    else:
        return "HOLD"

閾値threshold=0.2はあくまで例示であり、通貨ペアや時間帯によって最適値は異なる。本番運用前に必ずバックテストで検証すること。

バックテストで有効性を検証する

バックテスト結果のグラフ：センチメントスコアと価格変動の相関 Photo by Maxim Hopman on Unsplash

センチメントシグナルの有効性を確かめるには、過去データを使ったバックテストが不可欠だ。ここでは検証の考え方を示す。

def backtest_sentiment_signal(
    sentiment_df: pd.DataFrame,
    price_df: pd.DataFrame,
    forward_hours: int = 4
) -> pd.DataFrame:
    """
    センチメントシグナル発生後のforward_hours後のリターンを計算
    sentiment_df: timestamp, signal列を持つDataFrame
    price_df: timestamp, close列を持つDataFrame
    """
    results = []
    for _, row in sentiment_df.iterrows():
        entry_time = row["timestamp"]
        exit_time = entry_time + pd.Timedelta(hours=forward_hours)

        entry_price = price_df[price_df["timestamp"] >= entry_time]["close"].iloc[0]
        exit_prices = price_df[price_df["timestamp"] >= exit_time]["close"]

        if exit_prices.empty:
            continue

        exit_price = exit_prices.iloc[0]
        pnl = (exit_price - entry_price) if row["signal"] == "BUY" else (entry_price - exit_price)
        results.append({"signal": row["signal"], "pnl_pips": pnl * 100})

    return pd.DataFrame(results)

バックテストで確認すべき指標は以下の通りだ。

| 指標 | 目安 | 注意点 | |---|---|---| | 勝率 | 50%以上 | 単体では判断不足 | | プロフィットファクター | 1.3以上 | 手数料考慮前後で異なる | | 最大ドローダウン | 20%以下 | 許容リスクに依存 | | シャープレシオ | 1.0以上 | リスク調整後リターンの目安 |

過去データでよい結果が出ても、未来の相場で同じパフォーマンスを保証するものではない。センチメント分析は相場のひとつの補助指標として捉えるべきだ。

運用上の注意点と限界

1. 英語ニュースに偏るバイアス FinBERTは英語テキストに最適化されている。日本語ニュースを分析する場合はkoheiduck/bert-japanese-finetuned-sentimentなどの日本語対応モデルを選ぶか、翻訳を挟む必要がある。

2. ニュースの重複とノイズ 同一ニュースが複数メディアに転載されるケースが多い。重複除去処理（URLハッシュやタイトルのcos類似度）を入れないと、スコアが偏る傾向がある。

3. レイテンシの問題 NewsAPIの無料プランはリアルタイム性に制限がある。高頻度取引でニュースをシグナルに使う場合、有料APIや直接RSSスクレイピングが必要になる。

4. ブラックスワンへの無力さ パンデミックや地政学リスクの突発的ニュースに対し、過去データで学習したモデルは適切なセンチメントを返せないことがある。ストップロスの設定は必須だ。

5. 過学習（オーバーフィット）リスク バックテストの閾値や期間を最適化しすぎると、in-sample では高スコアでもout-of-sample で崩壊する。Walk-forward analysisで検証するのが望ましい。

免責事項: 本記事で紹介するコードおよびシグナルロジックは、教育・研究目的のサンプルです。実際のFX取引への適用により生じた損失について、当メディアは一切の責任を負いません。FX取引には元本割れリスクがあり、過去の検証結果は将来の利益を保証するものではありません。

よくある質問（FAQ）

Q1. FinBERTとVADERはどちらを使えばよいですか？

金融テキストを分析するならFinBERTが優先だ。VADERは汎用テキスト向けで、「raise（利上げ）」を単純にポジティブ判定してしまうなど、金融文脈で誤判定しやすい。処理速度はVADERの方が圧倒的に速いため、大量のニュースを素早くフィルタリングしてからFinBERTで精査するという使い分けも有効だ。

Q2. NewsAPIの無料プランでFXシグナルを実用化できますか？

難しい。無料プランは1日100リクエストの制限と、記事取得の遅延（最大24時間）がある。スキャルピングや短期トレードには不向きだ。実用化を目指すなら、月額$449〜のNewsAPI Businessプランか、独自のRSSクローラー構築を検討する必要がある。

Q3. センチメント分析だけでFXトレードは成立しますか？

単独では難しい。センチメント分析はあくまで補助指標のひとつだ。テクニカル分析（移動平均・RSI等）やファンダメンタルズ（政策金利・経済指標）と組み合わせて、多面的にシグナルを確認することが重要だ。また、どのような手法を用いても損失リスクは常に存在するため、ポジションサイジングとストップロスの設定は必ず行うこと。

免責事項: FX（外国為替証拠金取引）はリスクの高い金融商品です。本記事の情報は投資助言ではありません。実際の取引判断はご自身の責任で行ってください。取引を始める前に、各金融機関の「取引説明書」を必ずお読みください。

有料サインツールが、全部タダになる。