solrのインデクシングの最適化

solrのインデクシングの最適化

とあるサイトで検索システム「Solr」を導入した際に、検索インデックスの生成時間を短縮するため、様々な検証を重ねながら改善を行いました。
そこで得られた知識から、インデックス設計で注意する点など、効果の大きかったものをご紹介したいと思います。
※前提として、データインポートハンドラーを使って、RDBからインデックスを生成する場合となります。

1.indexed属性とstored属性を適切に
Solrのインデックス項目にはindexed属性とstored属性というものがあります。
indxed属性は検索させるか否かの設定で、検索に関連しないフィールドであればfalseに設定します。
stored属性は原文を保持するか否かの設定で、具体的には、「flパラメータを指定して検索結果としてテキストを取得しない」フィールドであればfalseに設定します。
これらの設定はインデックスの生成時間やインデックスのデータサイズに影響しますので、項目ごとに適切に設定する必要があります。

2.data-configで子エンティティを出来る限り減らす
data-configで子エンティティがあった場合、親エンティティの行ごとに子エンティティのSQLを実行するようになるため、multiValueをtrueにする必要のないものなどはJOINして対応するなど、子エンティティを出来る限り減らすようにします。

以下の設定の場合entity「hoge」の行数分、 子エンティティ「hoge_child」のSQLが実行されます。
◆data-config.xmlの設定例(一部抜粋)

<entity name=”hoge” query=”select id,child_id ,name from hoge_table”>
<entity name=”hoge_child” query=”select id,name from hoge_child_table where id = ‘${hoge.child_id}'”>

3.data-configで定義しているSQL文の最適化
最適化を重ねた中で、これが一番効果があったように思います。
RDBからインデクシングする場合、当然ながらSolrはSQLを実行してインデックスを作るため、一番ボトルネックになりやすいのではないかと思います。
実行しているSQLを全て検証し、適切にインデックスがはられているか、無駄な処理は無いかを丁寧に調べていきました。
上でも解説していますが、特に子エンティティがある場合、親エンティティの行ごとに子エンティティのSQLが実行されるため、データが多ければ多いほど影響が大きくなります。
ひとつのSQLでコンマ何秒という短い時間だとしても、データが数万行あると無視できない時間になります。

TAG

  • このエントリーをはてなブックマークに追加
金子 将範
エンジニア 金子 将範 rubyist

新しいことや難しい課題に挑戦することにやりがいを感じ、安定やぬるい事は退屈だと感じます。 考えるより先に手が動く、肉体派エンジニアで座右の銘は諸行無常。 大事なのは感性、プログラミングにおいても感覚で理解し、感覚で書きます。